본문 바로가기

Machine Learning/Memo

빅데이터에 대한 오해 세가지

빅데이터에 대한 오해 세가지.


빅데이터가 무엇이며, 무엇을 할 수 있는 지에 대한 상당한 오해가 있다. 다음은 그 세가지 오해다.



1. 관계형 DBMS는 매우 큰 볼륨으로 확장할 수 없기 때문에 빅 데이터 기술로 보기 어렵다. (X)


2. 하둡 또는 확장에 따른 모든 맵리듀스 환경은 작업부하와 조건에 상관없이 빅 데이터를 위한 최선의 선택이다. (X)


3. 도식적인(Schematic) DBMS 시대는 끝났다. 스키마 개발은 빅데티어 도입에 방해만 될 뿐이다. (X)


출처 : IDG Tech Report '빅데이터의 이해'



처음 빅데이터라는 말을 들었을때, 너도 나도 자신들이 다루를 문제가 빅데이터라고 했다. 그래서 빅데이터에 대한 전문가들이 합의한 정의가 궁금해졌는데, 3V라고 해서 Velocity, Volume, Variety 이 세가지를 만족하는 데이터라고 대부분 동의를 하고 있는듯 했다. 그리고, 실무적으로 빅데이터에서 많이 언급하고 있는 NoSQL이나 빅테이블, 하둡분산파일시스템.. 이런걸 듣다보면 기존에 많이 이용했던 RDBMS는 빅데이터를 다루는 부분에서는 사용하지 않는것으로 생각했었다. 하지만, 아니란다.


경제적 관점에서 RDBMS보다 하둡시스템이 더 경제적이라고 말한다. 순수하게 시스템 구축비용만 보면.. 하지만, 그렇다고 하둡을 무작정 채용할 것이 아니라, 따져봐야 할 것이 바로 인건비다. 시스템 유지보수를 위한 엔지니어가 필요한데, 이 비용이 현재는 많이 올라가서 오히려 더 큰 비용을 주고 사람을 데려와야 하는 경우가 발생한다는 것이다.



그리고, 중요한것이 이 글에서, 하둡을 이용하지 않아야 하는 경우를 이야기한다.


1. 기업이 데이터에서 초 단위 이하로 상호적으로 보고하고 있거나 혹은 데이터를 다단계로 복잡한 트랜잭션에서 이용하고 있는 경우.

2. 데이터의 삽입과 삭제를 통해 업데이트 되는 경우



빅데이터를 처음 접할때 하둡이라는 것이 마치 유일한 솔루션처럼 느껴지는데, 사실은 비용적인 부분에서나 그 기능과 성능면에서도 따져봐야 할 것이 있다는 것을 다시 한번 느꼈다. 하둡은 빅데이터를 위한 정답이 아니라, 하나의 좋은 대안일 뿐..






[참고] 2012년 IDG Korea에서 발간한 문서인 '빅 데이터 기반 예측 분석의 중요성과 활용 방안'이라는 문서에서, IBM에서는 빅데이터의 정의를 위에서 언급한 3V(Velocity, Volume, Variety)진실성(Veracity)을 추가하여 정의하려고 함. 진실성이라는 것은 데이터가 가지는 모호성이 결과에도 반영되어 자칫 잘못된 결정을 만들기 때문에 데이터에 진실성에 확보되어야 한다고 함. (2013-01-04 내용 추가)


[참고] 2011년 Gartner에서 빅데이터의 정의를 3V로 정의하였다고 함. (http://www.gartner.com/it/page.jsp?id=1731916) (2013-01-06 내용 추가)