시스템을 구축할때, 고민하게 되는것이 내가 하고자 하는 어플리케이션에서 가지는 데이터들의 특성을 고려했을때 하둡시스템이 좋은가.. 아니면 기존 RDBMS가 좋은가를 고민하게 되는것 같다.. 왜냐하면, 둘다 잘 모르기때문에..ㅡ,.ㅡ; MySQL과 같은 RDBMS를 잠시 써보기는 해봤어도, 경험만 해봤지.. 내부적으로 어떤 구조로 동작하는지, 잘 모른다. DB최적화에 노하우가 없기때문에..
일단 RDBMS와 맵리듀스의 차이를 봤다.
|
전통적인 RDBMS |
맵리듀스 |
데이터 크기 |
기가바이트 |
페타바이트 |
액세스 |
대화형과 일괄처리 |
일괄처리 |
업데이트 |
여러번 읽고 쓰기 |
한번쓰면 여러번 읽기 |
구조 |
고정 스키마 |
동적 스키마 |
무결성 |
높음 |
낮음 |
확장성 |
비선형 |
선형 |
출처 : Hadoop 완벽가이드 / 한빛