본문 바로가기

맵리듀스

(2)
RDBMS와 맵리듀스 비교 시스템을 구축할때, 고민하게 되는것이 내가 하고자 하는 어플리케이션에서 가지는 데이터들의 특성을 고려했을때 하둡시스템이 좋은가.. 아니면 기존 RDBMS가 좋은가를 고민하게 되는것 같다.. 왜냐하면, 둘다 잘 모르기때문에..ㅡ,.ㅡ; MySQL과 같은 RDBMS를 잠시 써보기는 해봤어도, 경험만 해봤지.. 내부적으로 어떤 구조로 동작하는지, 잘 모른다. DB최적화에 노하우가 없기때문에.. 일단 RDBMS와 맵리듀스의 차이를 봤다. 전통적인 RDBMS 맵리듀스 데이터 크기 기가바이트 페타바이트 액세스 대화형과 일괄처리 일괄처리 업데이트 여러번 읽고 쓰기 한번쓰면 여러번 읽기 구조 고정 스키마 동적 스키마 무결성 높음 낮음 확장성 비선형 선형 출처 : Hadoop 완벽가이드 / 한빛
맵리듀스(MapReduce)와 MPI(Message Passing Interface)의 차이? 클라우드, 빅데이터 쪽에서 많이 듣는 용어중에 하나가 맵리듀스(MapReduce)이다. map 함수와 reduce함수로 정의되는 어떤 프로그래밍 모델이라고 한다. 전체 데이터를 map으로 나눠서 처리하고 reduce로 통합처리 하는 구조라고 할까.. 이것이 클라우드 컴퓨팅에서 하둡과 함께 많이 듣는 용어가 된다. MPI는 Message Passing Interface의 약어로, 병렬처리를 처음 접하게되면 쉽게 접하는 용어이다. 이 두가지의 차이중에 하나를, 어떤 엔지니어는 작은 메세지들을 패싱하면서 노드들간에 데이터를 자주 송수신해야 하는 경우에는 MPI, 메시지가 큰 경우에는 클라우드.. 큰 차이를 이렇게 구분하더라.