본문 바로가기

Hadoop

(3)
VMware + 우분투(Ubuntu) 12.04 LTS에서 하둡(Hadoop) 설치하기 Linux를 써보기는 해봤지만, 익숙하지 않은 나에게 이제는 linux가 익숙해 져야만 하는 때가 왔다. 이제 뭘 개발을 하려해도 windows 환경보다는 linux에서 먼저 개발을 해야하기 때문에.. 일단 몇일간 hadoop에 대한 내용을 책이나 인터넷을 통해 읽었고, 직접 설치하고 테스트 해보기로 했다. 설치는 노트북에서 vmware를 설치해두고 그 위해서 수행하였다. - 노트북 사양 : Samsung series 9 (Windows 8, 8G RAM, i5 1.7GHz core, 128G SSD, ...)- 설치 : VMware 8.0 + ubuntu 12.04 LTS(32bit) 1. VMware + Ubuntu 12.04 LTS 설치 위와 같은 환경으로 VMware를 설치했고, Ubuntu 12..
RDBMS와 맵리듀스 비교 시스템을 구축할때, 고민하게 되는것이 내가 하고자 하는 어플리케이션에서 가지는 데이터들의 특성을 고려했을때 하둡시스템이 좋은가.. 아니면 기존 RDBMS가 좋은가를 고민하게 되는것 같다.. 왜냐하면, 둘다 잘 모르기때문에..ㅡ,.ㅡ; MySQL과 같은 RDBMS를 잠시 써보기는 해봤어도, 경험만 해봤지.. 내부적으로 어떤 구조로 동작하는지, 잘 모른다. DB최적화에 노하우가 없기때문에.. 일단 RDBMS와 맵리듀스의 차이를 봤다. 전통적인 RDBMS 맵리듀스 데이터 크기 기가바이트 페타바이트 액세스 대화형과 일괄처리 일괄처리 업데이트 여러번 읽고 쓰기 한번쓰면 여러번 읽기 구조 고정 스키마 동적 스키마 무결성 높음 낮음 확장성 비선형 선형 출처 : Hadoop 완벽가이드 / 한빛
Hadoop 완벽가이드 요즘 관심있게 보고 있는것들이 병렬처리와 MPI(Message Passing Interface) 그리고, 이 Hadoop인데.. 내가 이 책을 보는 이유는 내 연구에 실제 시스템구현에 도움을 줄 수 있기를 기대하기 때문이다.. 기본적인 아이디어를 간단히 말하면 이렇다. 사람의 두뇌가 의식(?)의 이동은 serial인데, 그 내부의 정보수집 및 처리는 parallel이다라는 것에서 시작한다. 다시 말하면, 우리가 동시에 여러가지 생각을 할 수 없다는 것인데, 한가지 생각이나 기억에서 다른 기억으로 전이되는 경우는 있어도 행복한 기억과 슬픈 기억을 동시에 떠올릴수 없는 것처럼, 생각의 흐름이 동시에 일어날 수는 없다. 이런 의식은 serial하게 진행하지만, 실제로 뇌속에 기억을 담당하는 물리적인 저장소는 ..