본문 바로가기

하둡

(5)
ubuntu 12.10에 maven과 mahout 설치하기 이전에 하둡설치에 대해서는 포스팅을 했었다.(http://abipictures.tistory.com/791)이번에는 우분투 12.1에 메이븐(maven)과 머하웃(mahout)을 설치하는 방법을 포스팅하려고 한다. 1. 메이븐 설치- 우분투 소프트웨어 센터에서 쉽게 설치하자. 'maven'으로 검색하면 다음과 같이 뜨는데, 첫번째 프로그램을 설치하면 된다. 'Java software project management and comprehension tool' 메이븐에 대해서 설명하면, 의존성관리나 코드 컴파일, 패키지 릴리즈, 문서 생성과 공식 릴리즈를 처리하는 명령행 도구이다. 2. 머하웃 설치- mahout은 직접 다운로드 받아서 설치해야 한다. 아래와 같이 입력한다.- 참고로 머하웃은 scalabl..
VMware + 우분투(Ubuntu) 12.04 LTS에서 하둡(Hadoop) 설치하기 Linux를 써보기는 해봤지만, 익숙하지 않은 나에게 이제는 linux가 익숙해 져야만 하는 때가 왔다. 이제 뭘 개발을 하려해도 windows 환경보다는 linux에서 먼저 개발을 해야하기 때문에.. 일단 몇일간 hadoop에 대한 내용을 책이나 인터넷을 통해 읽었고, 직접 설치하고 테스트 해보기로 했다. 설치는 노트북에서 vmware를 설치해두고 그 위해서 수행하였다. - 노트북 사양 : Samsung series 9 (Windows 8, 8G RAM, i5 1.7GHz core, 128G SSD, ...)- 설치 : VMware 8.0 + ubuntu 12.04 LTS(32bit) 1. VMware + Ubuntu 12.04 LTS 설치 위와 같은 환경으로 VMware를 설치했고, Ubuntu 12..
RDBMS와 맵리듀스 비교 시스템을 구축할때, 고민하게 되는것이 내가 하고자 하는 어플리케이션에서 가지는 데이터들의 특성을 고려했을때 하둡시스템이 좋은가.. 아니면 기존 RDBMS가 좋은가를 고민하게 되는것 같다.. 왜냐하면, 둘다 잘 모르기때문에..ㅡ,.ㅡ; MySQL과 같은 RDBMS를 잠시 써보기는 해봤어도, 경험만 해봤지.. 내부적으로 어떤 구조로 동작하는지, 잘 모른다. DB최적화에 노하우가 없기때문에.. 일단 RDBMS와 맵리듀스의 차이를 봤다. 전통적인 RDBMS 맵리듀스 데이터 크기 기가바이트 페타바이트 액세스 대화형과 일괄처리 일괄처리 업데이트 여러번 읽고 쓰기 한번쓰면 여러번 읽기 구조 고정 스키마 동적 스키마 무결성 높음 낮음 확장성 비선형 선형 출처 : Hadoop 완벽가이드 / 한빛
빅데이터에 대한 오해 세가지 빅데이터에 대한 오해 세가지. 빅데이터가 무엇이며, 무엇을 할 수 있는 지에 대한 상당한 오해가 있다. 다음은 그 세가지 오해다. 1. 관계형 DBMS는 매우 큰 볼륨으로 확장할 수 없기 때문에 빅 데이터 기술로 보기 어렵다. (X) 2. 하둡 또는 확장에 따른 모든 맵리듀스 환경은 작업부하와 조건에 상관없이 빅 데이터를 위한 최선의 선택이다. (X) 3. 도식적인(Schematic) DBMS 시대는 끝났다. 스키마 개발은 빅데티어 도입에 방해만 될 뿐이다. (X) 출처 : IDG Tech Report '빅데이터의 이해' 처음 빅데이터라는 말을 들었을때, 너도 나도 자신들이 다루를 문제가 빅데이터라고 했다. 그래서 빅데이터에 대한 전문가들이 합의한 정의가 궁금해졌는데, 3V라고 해서 Velocity, V..
Hadoop 완벽가이드 요즘 관심있게 보고 있는것들이 병렬처리와 MPI(Message Passing Interface) 그리고, 이 Hadoop인데.. 내가 이 책을 보는 이유는 내 연구에 실제 시스템구현에 도움을 줄 수 있기를 기대하기 때문이다.. 기본적인 아이디어를 간단히 말하면 이렇다. 사람의 두뇌가 의식(?)의 이동은 serial인데, 그 내부의 정보수집 및 처리는 parallel이다라는 것에서 시작한다. 다시 말하면, 우리가 동시에 여러가지 생각을 할 수 없다는 것인데, 한가지 생각이나 기억에서 다른 기억으로 전이되는 경우는 있어도 행복한 기억과 슬픈 기억을 동시에 떠올릴수 없는 것처럼, 생각의 흐름이 동시에 일어날 수는 없다. 이런 의식은 serial하게 진행하지만, 실제로 뇌속에 기억을 담당하는 물리적인 저장소는 ..