본문 바로가기

Hadoop

(3)
맵리듀스 1. 개념 - 맵 : 한줄씩 읽어서 데이터를 변형 하기 (k1, v1) -> list(k2,v2) - 리듀스 : 맵의 결과 데이터를 집계 하기 (k1, list(v2)) -> (k3, list(k3)) - 따라서 Hive에서 데이터를 조회할 때, 맵퍼는 항상 할당이 되고 리듀서는 Count 등등 집계를 할 때만 할당이 됩니다. 2. 맵 리듀스 아키텍처 1. 클라이언트 - 맵리듀스 API 2. 잡트래커 - 잡의 스케줄링을 관리하고 모니터링 - 잡을 처리하기 위해 몇개의 맵과 리듀서를 실행할지 계산함. - 계산된 맵과 리듀스를 어떤 태스크트래커에서 실행할지 결정하고, 해당 태스크트래커에 잡을 할당함 3. 태스크트래커 - 사용자가 실행한 맵리듀스 프로그램을 실행하며 , 하둡의 데이터노드에서 실행되는데몬 - 잡..
HDFS 1. 기존 대용량 파일 시스템과의 차이점 - 저사양 서버를 여러 대 이용해 스토리지를 구성할 수 있음. - 물리적으로 분산된 서버의 로컬 디스크에 저장되어 있지만, 파일의 읽기 및 저장과 같은 제어는 HDFS에서 제공하는 API를 이용해 처리함 - API는 Java Base이며, "하둡은 자바로 이루어져있다" 라는 맥락은 여기서 나온게 아닌가 싶습니다. - API에 대해 정리한 내용은 아래 4. 파일 저장하기, 읽기 에 나와있습니다. 사실은 여러 서버에 분산되어 저장되어있지만, 마치 한 서버의 파일시스템 처럼 사용할 수 있음 2. HDFS 아키텍처 1) 블록 구조 파일시스템 - HDFS에 저장하는 파일은 특정 크기의 블록으로 나눠져 분산된 서버에 저장되게 됩니다. - 기본적으로 블록의 크기는 64MB이며..
CDH 중 Oozie에서 Permission에러가 나요! Cloudera를 설치하고, 다른 역할은 다 실행은 됐는데 Oozie에서 Permission 에러가 났다. 다른 서비스는 권한문제가 발생하지 않는데 우지만 권한 문제가 생겨서 해결하는데 어려움을 느꼈다. 다행히 Hive로 생성한 테이블이 HDFS에 잘 저장되었는지 메타스토어에서 확인 해 보면서 문제를 해결하게 됐다. 하이브의 메타정보는 파일의 물리적인 위치와 데이터에 대한 논리적인 정보로 구분할 수 있습니다. 이 메타정보를 보관하고 사용자의 요청에 따라 관련 정보를 제공하는 곳이 하이브 메타스토어입니다. 빅데이터-하둡, 하이브로 시작하기, 5. 메타스토어 여기서 논리적인 정보에 각 유저와 역할이 포함된다. 내가 났던 에러는 Permission Denied : oozie_oozie_server_1 ...과..