반응형
Split, map, shuffle, reduce |
I. HDFS 기반 대용량 데이터 분석 프레임워크, Map Reduce의 개요
가. Map Reduce의 정의
- HDFS에 저장되어 있는 대용량 데이터를 분석하기 위한 분석 환경에서의 병렬처리를 지원하는 프레임워크
나. Map, Reduce의 개념
- Map: 흩어져 있는 데이터를 Key, Value의 형태로 연관성 있는 데이터 분류로 묶는 작업
- Reduce: Map화 한 작업 중 중복 데이터를 제거하고 원하는 데이터를 추출하는 단계
II. Map Reduce의 처리절차
가. Map Reduce의 프로세스
나. Map Reduce의 처리절차
처리절차 |
설명 |
Split |
- 입력 데이터를 Split 단위로 분할 |
Map |
- Split를 하나씩 읽어 Key, Value 세트로 저장 |
Shuffle |
- Reduce에서 처리 가능하도록 병합 및 정렬 |
Reduce |
- 정렬이 끝난 데이터는 (Key, Value)로 통합 |
결과저장 |
- HDFS에 저장 |
반응형
'IT기술노트 > 빅데이터' 카테고리의 다른 글
카파 아키텍처(Kappa Architecture) (0) | 2021.03.01 |
---|---|
람다 아키텍처(Lambda Architecture) (0) | 2021.03.01 |
Apache Storm (0) | 2021.03.01 |
Apache Spark (0) | 2021.03.01 |
HDFS (0) | 2021.03.01 |
하둡 에코시스템(Hadoop Eco System) (0) | 2021.03.01 |
Advanced Analytics(고급분석) (0) | 2021.03.01 |
데이터 레이크 (0) | 2021.03.01 |
댓글