본문 바로가기
IT기술노트/빅데이터

Map Reduce

by 비트코기 2021. 3. 1.
반응형

Split, map, shuffle, reduce


I. HDFS 기반 대용량 데이터 분석 프레임워크, Map Reduce의 개요

가. Map Reduce의 정의

   - HDFS에 저장되어 있는 대용량 데이터를 분석하기 위한 분석 환경에서의 병렬처리를 지원하는 프레임워크

나. Map, Reduce의 개념

   - Map: 흩어져 있는 데이터를 Key, Value의 형태로 연관성 있는 데이터 분류로 묶는 작업

   - Reduce: Map화 한 작업 중 중복 데이터를 제거하고 원하는 데이터를 추출하는 단계


II. Map Reduce의 처리절차

가. Map Reduce의 프로세스

나. Map Reduce의 처리절차

처리절차

설명

Split

- 입력 데이터를 Split 단위로 분할

Map

- Split를 하나씩 읽어 Key, Value 세트로 저장

Shuffle

- Reduce에서 처리 가능하도록 병합 및 정렬

Reduce

- 정렬이 끝난 데이터는 (Key, Value)로 통합

결과저장

- HDFS에 저장

 

반응형

'IT기술노트 > 빅데이터' 카테고리의 다른 글

카파 아키텍처(Kappa Architecture)  (0) 2021.03.01
람다 아키텍처(Lambda Architecture)  (0) 2021.03.01
Apache Storm  (0) 2021.03.01
Apache Spark  (0) 2021.03.01
HDFS  (0) 2021.03.01
하둡 에코시스템(Hadoop Eco System)  (0) 2021.03.01
Advanced Analytics(고급분석)  (0) 2021.03.01
데이터 레이크  (0) 2021.03.01

댓글