본문 바로가기
IT기술노트/빅데이터

하둡 에코시스템(Hadoop Eco System)

by 비트코기 2021. 3. 1.

I. 하둡 에코시스템의 개요

가. 하둡 에코시스템(Hadoop Eco System)의 정의

   - 하둡을 효율적으로 적용 가능한 서브 프로젝트가 많이 상용화 되면서 그것들의 집합, 하둡 생태계


II. 하둡 에코시스템(2.0)의 구성도 및 구성요소

가. 하둡 에코시스템의 구성도

나. 하둡 에코시스템의 구성요소

구성요소

서브프로젝트

설명

코디네이터

Zookeeper

- 분산 환경에서 서버 간의 상호조정이 필요한 다양한 서비스 제공

리소스관리

Yarn

- 데이터 처리 작업을 실행하기 위한 클러스터 지원, 스케줄링을 위한 프레임워크

데이터저장

HBase

- HDFS 기반, 컬럼 기반 데이터베이스

Kudu

- 컬럼 기반 스토리지

데이터수집

Chukwa

- 분산환경에서 생성되는 데이터를 HDFS에 안정적으로 저장하는 플랫폼

Flume

- 에이전트로부터 데이터를 받는 콜렉터

Kafka

- 데이터 스트림을 실시간으로 관리하기 위한 메시징 시스템

데이터처리

Spark

- 인메모리 기반 범용 데이터 처리 플랫폼

Pig

- 복잡한 맵리듀스 프로그래밍을 대체할 피그라틴언어 제공

Tajo

- 하둡 기반의 데이터웨어하우스 시스템

워크플로우

관리

Oozie

- 하둡 작업을 관리하는 워크플로우 및 코디네이터 시스템

Nifi

- 데이터 흐름을 모니터링하기 위한 프레임워크

데이터 시각화

Zeppelin

- 빅데이터 분석가를 위한 웹 기반 분석도구

데이터 직렬화

Avro

- RPC(Remote Procedure Call)와 데이터 직렬화 지원 프레임워크

 

반응형

'IT기술노트 > 빅데이터' 카테고리의 다른 글

Apache Storm  (0) 2021.03.01
Apache Spark  (0) 2021.03.01
Map Reduce  (0) 2021.03.01
HDFS  (0) 2021.03.01
Advanced Analytics(고급분석)  (0) 2021.03.01
데이터 레이크  (0) 2021.03.01
패스트 데이터  (0) 2021.03.01
CQL(Continuous Query Language)  (0) 2021.03.01

댓글