Apache Spark

I. Apache Spark의 개요

가. Apache Spark의 정의

- 하둡의 맵리듀스 작업의 성능 병목인 디스크 I/O 비용을 효율화하고 인메모리 기반 데이터분석을 지원하는 분산처리 시스템

나. Apache Spark의 특징

- RDD 연산자, 인터프리터 결합, 작업 스케줄링

다. Apache Spark의 구성도 및 구성요소

라. Apache Spark의 구성도

마. Apache Spark의 구성요소

구성요소	설명
Spark SQL	- SQL Query 처리
Spark Streaming	- 스트리밍 처리 - 사물 인터넷의 센서 데이터나 SNS 데이터 등을 실시간으로 스트리밍 처리
MI_Lib	- 기계 학습을 위한 라이브러리 - Spark Vector, 의사결정 트리분석, 주요성분분석(PCA), 특이 값 분해(SVD) 등 알고리즘 지원
GraphX	- 차트 계산용 라이브러리

비트코기의 IT Note