반응형
I. Apache Spark의 개요
가. Apache Spark의 정의
- 하둡의 맵리듀스 작업의 성능 병목인 디스크 I/O 비용을 효율화하고 인메모리 기반 데이터분석을 지원하는 분산처리 시스템
나. Apache Spark의 특징
- RDD 연산자, 인터프리터 결합, 작업 스케줄링
다. Apache Spark의 구성도 및 구성요소
라. Apache Spark의 구성도
마. Apache Spark의 구성요소
구성요소 |
설명 |
Spark SQL |
- SQL Query 처리 |
Spark Streaming |
- 스트리밍 처리 - 사물 인터넷의 센서 데이터나 SNS 데이터 등을 실시간으로 스트리밍 처리 |
MI_Lib |
- 기계 학습을 위한 라이브러리 - Spark Vector, 의사결정 트리분석, 주요성분분석(PCA), 특이 값 분해(SVD) 등 알고리즘 지원 |
GraphX |
- 차트 계산용 라이브러리 |
반응형
'IT기술노트 > 빅데이터' 카테고리의 다른 글
NoSQL(Not Only SQL) (0) | 2021.03.01 |
---|---|
카파 아키텍처(Kappa Architecture) (0) | 2021.03.01 |
람다 아키텍처(Lambda Architecture) (0) | 2021.03.01 |
Apache Storm (0) | 2021.03.01 |
Map Reduce (0) | 2021.03.01 |
HDFS (0) | 2021.03.01 |
하둡 에코시스템(Hadoop Eco System) (0) | 2021.03.01 |
Advanced Analytics(고급분석) (0) | 2021.03.01 |
댓글