본문 바로가기
IT기술노트/빅데이터

Apache Spark

by 비트코기 2021. 3. 1.
반응형

I. Apache Spark의 개요

가. Apache Spark의 정의

   - 하둡의 맵리듀스 작업의 성능 병목인 디스크 I/O 비용을 효율화하고 인메모리 기반 데이터분석을 지원하는 분산처리 시스템

나. Apache Spark의 특징

   - RDD 연산자, 인터프리터 결합, 작업 스케줄링

다. Apache Spark의 구성도 및 구성요소

라. Apache Spark의 구성도

마. Apache Spark의 구성요소

구성요소

설명

Spark SQL

- SQL Query 처리

Spark Streaming

- 스트리밍 처리

- 사물 인터넷의 센서 데이터나 SNS 데이터 등을 실시간으로 스트리밍 처리

MI_Lib

- 기계 학습을 위한 라이브러리

- Spark Vector, 의사결정 트리분석, 주요성분분석(PCA), 특이 값 분해(SVD) 등 알고리즘 지원

GraphX

- 차트 계산용 라이브러리

 

반응형

'IT기술노트 > 빅데이터' 카테고리의 다른 글

NoSQL(Not Only SQL)  (0) 2021.03.01
카파 아키텍처(Kappa Architecture)  (0) 2021.03.01
람다 아키텍처(Lambda Architecture)  (0) 2021.03.01
Apache Storm  (0) 2021.03.01
Map Reduce  (0) 2021.03.01
HDFS  (0) 2021.03.01
하둡 에코시스템(Hadoop Eco System)  (0) 2021.03.01
Advanced Analytics(고급분석)  (0) 2021.03.01

댓글