본문 바로가기

IT기술노트/빅데이터57

CAP이론 일관성(Consistency), 가용성(Availability), 단절 내성(Partition Tolerance) I. 일관성, 가용성, 단절 내성의 전략적 선택, CAP이론의 개요 가. CAP이론의 정의 - 대용량 분산 데이터 저장소는 데이터 일관성, 가용성, 단절 내성을 모두 만족시키는 것이 불가능하므로 두가지만 전략적으로 선택해야 한다는 이론 나. NoSQL과 CAP이론의 관계 - NoSQL의 수평 확장 기능을 강화: CAP중에서 C또는 A를 일부 포기함으로써 분산 확장에 특화 II. CAP의 세가지 특성 및 분류 가. CAP의 세가지 특성 데이터 일관성 (Consistency) - 모든 노드들은 같은 시간에 같은 데이터를 보여줘야 함 (각각의 사용자가 항상 동일한 데이터를 조회함) 가용성 (Ava.. 2021. 3. 1.
NoSQL(Not Only SQL) 문서기반, 키-값 기반, 그래프 기반 I. 수평적 확장 가능 DBMS, NoSQL의 개요 가. NoSQL(Not Only SQL)의 정의 - 데이터 저장에 고정된 테이블 스키마가 필요하지 않고, 조인 연산을 사용할 수 없으며 수평적으로 확장 가능한 DBMS 나. NoSQL의 등장배경 - 데이터 규모 확대, 웹 서비스 구조변화 II. NoSQL의 유형 및 유형설명 가. NoSQL의 유형 나. NoSQL의 유형설명 유형 설명 Document 기반 - 데이터를 Key/Value Pair로 저장하지만 Value 부분에 문서가 저장되는 데이터베이스 유형 Key-Value 기반 - 데이터가 Key/Value Pair로 저장되는 NoSQL의 가장 기본적인 데이터베이스 유형 Column 기반 - 구글의 Big Tabl.. 2021. 3. 1.
카파 아키텍처(Kappa Architecture) Speed layer, serving layer I. 카파 아키텍처의 개요 가. 카파 아키텍처(Kappa Architecture)의 정의 - 데이터 실시간 분석 기능 수행을 위해 스피드, 서빙 레이어로 구성된 실시간 데이터 분석 아키텍처 나. 카파 아키텍처의 특징 - 실시간성, 확장성, 결함 허용성, 전송지연 최소화, 분석결과 일관성, 확장의 균형, 정확성 II. 카파 아키텍처의 개념도 및 계층구조 가. 카파 아키텍처의 개념도 나. 카파 아키텍처의 계층구조 계층구조 내용 스피드 레이어 - 카파 아키텍처의 재작업은 코드 변경에 의해 수행되며, 수집된 모든 데이터를 이용하여 현재 수집중인 작업 대신 별도의 스트림 프로세스를 생성한 후 처리 서빙 레이어 - 수행 후 처리 결과 또한 별도의 테이블로 저장 (결과.. 2021. 3. 1.
람다 아키텍처(Lambda Architecture) Batch layer, serving layer, speed layer I. 람다 아키텍처의 개요 가. 람다 아키텍처(Lambda Architecture)의 정의 - 대용량의 데이터를 과거의 분석된 데이터와 실시간 데이터를 분석하여 동시에 사용할 수 있도록 지원하는 빅데이터 아키텍처 II. 람다 아키텍처의 구성도 및 구성요소 가. 람다 아키텍처의 구성도 - Batch Layer, Serving Layer, Speed Layer의 3계층 구성의 연계를 통해 실시간 데이터 분석지원 나. 람다 아키텍처의 구성요소 구성요소 설명 Batch Layer - 변하지 않을 데이터들에 대해 배치 작업을 통해 결과값 저장 - 데이터 업데이트도 반드시 배치 레이어의 배치 작업을 통해 수행 - 마스터 데이터 집합관리 - 배치.. 2021. 3. 1.
Apache Storm I. Apache Storm의 개요 가. Apache Storm의 정의 - 데이터의 실시간 처리를 위해 개발된 범용 분산 환경 기반 실시간 데이터 처리 시스템 II. Apache Storm의 구조 및 구성요소 가. Apache Storm의 구조 나. Apache Storm의 구성요소 구분 설명 님버스 (Nimbus) - 워커 노드에 상주하는 수퍼바이저에 작업을 분배하고, 주키퍼를 이용하여 노드 간 통신 및 작업 상태 관리 수퍼바이저 - 슬레이브 노드의 데몬, 님버스에게 할당 받은 작업 처리 워커 - 로컬 노드에 의해 관리되며, 노드 성능에 따라 하나 이상의 워커가 독립적으로 수퍼바이저의 하위로 실행 주키퍼 - 클러스터 설정과 상태 저장, 작업 진행 상황 및 클러스터의 상태 등 정보 제공 III. Hado.. 2021. 3. 1.
Apache Spark I. Apache Spark의 개요 가. Apache Spark의 정의 - 하둡의 맵리듀스 작업의 성능 병목인 디스크 I/O 비용을 효율화하고 인메모리 기반 데이터분석을 지원하는 분산처리 시스템 나. Apache Spark의 특징 - RDD 연산자, 인터프리터 결합, 작업 스케줄링 다. Apache Spark의 구성도 및 구성요소 라. Apache Spark의 구성도 마. Apache Spark의 구성요소 구성요소 설명 Spark SQL - SQL Query 처리 Spark Streaming - 스트리밍 처리 - 사물 인터넷의 센서 데이터나 SNS 데이터 등을 실시간으로 스트리밍 처리 MI_Lib - 기계 학습을 위한 라이브러리 - Spark Vector, 의사결정 트리분석, 주요성분분석(PCA), 특이.. 2021. 3. 1.
Map Reduce Split, map, shuffle, reduce I. HDFS 기반 대용량 데이터 분석 프레임워크, Map Reduce의 개요 가. Map Reduce의 정의 - HDFS에 저장되어 있는 대용량 데이터를 분석하기 위한 분석 환경에서의 병렬처리를 지원하는 프레임워크 나. Map, Reduce의 개념 - Map: 흩어져 있는 데이터를 Key, Value의 형태로 연관성 있는 데이터 분류로 묶는 작업 - Reduce: Map화 한 작업 중 중복 데이터를 제거하고 원하는 데이터를 추출하는 단계 II. Map Reduce의 처리절차 가. Map Reduce의 프로세스 나. Map Reduce의 처리절차 처리절차 설명 Split - 입력 데이터를 Split 단위로 분할 Map - Split를 하나씩 읽어 Key,.. 2021. 3. 1.
HDFS I. HDFS의 개요 가. HDFS의 정의 - X86서버에 장착된 저가의 SATA 디스크를 이용하여 데이터를 분산 시스템에 중복 저장하여 가용성을 향상시킨 분산 파일 시스템 나. HDFS의 특징 - 다중복제, 자동복구, 온라인변경, 범용 서버기반, 대량파일저장 II. HDFS의 아키텍처 및 구성요소 가. HDFS의 아키텍처 - 네임노드는 파일 시스템의 네임스페이스(디렉토리, 파일명, 파일블록) 등을 관리하며 클라이언트의 요청 처리 나. HDFS의 구성요소 구성요소 설명 Namenode - 마스터노드, 데이터노드의 메타정보를 관리, 블록의 정보 저장 Datanode - 슬레이브노드, 복제 데이터 저장 Replication - 데이터노드 간에 정보를 복제, 성능향상 및 장애 시 지속적 서비스 제공 TCP/I.. 2021. 3. 1.
하둡 에코시스템(Hadoop Eco System) I. 하둡 에코시스템의 개요 가. 하둡 에코시스템(Hadoop Eco System)의 정의 - 하둡을 효율적으로 적용 가능한 서브 프로젝트가 많이 상용화 되면서 그것들의 집합, 하둡 생태계 II. 하둡 에코시스템(2.0)의 구성도 및 구성요소 가. 하둡 에코시스템의 구성도 나. 하둡 에코시스템의 구성요소 구성요소 서브프로젝트 설명 코디네이터 Zookeeper - 분산 환경에서 서버 간의 상호조정이 필요한 다양한 서비스 제공 리소스관리 Yarn - 데이터 처리 작업을 실행하기 위한 클러스터 지원, 스케줄링을 위한 프레임워크 데이터저장 HBase - HDFS 기반, 컬럼 기반 데이터베이스 Kudu - 컬럼 기반 스토리지 데이터수집 Chukwa - 분산환경에서 생성되는 데이터를 HDFS에 안정적으로 저장하는 .. 2021. 3. 1.
Advanced Analytics(고급분석) I. Advanced Analytics의 개요 가. Advanced Analytics(고급분석)의 정의 - 예측, 예견, 모의실험, 최적화 등의 예측 모델을 통해 미래의 의사결정 나. Advanced Analytics의 기술분류 - 기술요소: 인메모리 기술, 스트리밍 DBMS, 분산모델, 데이터모델, ACID 단순화 II. Advanced Analytics의 주요기술 구분 주요기술 설명 핵심기술 기술 분석 - 기존데이터로부터 현재 상황을 설명할 수 있는 패턴도출 예측 분석 - 과거데이터로부터 미래 발생 가능한 상황이나 사건 예측 최적화 분석 - 제시된 전략 평가 및 최적의 대안을 선택하는 분석기법 일반기술 컨텐츠 분석 - 정형/비정형 분석 à 보다 향상된 의사결정 지원을 위한 트랜드나 패턴 분석 실시간 .. 2021. 3. 1.
반응형