I. 조직 내/외부 대규모 수집데이터 저장소, 데이터 레이크의 개요
가. 데이터 레이크(Data Lake)의 정의
- 보고, 시각화, 분석, 기계학습 등 모든 부분에 활용 목적으로 원천 형태의 데이터 저장소이며, 조직 내/외부 수집데이터의 대규모 데이터 저장소
나. 데이터 레이크 목적
- 비정형 데이터의 폭증, 실시간 수집, 정제 통합 활용 방안, 원천 데이터 및 분석/서비스
II. 데이터 레이크 구조 및 기술요소
가. 데이터 레이크 구조
나. 데이터 레이크 기술요소
구분 |
기술요소 |
설명 |
데이터 수집기술 |
Bulk Data Movement Dynamic Data Movement |
- 배치, 스트림 등 실시간 서비스를 보장하는 소스데이터의 수집, 수집 파이프라인 생성, 실행, 관리가 가능한 수집기술 |
Data Access Infrastructure |
- 빠른 데이터 수집을 위해 데이터 사용자, 관리 플랫폼, 데이터 소스 간에 하드 코딩 없이 연결하는 기술 |
|
데이터 접근기술 |
Composite Data Frame work |
- 데이터 소스로부터 연결 어댑터 및 각 메타 정보를 이용해 하나의 저장소에 존재하는 것처럼 접근하는 데이터 가상화 기술 |
데이터 관리기술 |
Data Quality |
- 수집 데이터의 품질 모니터링 및 프로파일링 정보 제공과 데이터 검증 및 중복 제거, 비식별화 및 데이터 정재 기술 |
Metadata Management |
- 데이터 수집 이후 데이터 준비 및 분석을 위해 데이터정의와 수정 정보를 관리 |
|
Master Data Definition and Control |
- 마스터 데이터를 유지하고 무결성 보장을 위해 데이터의 관계, 속성, 계층구조, 규칙 등 메타데이터를 관리하는 기술 |
|
서비스 활용기술 |
Self-Service Data Preparation |
- 머신러닝 기반 데이터 정제/변환/탐색을 자동화 하여 사용자가 빠르게 데이터를 준비할 수 있게 해주는 기술 |
'IT기술노트 > 빅데이터' 카테고리의 다른 글
Map Reduce (0) | 2021.03.01 |
---|---|
HDFS (0) | 2021.03.01 |
하둡 에코시스템(Hadoop Eco System) (0) | 2021.03.01 |
Advanced Analytics(고급분석) (0) | 2021.03.01 |
패스트 데이터 (0) | 2021.03.01 |
CQL(Continuous Query Language) (0) | 2021.03.01 |
디지털 큐레이션 (0) | 2021.03.01 |
스마트 데이터 (0) | 2021.03.01 |
댓글