본문 바로가기
IT기술노트/빅데이터

데이터 레이크

by 비트코기 2021. 3. 1.
반응형

I. 조직 내/외부 대규모 수집데이터 저장소, 데이터 레이크의 개요

가. 데이터 레이크(Data Lake)의 정의

   - 보고, 시각화, 분석, 기계학습 등 모든 부분에 활용 목적으로 원천 형태의 데이터 저장소이며, 조직 내/외부 수집데이터의 대규모 데이터 저장소

나. 데이터 레이크 목적       

   - 비정형 데이터의 폭증, 실시간 수집, 정제 통합 활용 방안, 원천 데이터 및 분석/서비스


II. 데이터 레이크 구조 및 기술요소

가. 데이터 레이크 구조

나. 데이터 레이크 기술요소

구분

기술요소

설명

데이터 수집기술

Bulk Data Movement

Dynamic Data Movement

- 배치, 스트림 등 실시간 서비스를 보장하는 소스데이터의 수집, 수집 파이프라인 생성, 실행, 관리가 가능한 수집기술

Data Access Infrastructure

- 빠른 데이터 수집을 위해 데이터 사용자, 관리 플랫폼, 데이터 소스 간에 하드 코딩 없이 연결하는 기술

데이터 접근기술

Composite Data Frame work

- 데이터 소스로부터 연결 어댑터 및 각 메타 정보를 이용해 하나의 저장소에 존재하는 것처럼 접근하는 데이터 가상화 기술

데이터 관리기술

Data Quality

- 수집 데이터의 품질 모니터링 및 프로파일링 정보 제공과 데이터 검증 및 중복 제거, 비식별화 및 데이터 정재 기술

Metadata Management

- 데이터 수집 이후 데이터 준비 및 분석을 위해 데이터정의와 수정 정보를 관리

Master Data Definition and Control

- 마스터 데이터를 유지하고 무결성 보장을 위해 데이터의 관계, 속성, 계층구조, 규칙 등 메타데이터를 관리하는 기술

서비스 활용기술

Self-Service Data Preparation

- 머신러닝 기반 데이터 정제/변환/탐색을 자동화 하여 사용자가 빠르게 데이터를 준비할 수 있게 해주는 기술

 

반응형

'IT기술노트 > 빅데이터' 카테고리의 다른 글

Map Reduce  (0) 2021.03.01
HDFS  (0) 2021.03.01
하둡 에코시스템(Hadoop Eco System)  (0) 2021.03.01
Advanced Analytics(고급분석)  (0) 2021.03.01
패스트 데이터  (0) 2021.03.01
CQL(Continuous Query Language)  (0) 2021.03.01
디지털 큐레이션  (0) 2021.03.01
스마트 데이터  (0) 2021.03.01

댓글