본문 바로가기
IT기술노트/빅데이터

ELT (Extract, Load, Transform)

by 비트코기 2023. 4. 23.

I. 대량의 데이터 처리에 적합한, ELT의 정의

-  여러 시스템에 존재하는 모든 데이터를 추출(Extract)해서  적재(Load)한 후 필요시 타겟시스템이나 분석도구에서 변환(Transform)해서 사용하는 기술

- 등장배경 : 대량의 데이터 발생 및 활용, IT 리소스(클라우드)의 가격 인하


II. ELT 프로세스 및 단계별 활동

가. ELT 프로세스

- 모든 데이터 소스를 하나의 공간에 적재한 뒤 그 용도에 따라 필요한 경우 시스템이 직접 변환하여 사용

 

나. ELT 단계별 활동

구분 단계 활동
Data Source Data Source - 기업이나 조직에서 갖고 있는 모든 시스템의 데이터
Extract - Data Source에서 데이터를 추출
Load - 추출된 데이터를 대상 시스템에 적재
Data Storage

Data Wherehouse - Data Source에서 추출하여 변환한 구조화된 데이터를 저장하는 저장소
Data Lake - 모든 정형, 비정형 데이터를 저장하는 저장소
Transform - Data Wherehouse, Data Lake에 변환 기능 제공
Analytics Analytics - 시스템 및 분석도구를 이용한 분석 및 시각화

- ETL과 ELT는 서로 다른 방식으로 데이터 통합을 제공

 

III. ETL와 ELT의 비교

구분 ETL ELT
프로세스 - 추출 > 변환 > 적재 - 추출 > 적재 > 변환
자료구조 - 전처리 된 데이터
- 데이터 웨어하우스 지원
- 원천 데이터
- 데이터 웨어하우스 및 데이터 레이크 지원
사용대상 - 비지니스 현업 전문가 - 데이터 사이언티스트
데이터 지원 - SQL 기반의 관계형 데이터 - 정형 및 비정형 등 모든 데이터 유형 지원
규정 준수 - 대상 시스템에 로드 하기 전 중요 데이터를 제거할 수 있어 GDPR, HIPPA 및 CCPA 표준을 준수하기 적합 - 대상 시스템에 모든 데이터가 로드 되기 때문에 개인 데이터 노출 및 GDPR, HIPAA 및 CCPA 표준 준수에 어려움
데이터 크기 - 복잡한 변환이 필요하고 분석 목표와 관련 있는 작은 관계형 데이터 세트 처리에 적합 - 모든 크기, 모든 유형의 데이터를 처리하고 정형 및 비정형 빅데이터 처리에 적합
정보 로드 대기 시간 - 대상 시스템에 로드하기 전 스테이징 영역에 로드하는 단계가 필요해 ELT 프로세스에 비해 오래 걸림 - 전체 데이터 세트가 대상 시스템에 직접 로드되어 ETL 프로세스에 비해 빠름.
유지보수 - 온프레미스 환경에서는 유지관리가 빈번
- 최신 자동화된 클라우드 기반 ETL의 경우 유지관리가 매우 적게 필요
- 모든 데이터가 항상 사용 가능하고 일반적으로 변환 프로세스가 자동화된 클라우드 기반 이라는 점에서 유지관리가 적게 필요

 

반응형

댓글