본문 바로가기
IT기술노트/데이터베이스

데이터 프로파일링(Data Profiling)

by 비트코기 2021. 3. 7.
반응형

I. 데이터 프로파일링 개요

가. 데이터 프로파일링(Data Profiling)의 정의

   - 데이터에 관한 중요한 정보와 통계치를 수집하기 위해 데이터 소스에 대해 일련의 데이터 검사 절차를 수행하는 기법

나. 데이터 프로파일링의 주요대상

   - 데이터 관리 영역: 데이터 영역 및 분류 체계, 데이터 표준 및 관리 정책

   - 데이터 구조 영역: 데이터 모델, 도메인 속성 및 제약조건, DB현황(테이블/컬럼/Occurrence)

   - 데이터 활용 영역: 데이터 흐름, 어플리케이션 연관성, 데이터 사용 현황(조회건수, 사용자)


II. 데이터 프로파일링의 프로세스

가. 데이터 프로파일링의 프로세스

나. 데이터 프로파일링의 프로세스 설명

절차

내용

메타데이터 수집

- 테이블 및 컬럼 정의서, 도메인 정의서, ERD DB 구축 시 산출물로 관리되는 형상관리 문서

규칙발견 및 도출

- 프로파일링을 실시하여 오류 데이터 찾음

- 데이터의 유형화된 패턴을 적용하여 분석, 데이터의 오류발생 현상을 전수 또는 샘플링을 실시하여 분석, 데이터 규칙 도출

규칙확정

- 도메인레벨: 단일 컬럼의 속성규칙

- 비즈니스레벨: 비즈니스 요구사항에 따른 데이터가 정확해야 하는 규칙

데이터검증

- 확정된 규칙으로 오류 데이터 추출을 위한 데이터 검증과정

- 도출된 데이터 규칙을 실제 운영되는 데이터베이스에 적용하여 규칙 위배 오류데이터 추출

프로파일링 결과 리뷰

- 프로파일링 실시 후 지속적인 데이터 품질 개선을 위해 오류 데이터 발생 원인 분석과 개선과정

 

 

반응형

'IT기술노트 > 데이터베이스' 카테고리의 다른 글

분산 데이터베이스  (0) 2021.03.07
XML DB  (0) 2021.03.07
공간DB  (0) 2021.03.07
Tiny DB  (0) 2021.03.07
데이터 품질관리(Data Quality Management)  (0) 2021.03.07
데이터베이스 백업의 유형  (0) 2021.03.07
데이터 백업(Data Backup)  (0) 2021.03.07
데이터베이스 반영연산  (0) 2021.03.07

댓글