반응형
I. 데이터 프로파일링 개요
가. 데이터 프로파일링(Data Profiling)의 정의
- 데이터에 관한 중요한 정보와 통계치를 수집하기 위해 데이터 소스에 대해 일련의 데이터 검사 절차를 수행하는 기법
나. 데이터 프로파일링의 주요대상
- 데이터 관리 영역: 데이터 영역 및 분류 체계, 데이터 표준 및 관리 정책
- 데이터 구조 영역: 데이터 모델, 도메인 속성 및 제약조건, DB현황(테이블/컬럼/Occurrence)
- 데이터 활용 영역: 데이터 흐름, 어플리케이션 연관성, 데이터 사용 현황(조회건수, 사용자)
II. 데이터 프로파일링의 프로세스
가. 데이터 프로파일링의 프로세스
나. 데이터 프로파일링의 프로세스 설명
절차 |
내용 |
메타데이터 수집 |
- 테이블 및 컬럼 정의서, 도메인 정의서, ERD등 DB 구축 시 산출물로 관리되는 형상관리 문서 |
규칙발견 및 도출 |
- 프로파일링을 실시하여 오류 데이터 찾음 - 데이터의 유형화된 패턴을 적용하여 분석, 데이터의 오류발생 현상을 전수 또는 샘플링을 실시하여 분석, 데이터 규칙 도출 |
규칙확정 |
- 도메인레벨: 단일 컬럼의 속성규칙 - 비즈니스레벨: 비즈니스 요구사항에 따른 데이터가 정확해야 하는 규칙 |
데이터검증 |
- 확정된 규칙으로 오류 데이터 추출을 위한 데이터 검증과정 - 도출된 데이터 규칙을 실제 운영되는 데이터베이스에 적용하여 규칙 위배 오류데이터 추출 |
프로파일링 결과 리뷰 |
- 프로파일링 실시 후 지속적인 데이터 품질 개선을 위해 오류 데이터 발생 원인 분석과 개선과정 |
반응형
'IT기술노트 > 데이터베이스' 카테고리의 다른 글
분산 데이터베이스 (0) | 2021.03.07 |
---|---|
XML DB (0) | 2021.03.07 |
공간DB (0) | 2021.03.07 |
Tiny DB (0) | 2021.03.07 |
데이터 품질관리(Data Quality Management) (0) | 2021.03.07 |
데이터베이스 백업의 유형 (0) | 2021.03.07 |
데이터 백업(Data Backup) (0) | 2021.03.07 |
데이터베이스 반영연산 (0) | 2021.03.07 |
댓글