본문 바로가기
IT기술노트/빅데이터

통계 결측치(Missing Value)

by 비트코기 2021. 3. 3.

I. 통계 결측치의 개요

가. 통계 결측치(Missing Value)의 정의

   - 결측치는 실험이나 조사 시 설문문항 이해의 부족, 부정적 태도, 무관심, 부주의 등 이유로 관측되어야 할 값을 얻지 못한 데이터로 전 처리 단계에서 적절한 값으로 처리가 필요한 데이터

나. 통계 결측치 처리 방안

구분

처리방안

설명

Deletion

(제거법)

List-wise deletion

(완전제거법)

- 하나의 변수라도 결측치 존재 시 분석 대상에서 제외

- 모든 변수 값 존재시만 분석 대상에 포함

Single Imputation

(단일대체법)

평균대체방법

- 관측 자료의 평균값으로 대체

- 편향된 추정치 발생시킬 수 있음

연역적 대체방법

-논리적 제약조건, 다른 기록에 의거하여 결측값을 논리적 유추값으로 이용하는 방법

일치대응대체법

- 결측 된 정보를 다른 조사자료로부터 얻을 수 있는 경우

- 동일한 조사단위에 해당하는 다른 외부자료의 값으로 대체하는 방법

핫덱대체(Hot-deck)

-동일한 특성 응답 값 중에서 랜덤 추출하여 대체

회귀대체방법

-  회귀분석 : 결측치가 포함되어 있는 변수를 종속변수, 다른 변수들을 독립변수로 분석

회귀분석을 실시한 결과 얻은 추정치를 결측치의 대체값 사용

Multiple Imputation

(다중대체법)

-   한번 이상 결측을 대체

- 대체한 완전한 데이터 셋트 m(m>1)개 만들어서 모수 측정한 후 모수 추정치와 표준오차를 결합하여 모형 개발

- 대체값을 구한 후 자료 분석 추정된 계수 통합

 

반응형

'IT기술노트 > 빅데이터' 카테고리의 다른 글

의사결정나무(Decision Tree)  (0) 2021.03.03
프로세스 마이닝(Process Mining)  (0) 2021.03.03
오피니언 마이닝  (0) 2021.03.03
Bagging/Boosting  (0) 2021.03.03
박스플롯 분석  (0) 2021.03.03
결측치, 이상치  (0) 2021.03.03
탐색적분석(Exploratory Data Analysis)  (0) 2021.03.03
데이터마이닝 알고리즘  (0) 2021.03.03

댓글