반응형
I. 통계 결측치의 개요
가. 통계 결측치(Missing Value)의 정의
- 결측치는 실험이나 조사 시 설문문항 이해의 부족, 부정적 태도, 무관심, 부주의 등 이유로 관측되어야 할 값을 얻지 못한 데이터로 전 처리 단계에서 적절한 값으로 처리가 필요한 데이터
나. 통계 결측치 처리 방안
구분 |
처리방안 |
설명 |
Deletion (제거법) |
List-wise deletion (완전제거법) |
- 하나의 변수라도 결측치 존재 시 분석 대상에서 제외 - 모든 변수 값 존재시만 분석 대상에 포함 |
Single Imputation (단일대체법) |
평균대체방법 |
- 관측 자료의 평균값으로 대체 - 편향된 추정치 발생시킬 수 있음 |
연역적 대체방법 |
-논리적 제약조건, 다른 기록에 의거하여 결측값을 논리적 유추값으로 이용하는 방법 |
|
일치대응대체법 |
- 결측 된 정보를 다른 조사자료로부터 얻을 수 있는 경우 - 동일한 조사단위에 해당하는 다른 외부자료의 값으로 대체하는 방법 |
|
핫덱대체(Hot-deck) |
-동일한 특성 응답 값 중에서 랜덤 추출하여 대체 |
|
회귀대체방법 |
- 회귀분석 : 결측치가 포함되어 있는 변수를 종속변수, 다른 변수들을 독립변수로 분석 회귀분석을 실시한 결과 얻은 추정치를 결측치의 대체값 사용 |
|
Multiple Imputation (다중대체법) |
- 한번 이상 결측을 대체 - 대체한 완전한 데이터 셋트 m(m>1)개 만들어서 모수 측정한 후 모수 추정치와 표준오차를 결합하여 모형 개발 - 대체값을 구한 후 자료 분석 추정된 계수 통합 |
반응형
'IT기술노트 > 빅데이터' 카테고리의 다른 글
의사결정나무(Decision Tree) (0) | 2021.03.03 |
---|---|
프로세스 마이닝(Process Mining) (0) | 2021.03.03 |
오피니언 마이닝 (0) | 2021.03.03 |
Bagging/Boosting (0) | 2021.03.03 |
박스플롯 분석 (0) | 2021.03.03 |
결측치, 이상치 (0) | 2021.03.03 |
탐색적분석(Exploratory Data Analysis) (0) | 2021.03.03 |
데이터마이닝 알고리즘 (0) | 2021.03.03 |
댓글