본문 바로가기
IT기술노트/빅데이터

결측치, 이상치

by 비트코기 2021. 3. 3.

I. 결측치

가. 결측치의 정의

   - 모델 분석 시 정확도를 높이기 위해 왜곡 발생시킬 수 있는 데이터 값

나. 결측치 처리 방법의 종류

종류

설명

삭제

- 전체 삭제: 결측치가 발생한 모든 관측치를 삭제

- 부분 삭제: 데이터 중 모델에 포함시킬 변수들 중 관측값이 발생한 모든 관측치 삭제

대체

- 다른 관측치의 평균, 최빈값, 중간값 등으로 대체

예측값

삽입

- 결측치가 없는 관측치를 트레이닝 데이터로 사용해서 결측치를 예측하는 모델을 만들고, 이 모델을 통해 결측치가 있는 관측 데이터의 결측치를 예측하는 방법

II.  이상치

가. 이상치의 정의

   - 데이터/샘플과 동떨어진 관측치로, 모델을 왜곡할 가능성이 있는 관측치

나. 이상치의 종류

   - 시각화를 통한 확인

   - 회귀 모형 Residual 확인

반응형

'IT기술노트 > 빅데이터' 카테고리의 다른 글

오피니언 마이닝  (0) 2021.03.03
Bagging/Boosting  (0) 2021.03.03
통계 결측치(Missing Value)  (0) 2021.03.03
박스플롯 분석  (0) 2021.03.03
탐색적분석(Exploratory Data Analysis)  (0) 2021.03.03
데이터마이닝 알고리즘  (0) 2021.03.03
KNN(K-Nearest Neighbor)  (0) 2021.03.03
군집분석(Cluster Analysis)  (0) 2021.03.03

댓글