반응형
I. 결측치
가. 결측치의 정의
- 모델 분석 시 정확도를 높이기 위해 왜곡 발생시킬 수 있는 데이터 값
나. 결측치 처리 방법의 종류
종류 |
설명 |
삭제 |
- 전체 삭제: 결측치가 발생한 모든 관측치를 삭제 - 부분 삭제: 데이터 중 모델에 포함시킬 변수들 중 관측값이 발생한 모든 관측치 삭제 |
대체 |
- 다른 관측치의 평균, 최빈값, 중간값 등으로 대체 |
예측값 삽입 |
- 결측치가 없는 관측치를 트레이닝 데이터로 사용해서 결측치를 예측하는 모델을 만들고, 이 모델을 통해 결측치가 있는 관측 데이터의 결측치를 예측하는 방법 |
II. 이상치
가. 이상치의 정의
- 데이터/샘플과 동떨어진 관측치로, 모델을 왜곡할 가능성이 있는 관측치
나. 이상치의 종류
- 시각화를 통한 확인
- 회귀 모형 Residual 확인
반응형
'IT기술노트 > 빅데이터' 카테고리의 다른 글
오피니언 마이닝 (0) | 2021.03.03 |
---|---|
Bagging/Boosting (0) | 2021.03.03 |
통계 결측치(Missing Value) (0) | 2021.03.03 |
박스플롯 분석 (0) | 2021.03.03 |
탐색적분석(Exploratory Data Analysis) (0) | 2021.03.03 |
데이터마이닝 알고리즘 (0) | 2021.03.03 |
KNN(K-Nearest Neighbor) (0) | 2021.03.03 |
군집분석(Cluster Analysis) (0) | 2021.03.03 |
댓글