I. KNN 알고리즘의 개요
가. KNN(K-Nearest Neighbor) 알고리즘의 정의
- 새로운 Fingerprint를 기존 클러스터 내의 모든 데이터와 Instance 기반 거리를 측정하여 가장 많은 속성을 가진 클러스터에 할당하는 군집 알고리즘
나. KNN 알고리즘의 특징
- 최고 인접 다수결, 유사도 기반, Lazy Learning기법, 단순 유연성, NN 개선
다. KNN 알고리즘에 대한 거리 개념
- 유클리디안 거리(Euclidian’s Distance), 마할라노비스의 거리(mahalanobis Distance), 코사인 유사도(Cosine Similarity)
II. KNN 알고리즘의 동작원리
가. K 값 결정과 분류의 개념
![]() |
나. KNN 알고리즘 동작원리
동작원리 |
설명 |
Fingerprint 확인 |
- 새로운 입력값 확인, 가까운 데이터는 같은 라벨 - 기존의 모든 데이터와 새로운 Fingerprint와 비교 준비 |
명복변수기반 그룹분류 |
- 기존에 저장되어 잇는 데이터셋의 라벨화 - 서로 다른 범주 데이터 정규화 수행, 분류기 검사 수행 |
거리측정 |
- 유클리디안 거리, 메모리기반 Fingerprint와 모든 데이터간 거리계산 - 계산된 거리의 정렬수행 |
K 선정 |
- 양의 정수값, 정렬된 거리 중 가장 가까운 k개의 데이터 선정 - 여러 k값을 모델링 후 가장 성능 좋은 k값 선정, 노이즈 클수록 큰 k값 선정 유리 |
클러스터 매칭 |
- 명목 데이터 경우, 다수결 기반의 클러스터 매칭 수행, k개 데이터가 많이 속해 있는 클러스터로 새로운 값을 분류 |
'IT기술노트 > 빅데이터' 카테고리의 다른 글
박스플롯 분석 (0) | 2021.03.03 |
---|---|
결측치, 이상치 (0) | 2021.03.03 |
탐색적분석(Exploratory Data Analysis) (0) | 2021.03.03 |
데이터마이닝 알고리즘 (0) | 2021.03.03 |
군집분석(Cluster Analysis) (0) | 2021.03.03 |
K-Means (0) | 2021.03.03 |
Apriori (0) | 2021.03.03 |
데이터마이닝(Data Mining) (0) | 2021.03.03 |
댓글