본문 바로가기
IT기술노트/빅데이터

KNN(K-Nearest Neighbor)

by 비트코기 2021. 3. 3.
반응형

I. KNN 알고리즘의 개요

가. KNN(K-Nearest Neighbor) 알고리즘의 정의

   - 새로운 Fingerprint를 기존 클러스터 내의 모든 데이터와 Instance 기반 거리를 측정하여 가장 많은 속성을 가진 클러스터에 할당하는 군집 알고리즘

나. KNN 알고리즘의 특징

   - 최고 인접 다수결, 유사도 기반, Lazy Learning기법, 단순 유연성, NN 개선

다. KNN 알고리즘에 대한 거리 개념

   - 유클리디안 거리(Euclidian’s Distance), 마할라노비스의 거리(mahalanobis Distance), 코사인 유사도(Cosine Similarity)


II.              KNN 알고리즘의 동작원리

가.       K 값 결정과 분류의 개념

나. KNN 알고리즘 동작원리

동작원리

설명

Fingerprint 확인

- 새로운 입력값 확인, 가까운 데이터는 같은 라벨

- 기존의 모든 데이터와 새로운 Fingerprint와 비교 준비

명복변수기반

그룹분류

- 기존에 저장되어 잇는 데이터셋의 라벨화

- 서로 다른 범주 데이터 정규화 수행, 분류기 검사 수행

거리측정

- 유클리디안 거리, 메모리기반 Fingerprint와 모든 데이터간 거리계산

- 계산된 거리의 정렬수행

K 선정

- 양의 정수값, 정렬된 거리 중 가장 가까운 k개의 데이터 선정

- 여러 k값을 모델링 후 가장 성능 좋은 k값 선정, 노이즈 클수록 큰 k값 선정 유리

클러스터 매칭

- 명목 데이터 경우, 다수결 기반의 클러스터 매칭 수행, k개 데이터가 많이 속해 있는 클러스터로 새로운 값을 분류

 

반응형

'IT기술노트 > 빅데이터' 카테고리의 다른 글

박스플롯 분석  (0) 2021.03.03
결측치, 이상치  (0) 2021.03.03
탐색적분석(Exploratory Data Analysis)  (0) 2021.03.03
데이터마이닝 알고리즘  (0) 2021.03.03
군집분석(Cluster Analysis)  (0) 2021.03.03
K-Means  (0) 2021.03.03
Apriori  (0) 2021.03.03
데이터마이닝(Data Mining)  (0) 2021.03.03

댓글