본문 바로가기
IT기술노트/빅데이터

군집분석(Cluster Analysis)

by 비트코기 2021. 3. 3.
반응형

I. 빅데이터의 유사한 성향 데이터의 그룹화, 군집분석의 개요

가. 군집분석의 정의 LOD의 정의

   - 각 개체의 유사성을 측정하여 높은 대상 집단을 분류하고, 군집에 속한 개체들의 유사성과 서로 다른 군집에 속한 개체 간의 상이성을 규명하는 비지도 학습 기법

나. 군집분석의 측정기준

특 징

설 명

거리의 척도

- 유클리드의 거리, 마할라노비스의 거리, 민코우스키의 거리 등을 이용

유사도의 척도

- 두 개체에 대한 변수들 사이의 상관계수 사용

- 클러스터링은 지도학습 전 특징 학습( Feature Learning)을 위해 많이 활용


II. 군집분석의 유형 및 주요 알고리즘

가. 군집분석의 유형

-   군집분석은 크게 계층적 군집분석, 비계층적 군집분석으로 분류

. 군집분석의 주요 유형 설명

유 형

알고리즘

설 명

계층적 군집분석

최단 연결법

- n * n 거리 행렬에서 거리가 가장 가까운 데이터를 묶어서 군집형성

최장연결법

- 최단연결법과 같은 방법이나 거리가 먼 데이터나 군집을 묶어서 형성

평균연결법

- 최단연결법으로 군집을 수행하는데 그 거리를 구하는 방식이 평균을 이용

Ward 연결법

- 군집 내 편차들의 제곱합을 최소화하는 방식으로 군집 수행

비계층적

군집분석

K-Means 알고리즘

- K개의 중심값을 선정하고, 중심값과 다른 데이터 간의 거리를 이용하여 분류를 수행하는 비지도학습

DBSCAN 알고리즘

- 임의의 클러스터 중심을 이동시키며 중심으로부터 정해진 반경 거리 내에 최소 데이터 포인트 개수를 확인하며 밀도 기반으로 군집화를 수행하는 알고리즘

중복군집분석

프림(PRIM)

- Patient Rule Induction Method

- 규칙에 의한 군집화(Clustering)와 목적함수(object function) 값의 최적화를 동시에 실시하면서 오차를 최소화시킨 알고리즘

- 군집분석의 경우 빅데이터 기반의 집단을 분류하는 용도로 사용되어 비계층적 군집분석을 주로 활용


III. 군집분석시 유의사항

 

  - 군집분석 수행 시 집단에 대한 정보가 없을 때, 객체들사이의 유사성을 근거로 자율적으로 군집을 형성시키는 다변량 분석 기법으로 위와 같은 문제들을 유의하여 사용

 

반응형

'IT기술노트 > 빅데이터' 카테고리의 다른 글

결측치, 이상치  (0) 2021.03.03
탐색적분석(Exploratory Data Analysis)  (0) 2021.03.03
데이터마이닝 알고리즘  (0) 2021.03.03
KNN(K-Nearest Neighbor)  (0) 2021.03.03
K-Means  (0) 2021.03.03
Apriori  (0) 2021.03.03
데이터마이닝(Data Mining)  (0) 2021.03.03
MOLAP, ROLAP, HOLAP  (0) 2021.03.01

댓글