I. 빅데이터의 유사한 성향 데이터의 그룹화, 군집분석의 개요
가. 군집분석의 정의 LOD의 정의
- 각 개체의 유사성을 측정하여 높은 대상 집단을 분류하고, 군집에 속한 개체들의 유사성과 서로 다른 군집에 속한 개체 간의 상이성을 규명하는 비지도 학습 기법
나. 군집분석의 측정기준
설 명 |
|
거리의 척도 |
- 유클리드의 거리, 마할라노비스의 거리, 민코우스키의 거리 등을 이용 |
유사도의 척도 |
- 두 개체에 대한 변수들 사이의 상관계수 사용 |
- 클러스터링은 지도학습 전 특징 학습( Feature Learning)을 위해 많이 활용
II. 군집분석의 유형 및 주요 알고리즘
가. 군집분석의 유형
![]() |
- 군집분석은 크게 계층적 군집분석, 비계층적 군집분석으로 분류
나. 군집분석의 주요 유형 설명
유 형 |
알고리즘 |
설 명 |
계층적 군집분석 |
최단 연결법 |
- n * n 거리 행렬에서 거리가 가장 가까운 데이터를 묶어서 군집형성 |
최장연결법 |
- 최단연결법과 같은 방법이나 거리가 먼 데이터나 군집을 묶어서 형성 |
|
평균연결법 |
- 최단연결법으로 군집을 수행하는데 그 거리를 구하는 방식이 평균을 이용 |
|
Ward 연결법 |
- 군집 내 편차들의 제곱합을 최소화하는 방식으로 군집 수행 |
|
비계층적 군집분석 |
K-Means 알고리즘 |
- K개의 중심값을 선정하고, 중심값과 다른 데이터 간의 거리를 이용하여 분류를 수행하는 비지도학습 |
DBSCAN 알고리즘 |
- 임의의 클러스터 중심을 이동시키며 중심으로부터 정해진 반경 거리 내에 최소 데이터 포인트 개수를 확인하며 밀도 기반으로 군집화를 수행하는 알고리즘 |
|
중복군집분석 |
프림(PRIM) |
- Patient Rule Induction Method - 규칙에 의한 군집화(Clustering)와 목적함수(object function) 값의 최적화를 동시에 실시하면서 오차를 최소화시킨 알고리즘 |
- 군집분석의 경우 빅데이터 기반의 집단을 분류하는 용도로 사용되어 비계층적 군집분석을 주로 활용
III. 군집분석시 유의사항
![]()
|
- 군집분석 수행 시 집단에 대한 정보가 없을 때, 객체들사이의 유사성을 근거로 자율적으로 군집을 형성시키는 다변량 분석 기법으로 위와 같은 문제들을 유의하여 사용
'IT기술노트 > 빅데이터' 카테고리의 다른 글
결측치, 이상치 (0) | 2021.03.03 |
---|---|
탐색적분석(Exploratory Data Analysis) (0) | 2021.03.03 |
데이터마이닝 알고리즘 (0) | 2021.03.03 |
KNN(K-Nearest Neighbor) (0) | 2021.03.03 |
K-Means (0) | 2021.03.03 |
Apriori (0) | 2021.03.03 |
데이터마이닝(Data Mining) (0) | 2021.03.03 |
MOLAP, ROLAP, HOLAP (0) | 2021.03.01 |
댓글