반응형
I. 텍스트 마이닝의 시각화 기법, 워드 클라우드의 개요
가. 단어구름(Word Cloud)의 정의
- 메타 데이터에서 얻어진 단어들을 분석하여 중요도나 인기도 등을 고려하여 시각적으로 늘어놓아 웹사이트에 표시하는 방법
나. 단어구름의 형태
II. 단어구름의 단어 선택방법 및 측정방법
가. 단어구름의 단어 선택방법
선택방법 |
설명 |
단어동시 출현 |
- 여러 개의 단어가 한 개의 사진, URL, 기사 등을 묘사하기 위해 사용 |
단어동시 출현확률분포 |
- 모든 단어에서 발생하는 단어에 대한 확률분포를 이용한 단어선택방법 |
Kullback-Leibler Divergence |
- 단어의 동시 출현 확률 분포에 대한 동적인 변화의 측정 |
Freshness |
- 특정 단어가 사용된 최근 웹 리소스에 대해 각 시점 사이에 태그 동시 출현 확률분포의 차이를 Kullback-Leibler Divergence로 구하여 평균 산출 값 |
나. 단어구름의 단어 측정방법
측정방법 |
설명 |
범위 |
- 단어구름으로 연결되어 있는 웹 문서의 개수화 된 디바이스 타입 정의 |
중복 평균 |
- 모든 단어 쌍이 평균적으로 가지는 중복된 문서의 개수 |
중복 표준편차 |
- 모든 단어 쌍이 중복된 문서 수의 표준편차 |
반응형
'IT기술노트 > 빅데이터' 카테고리의 다른 글
DW(Data Warehouse) (0) | 2021.03.01 |
---|---|
비즈니스 인텔리전스와 비즈니스 애널리틱스의 비교 (0) | 2021.03.01 |
비즈니스 애널리틱스(Business Analytics) (0) | 2021.03.01 |
코워드 분석 (0) | 2021.03.01 |
텍스트 마이닝(Text Mining) (0) | 2021.03.01 |
시계열분석 (0) | 2021.03.01 |
로짓변환(logit transformation) (0) | 2021.03.01 |
회귀분석(Regression Analysis) (0) | 2021.03.01 |
댓글