본문 바로가기
IT기술노트/빅데이터

단어구름(Word Cloud)

by 비트코기 2021. 3. 1.
반응형

I. 텍스트 마이닝의 시각화 기법, 워드 클라우드의 개요

가. 단어구름(Word Cloud)의 정의

   - 메타 데이터에서 얻어진 단어들을 분석하여 중요도나 인기도 등을 고려하여 시각적으로 늘어놓아 웹사이트에 표시하는 방법

나. 단어구름의 형태


II. 단어구름의 단어 선택방법 및 측정방법

가. 단어구름의 단어 선택방법

선택방법

설명

단어동시 출현

- 여러 개의 단어가 한 개의 사진, URL, 기사 등을 묘사하기 위해 사용

단어동시 출현확률분포

- 모든 단어에서 발생하는 단어에 대한 확률분포를 이용한 단어선택방법

Kullback-Leibler Divergence

- 단어의 동시 출현 확률 분포에 대한 동적인 변화의 측정

Freshness

- 특정 단어가 사용된 최근 웹 리소스에 대해 각 시점 사이에 태그 동시 출현 확률분포의 차이를 Kullback-Leibler Divergence로 구하여 평균 산출 값

나. 단어구름의 단어 측정방법

측정방법

설명

범위

- 단어구름으로 연결되어 있는 웹 문서의 개수화 된 디바이스 타입 정의

중복 평균

- 모든 단어 쌍이 평균적으로 가지는 중복된 문서의 개수

중복 표준편차

- 모든 단어 쌍이 중복된 문서 수의 표준편차

 

 

반응형

댓글