I. 제품이나 서비스의 평판 분석, 오피니언 마이닝의 개요
가. 오피니언 마이닝의 정의
- SNS, 블로그, 까페, 게시판, 지식검색 등 인터넷에 산재한 모든 웹 문서, 댓글 등에서 소비자들의 의견을 수집, 분석해 제품이나 서비스 등에 대한 평판(Reputation)을 추출해내는 마이닝 기술
나. 오피니언 마이닝의 부각배경
부각배경 |
설 명 |
소셜네트워크 |
- SNS를 비롯한 소셜 미디어가 미치는 영향력이 사회 전반으로 확대 |
기업의 잠재위기 감지필요 |
- 제품이나 서비스 구매후기 분석을 통해 소비자들의 평가, 불만, 니즈등 의견을 파악, 기업 및 브랜드의 잠재위기를 조기에 감지 가능 |
II. 오피니언 마이닝의 절차 및 단계별 활동
가. 오피니언 마이닝의 절차
- Crawler, NLP & Text Mining, 검색 및 Service API등으로 구분하여 오피니언 마이닝 플랫폼 구성
나. 오피니언 마이닝의 단계별 활동
단 계 |
활 동 |
설 명 |
Crawler |
데이터 수집 |
- 사용자 관심 주제를 대상으로 최근 이슈키워드, 연관키워드, 주제 속성별 평판분석 정보 등의 원하는 정보를 수집 |
NLP & Text Mining |
전처리 |
- 객관적인 문장인지 주관적인 문장인지 분리 - 사실을 기술한 객관적 문장은 분석대상에서 제외 - 문장분리 및 형태소 분석 |
도메인 의존적 단어 |
- 특정 단어가 주어진 도메인에서 발생한 빈도와 일반 도메인의 신문기사에서 발생한 빈도 비교 |
|
언어정보 |
- Likelihood ratio를 평가 척도로 활용 |
|
단서단어 |
- 개체 명 인식에서 단서 단어를 찾는데 활용 |
|
개체 명 인식 |
- 평가요소 또는 오피니언에 해당하는 단어 열을 인식 |
|
관계 추출 |
- 평가요소-오피니언 관계 중 관련성이 존재하는 연결 관계만을 인식 |
|
검색 및 서비스API |
API |
- 개발자나 사업자들을 위해 직관적이고 쉬운 UI 구성이 가능한 API제공 - 한국어외에도 다른 언어로 작성된 글들에 대해 수집, 분석하여 통합 |
대용량 지원 |
하둡에코 시스템 |
- 대용량 처리와 관련 하둡 기반의 병렬/분산 처리 기술을 도입 - 대용량 데이터 저장 및 분석 지원 |
- 편의성과 다양성을 제고하고 대용량 처리를 지원하여 사용자에게 신뢰도 높은 종합적 평판정보 제공을 목표
III. 오피니언 마이닝의 감성분석 주요기법
주요기법 |
설명 |
Machine Learning Approach |
- 사전에 긍정/부정으로 분류된 학습데이터로 텍스트의 긍정/부정 의견을 분류하는 방식. SVM를 많이 사용하였으나 최근 딥러닝 기술을 많이 활용함 |
Lexicon-based Approach |
- 사전에 정의된 긍정/부정 단어를 이용하여 텍스트에 포함된 긍정/부정 단어의 출현 빈도로 긍정과 부정을 판별하는 방식 |
Linguistic Approach |
- 텍스트의 문법적인 구조를 파악하여 극성을 판별하는 방식 |
- 오피니언 마이닝의 감성분석 영역에 스코어링 방식에서 인공지능 기술을 활용
'IT기술노트 > 빅데이터' 카테고리의 다른 글
데이터 패브릭 (Data Fabric) (0) | 2022.09.17 |
---|---|
PACELC 이론 (Partition-Availability-Consistency-Else-Latency-Consistency) (0) | 2022.02.04 |
의사결정나무(Decision Tree) (0) | 2021.03.03 |
프로세스 마이닝(Process Mining) (0) | 2021.03.03 |
Bagging/Boosting (0) | 2021.03.03 |
통계 결측치(Missing Value) (0) | 2021.03.03 |
박스플롯 분석 (0) | 2021.03.03 |
결측치, 이상치 (0) | 2021.03.03 |
댓글