본문 바로가기

IT기술노트/빅데이터57

텍스트 마이닝(Text Mining) I. 비정형 데이터에서 가치 있는 정보 추출, 텍스트 마이닝의 개요 가. 텍스트 마이닝(Text Mining)의 정의 - 자연어로 구성된 비정형 텍스트 데이터에서 패턴 또는 관계를 추출하여 가치와 의미있는 정보를 찾아내는 마이닝 기법 나. 텍스트 마이닝의 주요 분야 - 문서 분류, 문서 군집, 정보추출, 문서 요약 II. 텍스트 마이닝의 프로세스 및 기법 가. 텍스트 마이닝의 프로세스 나. 텍스트 마이닝의 기법 기법 설명 정보추출 - 일반적인 텍스트 문서로부터 사용자가 원하는 정보를 추출하는 기법 문서분류/문서 클러스터링 - 문서들을 문서의 내용에 따라 구조화 - 문서분류: 키워드에 따라 문서를 분류하는 기법 - 문서 클러스터링: 문서 분석하여 동일 내용의 문서들을 묶는 기법 - 문서분류/클러스터링: 문.. 2021. 3. 1.
시계열분석 I. 시계열분석의 개요 가. 시계열분석의 정의 - 시간의 흐름에 따라 일정 간격으로 관측 및 분석한 데이터의 연관 관계를 분석하고 추론하는 기법 나. 시계열분석의 정상성(Stationary) - 시계열의 수준과 분산에 체계적인 변화가 없고 엄밀하게 주기적 변동이 없다는 것으로 미래는 확률적으로 과거와 동일하다는 성질 II. 시계열분석의 모형 모형 구분 설명 자기상관모형 (AR모형) 모형 - 자기회귀모형: 현 시점의 자료가 p 시점 전의 유한개의 과거 자료로 설명될 수 있다는 의미의 모형 특징 1) 시계열의 과거 관측치만을 이용하는 모델 2) p기 이전까지의 과거 관측치가 모함된 모형을 p차 자기회기모형이라 하며, 기호로 AR(p)로 표시 3) 교란항 또는 백색잡음과정은 표준정규분포에 추출된 확률변수 이동.. 2021. 3. 1.
로짓변환(logit transformation) I. 로짓변환의 개요 가. 로짓변환의 개념(logit transformation)의 정의 개념 개념도 - 로지스틱 회귀분석을 위해 오즈비(odds ratio)에 로그를 취한 함수 - odds ratio: 성공확률이 실패확률에 비해 몇 배 더 높은지를 나타내는 수식 II. 로지스틱 회귀분석의 개념과 로짓변환을 통해 유도된 로지스틱 함수 가. 로지스틱 회귀분석의 개념 - D.R.Cox가 제안한 확률 모델로서 독립 변수의 선형 결합을 이용하여 사건의 발생 가능성을 예측하는데 사용되는 통계 기법, 분류 기법 나. 로짓변환을 통해 유도된 로지스틱 함수 구분 항목 설명 로짓변환 통한 로지스틱 함수유도 로짓변환 - 로지스틱 회귀의 기본적인 접근은 선형 회귀 방식의 사용 수식전개 유도된 로지스틱 함수 로짓변환 활용사례.. 2021. 3. 1.
회귀분석(Regression Analysis) I. 회귀분석의 개요 가. 회귀분석(Regression Analysis)의 정의 - 독립변수들과 종속변수 간에 존재하는 관련성을 분석하기 위하여 관측된 자료에서 이들 간의 함수적 관계를 통계적으로 추정하는 기법 II. 회귀분석의 모형과 유의성 검정 가. 회귀분석의 모형 모형 설명 모형 최적합선을 위한 관측 전차 (Residuals) - 실제 dist 값 – 예측값 - Y 개별점수와 최적합선 간의 차이 - 잔차가 작으면 예측선은 최적합선으로 확인 나. 회귀분석의 유의성 검정 구분 구성요소 설명 유의성 검정 예측모형 유의성 - 주어진 독립변수들이 함께 어느 정도 예측변수의 변량 설명 확인 - R2의 크기에 대해 F분포로 결정 유의한 예측변수 - 각 독립변수(X)의 회귀계수(b)가 유의한지 확인 - t-검정,.. 2021. 3. 1.
SNA(Social Network Analysis) I. SNA의 개요 가. SNA(Social Network Analysis)의 정의 - 사회 구조를 노드와 이들 노드를 연결하는 링크로 구성되는 연결망으로 도식화하고 이들 간 상호작용을 계량화하여 분석하는 기법 나. SNS의 속성 II. SNA의 Centrality 분석 방법 2021. 3. 1.
R I. 빅데이터 분석, 시각화 도구 R의 개요 가. R의 정의 - 통계분석 및 그래프 작업을 위한 인터프리터 프로그램을 포함한 공개 소프트웨어 패키지 나. 최근 데이터 분석의 문제점 - SQL 기반: 행 단위 및 열 단위 연산을 수행하는 SQL 언어 기반 조작으로 통계 처리 어려움 - 통합분석: 데이터 분석의 효과를 높이기 위한 통합 IDE 도구 미비 다. R의 특징 특징 설명 In Memory Computing - 모든 데이터를 메모리에 로딩 후 처리하는 작업방식 Object-Oriented - 데이터, 함수가 Object 로 관리 Statistical Package - 다양한 함수 및 데이터 내장, 최신 알고리즘 적용, - 통계 분석에 최적화된 자료구조 제공(Matrix, Vector) Visualiz.. 2021. 3. 1.
데이터 시각화 I. 데이터 시각화의 개요 가. 데이터 시각화의 정의 - 정확한 의사결정을 위해서 주어진 데이터의 특성과 의미를 파악하여 시각적으로 나타내기 위한 기술 나. 빅데이터 분석을 위한 데이터 시각화의 필요성 - 빅데이터의 경우 규모가 굉장히 커서 각각의 요소를 일일이 살펴보는 건 불가능 - 빅데이터 분석 결과를 기반으로 누군가를 설득하기 위한 방법 가운데 가장 보편적인 방법이 데이터 시각화 기법 II. 시각화 방법에 따른 분류 분류 설명 정보 시각화 - 대규모 비수량 정보를 시각적으로 표현하는 것을 의미 - 빅데이터를 가시적으로 구현 - 구현방식 : 색체, 통계, 이미지 등 과학적 시각화 - 특별히 과학자들을 위해 그들이 데이터를 탐색하거나 조작할 수 있도록 색상이 포함된 3차원 그래픽을 통해 정보를 시각화 .. 2021. 3. 1.
빅데이터 분석 I. 빅데이터 분석의 개요 가. 빅데이터 분석의 처리 프로세스 - 데이터소스 > 수집 > 저장(정형/비정형) > 처리(배치/실시간/분산) > 분석(통계/예측) > 표현(시각화) II. 빅데이터 수집기술 - 조직 내부와 외부의 분산된 여러 데이터 소스로부터 필요로 하는 데이터를 검색하여 수동 또는 자동으로 수집하는 과정과 관련된 기술 기술 설명 로그수집기 - 조직 내부에 존재하는 웹 서버의 로그 수집, 웹 로그, 트랜잭션 로그, 클릭 로그, DB 로그 데이터 등을 수집 크롤링 - 주로 웹 로봇을 이용하여 조직 외부에 존재하는 소셜 데이터 및 인터넷에 공개 된 자료 수집 플럼 - 분산 환경에서 대량의 로그 데이터를 효과적으로 수집해 다른 곳으로 전송하는 서비스로 실시간 로그 분석 가능 척와 - 분산 서버로부.. 2021. 3. 1.
Cassandra I. Cassandra의 개요 가. Cassandra의 정의 - 대용량 데이터 트랜잭션의 고속 처리를 지원하면 Column-Family 기반의 NoSQL 기반 오픈소스 데이터베이스 나. Cassandra의 특징 - Schema-free, Column-Family Oriented, Elastic Scale-Out, 분산 모델 기반, SPoF 없음 II. Cassandra의 구조 및 구성요소 가. Cassandra의 구조 나. Cassandra의 구성요소 구성요소 설명 Column - Column name과 Column Value로 구성되어 있는 구조체 Column Family - Column의 집합체이며 하나의 Row를 식별하기 위한 Key 존재 Key Space - 논리적으로 Column Family를 .. 2021. 3. 1.
MongoDB I. MongoDB의 개요 가. MongoDB의 정의 - 오픈 소스 기반의 Documents Oriented 형태의 NoSQL 데이터베이스 나. MongoDB의 특징 특징 설명 Document Oriented - JSON 형태의 스키마가 없는 Documented Oriented 형식 Auto-Sharding - Primary Key 기반으로 여러 서버에 데이터를 나누는 Scale Out 기능 지원 Map/Reduce - Map/Reduce 지원 Full Index Support - 다양한 인덱싱 방식을 지원하여 빠른 검색 보장 Replication & High Availability - 데이터 복제를 통한 가용성 향상 OSS - Apache GPL 기반의 Open Source License Memory .. 2021. 3. 1.
반응형