본문 바로가기

IT기술노트/빅데이터57

탐색적분석(Exploratory Data Analysis) I. 탐색적분석의 개요 가. 탐색적분석(Exploratory Data Analysis)의 정의 - 데이터의 구조와 특징을 파악하여 얻은 정보를 바탕으로 통계 모형을 만드는 분석 기법 나. 자료분석의 종류 종류 설명 탐색적 자료분석 - Exploratory Data Analysis - 데이터의 특징과 내재하는 구조적인 관례를 알아내기 위한 분석 기법 확증적 자료분석 - Confirmatory Data Analysis - 관측된 자료의 형태로 효과의 재현성을 평가하고 추정하는 전통적 분석 기법 II. 탐색적분석의 4가지 주제 주제 설명 저항성 (Resistance) - 자료의 일부가 기존과 현격히 다른 값으로 대체되었을 때, 즉 자료의 일부가 파손되었을 때 영향을 적게 받는 성질 자료의 재표현 (Re exp.. 2021. 3. 3.
데이터마이닝 알고리즘 I. 데이터마이닝 알고리즘의 개요 가. 데이터마이닝 알고리즘의 정의 - 복잡한 문제들을 해결하기 위해 비즈니스 및 과학적 기관들에 의해 다양한 방법과 알고리즘 나. 데이터마이닝 과업 유형 - 예측, 연관, 분리 II. 데이터마이닝 과업과 알고리즘 분석기법 내용 연관성 분석 (Associate) - 여러 개의 트랜잭션들 중에서 동시에 발생하는 트랜잭션의 연관관계를 발견 - 지지도, 신뢰도, 향상도 (Apriori 알고리즘) 연속성 규칙 (Sequence) - 개인별 이력데이터를 시계열적 분석하여 트랜잭션의 향후 발생 가능성을 예측 분류 규칙 (Classification) - 이미 알려진 특정그룹에 특징을 부여하여 정의된 분류에 맞게 구분 데이터 군집화 (Clustering) - 상호간에 유사한 특징을 갖는.. 2021. 3. 3.
KNN(K-Nearest Neighbor) I. KNN 알고리즘의 개요 가. KNN(K-Nearest Neighbor) 알고리즘의 정의 - 새로운 Fingerprint를 기존 클러스터 내의 모든 데이터와 Instance 기반 거리를 측정하여 가장 많은 속성을 가진 클러스터에 할당하는 군집 알고리즘 나. KNN 알고리즘의 특징 - 최고 인접 다수결, 유사도 기반, Lazy Learning기법, 단순 유연성, NN 개선 다. KNN 알고리즘에 대한 거리 개념 - 유클리디안 거리(Euclidian’s Distance), 마할라노비스의 거리(mahalanobis Distance), 코사인 유사도(Cosine Similarity) II. KNN 알고리즘의 동작원리 가. K 값 결정과 분류의 개념 나. KNN 알고리즘 동작원리 동작원리 설명 Fingerpr.. 2021. 3. 3.
군집분석(Cluster Analysis) I. 빅데이터의 유사한 성향 데이터의 그룹화, 군집분석의 개요 가. 군집분석의 정의 LOD의 정의 - 각 개체의 유사성을 측정하여 높은 대상 집단을 분류하고, 군집에 속한 개체들의 유사성과 서로 다른 군집에 속한 개체 간의 상이성을 규명하는 비지도 학습 기법 나. 군집분석의 측정기준 특 징 설 명 거리의 척도 - 유클리드의 거리, 마할라노비스의 거리, 민코우스키의 거리 등을 이용 유사도의 척도 - 두 개체에 대한 변수들 사이의 상관계수 사용 - 클러스터링은 지도학습 전 특징 학습( Feature Learning)을 위해 많이 활용 II. 군집분석의 유형 및 주요 알고리즘 가. 군집분석의 유형 - 군집분석은 크게 계층적 군집분석, 비계층적 군집분석으로 분류 나. 군집분석의 주요 유형 설명 유 형 알고리즘 .. 2021. 3. 3.
K-Means I. K-Means의 개요 가. K-Means(K 평균군집)의 정의 - 두 개체 간의 비 유사성을 정량화하여 위에서 아래(Top-down)방식으로 K개의 군집을 형성하는 방법 나. K-Means 알고리즘의 특징 - 반복적, 알고리즘 간단 및 대규모 적용 가능, 초기 부적절한 병합에 대한 회복 II. K-Means 알고리즘의 원리 및 절차 가. K-Means 알고리즘의 원리 나. K-Means 알고리즘의 절차 절차 설명 1 - 군집의 수 K를 정의 2 - 초기 K개 군집의 중심(Centroids) 선택 3 - 각 관측 값들을 가장 가까운 중심의 군집에 할당 4 - 새로운 군집의 중심 계산 5 - 재정의 된 중심값 기준으로 다시 거리 기반의 군집 재분류 6 - 군집 경계가 변경되지 않을 때까지 반복 2021. 3. 3.
Apriori I. Apriori 알고리즘의 개요 가. Apriori 알고리즘의 정의 - 데이터들에 대한 발생 빈도를 기반으로 각 데이터 간의 연관관계를 밝히기 위한 방법 나. Apriori Principle (선험적 규칙) - 모든 항목 집합에 대한 지지도를 계산하지 않고, 원하는 반발항목집합을 찾아내는데 이용되는 규칙 II. Apriori 알고리즘의 연관규칙 탐색 과정 가. 반발항목집합(Large Itemset) 탐색 - 반발항목집합을 찾는 과정 1) 데이터베이스로부터 후보항목집합을 생성하고, 이를 데이터베이스 트랜잭션과 비교하여 반발항목집합을 찾아내는 과정, 더 이상의 반발 k-항목 집합이 없을 때 까지 반복하는 과정을 거친 후 최종 반발항목집합 생성 2) 반발항목집합들을 찾기 위해서 미리 결정된 최소지지도 이상.. 2021. 3. 3.
데이터마이닝(Data Mining) I. 데이터마이닝 기법의 개요 가. 데이터마이닝(Data Mining)의 정의 - 대량의 데이터에 숨겨져 있는 데이터 간의 관계, 패턴을 탐색하고 이를 모형화하여 업무에 적용할 수 있는 의미 있는 정보로 변환하여 의사결정에 사용하는 방법 나. 데이터마이닝의 특징 - 대용량의 관측 자료, 컴퓨터 중심 기법, 경험적 방법 근거, 일반화된 결과 도출, 의사 결정에 활용 II. 데이터마이닝의 기법 모델 기법 설명 예측적 모델 의사결정나무 - 축적된 데이터를 분석하여 나무 모형으로 분류 신경망 - 뇌를 모방, 학습을 통한 예측 분류화 - 특정 특성으로 분류 탐색적 모델 연관성분석 - 데이터 종속관계 분석 연속규칙 - 연관성 분석에서 시간 정보를 추가한 방식 군집화 - 특정 거리 기반으로 데이터 분류 2021. 3. 3.
MOLAP, ROLAP, HOLAP I. MOLAP, ROLAP, HOLAP OLAP유형 구분 설명 MOLAP 정의 - Multi-Dimension OLAP - 다차원 데이터를 저장하기 위한 특수한 구조의 다차원 DB 장점 - ROLAP 대비 사용이 쉽고 검색속도 빠름, 중소형 DW에 적합 단점 - 차원을 미리 정의 내리고 데이터 큐브를 먼저 생성 후 데이터 적합 - 추출된 원시데이터 추적 불가 구조 ROLAP 정의 - Relational OLAP - 관계형DB와 SQL같은 관계형 질의어를 사용하여 다차원 데이터를 저장하고 분석하는 형태, 전형적 3-tier 구조 장점 - 대용량으로 전사적으로 구축하는데 적합, 확장성 뛰어남 - 요약 정보가 추출된 원시 데이터를 검색할 수 있음 단점 - 정규화를 통해 저장되어 응답 시간 느림 (Star S.. 2021. 3. 1.
OLAP(Online Analysis Processing) I. 온라인 대용량 데이터 분석 처리 기법, OLAP의 개요 가. OLAP(Online Analysis Processing)의 정의 - 최종 사용자가 DW의 다차원 정보의 중간 매개자나 매개체 없이 정보에 직접 접근하여 대화식으로 정보를 분석하고 의사결정에 활용하는 시스템 나. OLAP의 특징 - 다차원성, 직접접근, 대화식분석, 의사결정지원 II. OLAP의 개념도 및 기술요소 가. OLAP의 개념도 - Slice and dice, Rotation 데이터를 많은 각도에서 보고, 숫자들을 더 잘 이해하고, 의미있는 결론에 도달할 수 있는 분석기능 나. OLAP의 기술요소 기술요소 설명 DW - 기간시스템의 데이터를 통합한 빅데이터 데이터베이스 셀 - 하나의 데이터 값 다차원배열 - 데이터의 차원들에 의하.. 2021. 3. 1.
ETL (Extract Transform Load), CDC (Change Data Capture) I. ETL (Extract Transform Load), CDC (Change Data Capture) 구분 ETL CDC 개념 - 기간시스템 (OLTP)이 하루 일과를 끝내고 배치 프로그램을 실행시켜 정보시스템(ODS)으로 정보를 넘겨주는 시스템 - 실시간 또는 준 실시간으로 기간시스템의 데이터를 읽어 들여 정보시스템으로 정보를 넘겨주는 시스템 주요기술 - 테이블 변경 인식 - All Copy - DB Archive Log 이용 - Trigger 이용 (권장안함): 교착상태, 오류발생시 추적 어려움 2021. 3. 1.
반응형