본문 바로가기

IT기술노트/빅데이터57

ELT (Extract, Load, Transform) I. 대량의 데이터 처리에 적합한, ELT의 정의 - 여러 시스템에 존재하는 모든 데이터를 추출(Extract)해서 적재(Load)한 후 필요시 타겟시스템이나 분석도구에서 변환(Transform)해서 사용하는 기술 - 등장배경 : 대량의 데이터 발생 및 활용, IT 리소스(클라우드)의 가격 인하 II. ELT 프로세스 및 단계별 활동 가. ELT 프로세스 - 모든 데이터 소스를 하나의 공간에 적재한 뒤 그 용도에 따라 필요한 경우 시스템이 직접 변환하여 사용 나. ELT 단계별 활동 구분 단계 활동 Data Source Data Source - 기업이나 조직에서 갖고 있는 모든 시스템의 데이터 Extract - Data Source에서 데이터를 추출 Load - 추출된 데이터를 대상 시스템에 적재 Dat.. 2023. 4. 23.
데이터 패브릭 (Data Fabric) I. 포괄적인 종단 간 데이터 관리 아키텍처, 데이터 패브릭의 개요 가. 데이터 패브릭의 정의 - 하이브리드 멀티 클라우드 환경을 포괄하는 다양한 엔드포인트에서 일관된 기능을 제공하는 아키텍처 및 데이터 서비스 세트 - 클라우드, 온프레미스, 에지 장치 전반에서 데이터 관리 관행과 실무를 표준화하고 데이터 가시성 및 통찰력, 데이터 액서스 및 제어, 데이터 보호 및 보안을 제공하는 아키텍처 - 데이터 패브릭은 다양한 종류의 애플리케이션, 플랫폼 및 데이터를 저장하는 장소에 관계없이 조직을 도와 데이터를 관리하여 복잡한 데이터 문제와 사용 사례를 해결할 수 있도록 설계 나. 데이터 패브릭의 등장배경 II. 데이터 패브릭 구축을 위한 레이어 가. 데이터 패브릭 구축을 위한 레이어 구성도 - 데이터 패브릭은 .. 2022. 9. 17.
PACELC 이론 (Partition-Availability-Consistency-Else-Latency-Consistency) I. CAP 이론의 한계 극복, PACELC 이론의 개념 - 기존 CAP 이론의 한계를 극복하기 위해 장애상황(Partition)과 정상상황(Else)을 나누어 일관성과 가용성으로 분산 시스템을 분류하는 이론 - CAP 이론의 한계 1. 완벽한 CP, AP 시스템 사용불가 2. 대부분 분산 시스템은 CP와 AP 중간 지점 3. 모든 분산 시스템을 파티션을 미사용 ※ CAP 이론 참고 CAP이론 일관성(Consistency), 가용성(Availability), 단절 내성(Partition Tolerance) I. 일관성, 가용성, 단절 내성의 전략적 선택, CAP이론의 개요 가. CAP이론의 정의 - 대용량 분산 데이터 저장소는 데이터 일관성.. itpenote.tistory.com II. PACELC 이.. 2022. 2. 4.
의사결정나무(Decision Tree) I. 향후 전략 예측 모델, 의사결정나무의 개요 가. 의사결정나무(Decision Tree)의 정의 - 관찰된 데이터로부터 분할 기준 속성을 판별하고 분할 기준 속성에 따라 트리 형태로 모델링 한 분류, 예측 모델 나. 의사결정나무의 특징 - 분류의 정확도는 낮지만, 분류 과정의 이해 및 설명 용이 - 주어진 데이터의 분류 목적으로 사용, 예측에는 사용할 수 없음 - 목표 변수가 범주형이면 사용되며, 목표변수가 수치형이면 적용 불가 II. 의사결정나무의 개념도 및 분석단계 가. 의사결정나무의 개념도 - 순환적 분할 방식을 이용하여 나무를 구축하는 기법 나. 의사결정나무의 분석단계 단계 설명 의사결정나무 형성 - 분석의 목적과 자료구조에 따라서 적절한 분리기준(Split Criterion)과 정지기준(St.. 2021. 3. 3.
프로세스 마이닝(Process Mining) I. 프로세스 경영과 조직성과 개선을 위한 프로세스 마이닝의 개요 가. 프로세스 마이닝(Process Mining)의 정의 - 업무 프로세스 수행을 지원 또는 수행결과를 기록하는 정보시스템 ERP, BPM, CRM, SCM등에 저장 되어있는 과거 업무 수행 기록(정보시스템 로그)를 분석하여 업무수행결과에 대한 여러가지 정보 및 지식을 추출해 내는 것을 목적으로 하는 활동 및 방법론 나. 프로세스 마이닝의 필요성 - BPM의 한계 극복, 프로세스 식별, 프로세스 가시화, 프로세스 개선, AI와 ML 이용한 지능화 요구 II. 프로세스 마이닝의 구조도 및 구성요소 가. 프로세스 마이닝의 구조도 - 프로세스를 지원하는 시스템 로그로부터 개선 및 설계를 위한 유용한 정보를 추출하는 기법 나. 프로세스 마이닝의 .. 2021. 3. 3.
오피니언 마이닝 I. 제품이나 서비스의 평판 분석, 오피니언 마이닝의 개요 가. 오피니언 마이닝의 정의 - SNS, 블로그, 까페, 게시판, 지식검색 등 인터넷에 산재한 모든 웹 문서, 댓글 등에서 소비자들의 의견을 수집, 분석해 제품이나 서비스 등에 대한 평판(Reputation)을 추출해내는 마이닝 기술 나. 오피니언 마이닝의 부각배경 부각배경 설 명 소셜네트워크 - SNS를 비롯한 소셜 미디어가 미치는 영향력이 사회 전반으로 확대 기업의 잠재위기 감지필요 - 제품이나 서비스 구매후기 분석을 통해 소비자들의 평가, 불만, 니즈등 의견을 파악, 기업 및 브랜드의 잠재위기를 조기에 감지 가능 II. 오피니언 마이닝의 절차 및 단계별 활동 가. 오피니언 마이닝의 절차 - Crawler, NLP & Text Mining, .. 2021. 3. 3.
Bagging/Boosting I. Bagging/Boosting의 개요 가. Bagging의 정의 - 주어진 데이터에서 여러 개의 Bootstrap 자료를 생성하고, 각 자료를 모델링 한 후 결합하여 최종 예측 모형을 만드는 알고리즘 나. Boosting의 정의 - 잘못 분류된 개체들에 가중치를 적용하여 새로운 분류 규칙을 만들고 이 과정을 반복해 최종 예측 모형을 만드는 Boosting 알고리즘 II. Bagging/Boosting 알고리즘 수행방법 알고리즘 수행방법 Bagging 1) Row Data에서 Bootstrap 데이터 추출 2) 추출을 반복하여 n개의 데이터 생성 3) 각 데이터를 각각 모델링 하여 모델 생성 4) 단일 모델을 결합하여 Bagging 모델 생성 - 여러 번의 샘플링을 통해 분산을 줄여 모델의 변동성을 .. 2021. 3. 3.
통계 결측치(Missing Value) I. 통계 결측치의 개요 가. 통계 결측치(Missing Value)의 정의 - 결측치는 실험이나 조사 시 설문문항 이해의 부족, 부정적 태도, 무관심, 부주의 등 이유로 관측되어야 할 값을 얻지 못한 데이터로 전 처리 단계에서 적절한 값으로 처리가 필요한 데이터 나. 통계 결측치 처리 방안 구분 처리방안 설명 Deletion (제거법) List-wise deletion (완전제거법) - 하나의 변수라도 결측치 존재 시 분석 대상에서 제외 - 모든 변수 값 존재시만 분석 대상에 포함 Single Imputation (단일대체법) 평균대체방법 - 관측 자료의 평균값으로 대체 - 편향된 추정치 발생시킬 수 있음 연역적 대체방법 -논리적 제약조건, 다른 기록에 의거하여 결측값을 논리적 유추값으로 이용하는 방법.. 2021. 3. 3.
박스플롯 분석 I. 박스플롯 분석의 개요 가. 박스플롯 분석의 정의 - 수집된 데이터가 가진 간편한 계산식에 의해 구해진 숫자 요약을 분석을 위해 그래프로 표현하는 기법 II. 박스플롯 분석의 개념도 및 구성요소 가. 박스플롯 분석의 개념도 나. 박스플롯 분석의 구성요소 구성요소 설명 최소값 - 제1사분위에서 1.5 IQR을 뺀 위치 제1사분위(Q1) - 25% 위치 제2사분위(Q2) - 50% 위치로 중앙값 의미 제3사분위(Q3) - 75% 위치 최대값 - 제3사분위에서 1.5 IQR을 더한 위치 IQR (Inter Outlier Range) - Q1과 Q3의 범위 즉 차이 - 최소값과 최대값을 넘어가는 위치에 있는 값을 이상치라 표현 2021. 3. 3.
결측치, 이상치 I. 결측치 가. 결측치의 정의 - 모델 분석 시 정확도를 높이기 위해 왜곡 발생시킬 수 있는 데이터 값 나. 결측치 처리 방법의 종류 종류 설명 삭제 - 전체 삭제: 결측치가 발생한 모든 관측치를 삭제 - 부분 삭제: 데이터 중 모델에 포함시킬 변수들 중 관측값이 발생한 모든 관측치 삭제 대체 - 다른 관측치의 평균, 최빈값, 중간값 등으로 대체 예측값 삽입 - 결측치가 없는 관측치를 트레이닝 데이터로 사용해서 결측치를 예측하는 모델을 만들고, 이 모델을 통해 결측치가 있는 관측 데이터의 결측치를 예측하는 방법 II. 이상치 가. 이상치의 정의 - 데이터/샘플과 동떨어진 관측치로, 모델을 왜곡할 가능성이 있는 관측치 나. 이상치의 종류 - 시각화를 통한 확인 - 회귀 모형 Residual 확인 2021. 3. 3.
반응형