I. 빅데이터 분석의 개요
가. 빅데이터 분석의 처리 프로세스
- 데이터소스 > 수집 > 저장(정형/비정형) > 처리(배치/실시간/분산) > 분석(통계/예측) > 표현(시각화)
II. 빅데이터 수집기술
- 조직 내부와 외부의 분산된 여러 데이터 소스로부터 필요로 하는 데이터를 검색하여 수동 또는 자동으로 수집하는 과정과 관련된 기술
기술 |
설명 |
로그수집기 |
- 조직 내부에 존재하는 웹 서버의 로그 수집, 웹 로그, 트랜잭션 로그, 클릭 로그, DB 로그 데이터 등을 수집 |
크롤링 |
- 주로 웹 로봇을 이용하여 조직 외부에 존재하는 소셜 데이터 및 인터넷에 공개 된 자료 수집 |
플럼 |
- 분산 환경에서 대량의 로그 데이터를 효과적으로 수집해 다른 곳으로 전송하는 서비스로 실시간 로그 분석 가능 |
척와 |
- 분산 서버로부터 로그 데이터를 수집하여 하둡 클러스터의 로그나 서버의 상태 정보를 관리해 하둡 파일 시스템에 저장하여 실시간 분석 가능 |
III. 빅데이터 공유기술
- 기업 내 운영환경에서 한 데이터베이스에서 발생하거나 변경된 데이터를 다른 시스템에 적용하려는 분산 및 복제 환경
기술 |
설명 |
데이터복제 |
- 분산 환경에 있어 데이터베이스에 발생한 변경된 정보를 데이터베이스에 반영하여 무장애 시스템을 구현하기 위한 솔루션 |
시맨틱기술 |
- 의미 메타데이터 및 그래프 구조의 메타데이터 체계로서 시맨틱 웹 기술은 데이터 상호 운영과 같은 기반 시스템 아키텍처의 중요한 기반 |
멀티테넌트 |
- 데이터와 데이터 스키마를 분리 또는 공유하여 멀티테넌트 환경의 데이터 공유를 가능하게 하고 공유에 의한 보안 요소 검증이 포함 |
협업필터링 |
- 고객들의 선호도와 관심 표현을 바탕으로 선호도, 관심에서 비슷한 패턴을 가진 고객을 식별 |
IV. 빅데이터 저장기술
- 다양한 형태로 구성된 데이터를 쉽게 분석하도록, 작은 데이터를 포함하여 모두 저장하는 실시간 처리 기술
기술 |
설명 |
분산파일 시스템 |
- 컴퓨터 네트워크로 공유하는 여러 호스트 컴퓨터 파일에 접근하는 파일 시스템 |
NoSQL |
- 데이터 모델을 단순화해서 관계형 데이터 모델과 SQL을 사용하지 않는 모든 DBMS 또는 데이터 저장장치 |
병렬DBMS |
- 다수의 마이크로 프로세스를 사용하여 여러 디스크의 질의, 갱신, 입/출력 등 데이터베이스 처리를 동시에 수행하는 데이터베이스 시스템 |
네트워크구성 저장시스템 |
- 서로 다른 종류의 데이터 저장 장치를 하나의 데이터 서버에 연결하여 총괄적으로 데이터를 저장 및 관리 |
V. 빅데이터 처리기술
- 빅데이터에서 유용한 정보 및 숨어있는 지식을 찾아내기 위한 데이터 가공 및 분석 과정을 지원하는 활동
기술 |
설명 |
일괄처리 |
- 빅데이터를 여러 서버로 분산하여 각 서버에서 나누어 처리하고 이를 다시 모아서 결과를 정리하는 분산, 병렬 기술 방식 |
실시간처리 |
- 스트림 처리 기술로 강화된 스트림 컴퓨팅을 지원하거나 분산 환경에서 스트리밍 데이터를 실시간으로 처리하는 기술 |
프로그래밍 지원기술 |
- 분산 데이터를 처리하는 프로그래밍 언어인 구글의 소잴(SawZall)과 병렬 처리하는 고성능 데이터 플로우 언어와 실행 프레임워크인 하둡 피그(Pig) |
VI. 빅데이터 분석기술
- 빅데이터 분석은 대량의 데이터로부터 숨겨진 패턴과 알려지지 않은 정보 간의 관계를 찾아내는 과정
기술 |
설명 |
텍스트마이닝 |
- 자연어 처리 기술을 사용해 인간의 언어로 쓰인 비정형 텍스트에서 유용한 정보를 추출하거나 다른 데이터와의 연계성을 파악하여 분류나 군집화 등 빅데이터에 숨겨진 의미 있는 정보를 발견하는 기술 |
웹마이닝 |
- 인터넷에서 수집한 정보를 데이터 마이닝 기법으로 분석 |
오피니언 마이닝 |
- 다양한 온라인 뉴스와 소셜 미디어 코멘트, 사용자가 만든 콘텐츠에서 표현된 의견을 추출, 분류, 이해하고 자산화하는 컴퓨팅 기술 |
소셜 네트워크 분석 |
- 수학의 그래프 이론을 바탕으로 소셜 네트워크 서비스에서 소셜 네트워크 연결 구조와 연결 강도를 분석하여 사용자의 명성 및 영향력을 측정하는 기술 |
분류 |
- 미리 알려진 클래스들로 구분되는 훈련 데이터 군을 학습시켜 새로 추가되는 데이터가 속할 데이터 군을 찾아가는 지도학습 방법, 대표적으로 KNN 알고리즘 |
군집화 |
- 특성이 비슷한 데이터를 합쳐 군으로 분류하는 학습 방법 |
기계학습 |
- 인공지능 분야에서 인간의 학습을 모형화 한 기술 |
'IT기술노트 > 빅데이터' 카테고리의 다른 글
회귀분석(Regression Analysis) (0) | 2021.03.01 |
---|---|
SNA(Social Network Analysis) (0) | 2021.03.01 |
R (0) | 2021.03.01 |
데이터 시각화 (0) | 2021.03.01 |
Cassandra (0) | 2021.03.01 |
MongoDB (0) | 2021.03.01 |
CAP이론 (0) | 2021.03.01 |
NoSQL(Not Only SQL) (0) | 2021.03.01 |
댓글