I. 빅데이터 분석, 시각화 도구 R의 개요
가. R의 정의
- 통계분석 및 그래프 작업을 위한 인터프리터 프로그램을 포함한 공개 소프트웨어 패키지
나. 최근 데이터 분석의 문제점
- SQL 기반: 행 단위 및 열 단위 연산을 수행하는 SQL 언어 기반 조작으로 통계 처리 어려움
- 통합분석: 데이터 분석의 효과를 높이기 위한 통합 IDE 도구 미비
다. R의 특징
특징 |
설명 |
In Memory Computing |
- 모든 데이터를 메모리에 로딩 후 처리하는 작업방식 |
Object-Oriented |
- 데이터, 함수가 Object 로 관리 |
Statistical Package |
- 다양한 함수 및 데이터 내장, 최신 알고리즘 적용, - 통계 분석에 최적화된 자료구조 제공(Matrix, Vector) |
Visualization |
- 그래픽 지원, 차트, 히스토그램, 지도 연계 등을 R에서 바로 사용 |
Connectivity |
- 다른 언어, 어플리케이션, DB 등 통합이 용이함 (Java, C/C++, Python 등) |
빅 데이터 분석 |
- 하둡 분산처리 환경을 지원하는 라이브러리 제공 |
II. R의 구성요소 및 주요기능
가. R의 구성요소
구성요소 |
설명 |
R Project |
- R Development Core Team 멤버로 구성된 비영리 단체로 R의 배포와 수정 담당 |
R CRAN Site |
- 자유롭게 다운로드 받아 설치할 수 있는 39개국 87개 Mirror 사이트 운영 |
R Manual |
- R과 관련된 매뉴얼을 HTML 및 PDF 파일로 지원 |
R Studio |
- 워크스페이스 사용하는 명령어 입력, 스크립트 저장, 명령 이력보기, 시각화 보기 구조를 지원하는 개발 도구 |
R Package |
- 패키지들은 새로운 통계분석 R로 그림이나 새로운 IT 기술의 응용에 관한 것을 포함된 라이브러리 패키지 |
나. R의 주요기능
주요기능 |
설명 |
분산 처리 |
- 빅데이터 Hadoop에서 통계분석을 위한 엔진으로 사용 - 특히 Package RHipe(R and Hadoop Integrated Processing Environment)를 통해 Hadoop eco-System에서 통계 분석을 위한 엔진으로써 자리매김 |
Dynamic Visualization |
- 분석결과를 직관적으로 이해할 수 있는 환경, 소프트웨어 기능 제공 - 이차원 평면 상에서의 데이터 다차원 구조를 이해 가능한 Dynamic Graph제공 |
통계분석엔진 기반의 분석 |
- Data in rest 방식: 생성되는 데이터를 DB에 기록한 후 분석 - Event-captured/data in motion 방식: DB 기록 전에 분석이나, 의사결정에 활용 |
'IT기술노트 > 빅데이터' 카테고리의 다른 글
시계열분석 (0) | 2021.03.01 |
---|---|
로짓변환(logit transformation) (0) | 2021.03.01 |
회귀분석(Regression Analysis) (0) | 2021.03.01 |
SNA(Social Network Analysis) (0) | 2021.03.01 |
데이터 시각화 (0) | 2021.03.01 |
빅데이터 분석 (0) | 2021.03.01 |
Cassandra (0) | 2021.03.01 |
MongoDB (0) | 2021.03.01 |
댓글