본문 바로가기
IT기술노트/디지털서비스

데이터옵스 (DataOps)

by 비트코기 2022. 3. 10.
반응형

1. 데이터중심 기업을 위한, 데이터옵스의 개요

1) 데이터옵스의 개념

- 품질, 속도 및 협업을 개선하고 데이터 분석 영역에서 지속적인 개선 문화를 촉진하기 위해 애자일 소프트웨어의 엔지니어링 자동화 및 방법과 데이터에 대한 통합된 프로세스 지향적인 관점을 결합한 일련의 관행, 프로세스 및 기술
- 데브옵스 팀과 데이터 엔지니어, 데이터 과학자 역할을 결합해 데이터 중심 기업을 지원하는 도구, 프로세스, 조직체계

- 데이터와 데이터 애널리틱스 기반의 어플리케이션 설계, 개발, 유지관리의 간소화를 목표

 

2) 데이터옵스의 등장배경

등장배경 설명
IT부서 의존적 - 일반적으로  IT부서에서 데이터를 운영하여 데이터 전담조직에서 IT부서 협조없이 데이터 확보 및 가공이 어려운 문제 발생
충분한 권한 부족 - 분석 대상 업무는 담당 현업에서 오너쉽을 갖고 있어 실제 업무의 문제를 찾거나 개선하는 일을 하기에 데이터 전담조직의 충분한 권한 부족
기술환경 부족 - 데이터 분석 결과를 업무에 적용하고 결과를 분석하여 다시 피드백하는 사이클을 돌리기에 기술환경이 부족

2. 데이터옵스의 프로세스 및 단계별활동

1) 데이터옵스의 프로세스

- 출처 : 2e투이컨설팅 (http://www.2e.co.kr/news/articleView.html?idxno=210844)

 

2) 데이터옵스의 단계별활동

단계 활동 설명
샌드박스 데이터 탐색 - 정제되지 않은 원시데이터 탐색을 통해 비즈니스의 새로운 가치 탐구
- 데이터 정제, 매핑, 모델링이 불필요한 단계
- 유효적 관점보다 빠른 실험이 주요 목적
스테이징 초기 모델 개발 - 1차적 정제 데이터 세트를 통해 초기 모델 개발
- 반복적인 작업과정을 통해 개선되고 데이터 품질 수준 향상
프로덕션 분석 활동 - 완전히 정제된 분석모델의 프로덕션 단계로 진화
- 데이터 소비자가 일상적인 분석활동에 사용
- 의사결정 프로세스를 개선 및 가속화하고 장기적 관점에서 비즈니스 가치 창출

 

3. 데이터옵스의 프레임워크 및 주요요소

1) 데이터옵스의 프레임워크

- 출처 : 2e투이컨설팅 (http://www.2e.co.kr/news/articleView.html?idxno=210869)

 

2) 데이터옵스의 주요요소 

구분 주요요소 설명
데이터 파이프라인
(DATA PIPELINES)
데이터 수집 - 데이터 소스, 데이터 아키텍처
데이터 엔지니어링 - 데이터 셋, 데이터 엔지니어
데이터 분석 - 리포트, 데이터 모델, 데이터 애널리틱스
데이터 기술
(DATA
TECHNOLOGIES)
데이터 캡쳐 - 빅데이터와 IoT를 지원하기 위해 스트리밍 아키텍처
- Change Data Capture(CDC)이 대표적인 기술
데이터 통합 - 기존 DW 프로젝트에서 발전한 기술
데이터 준비 - 데이터 분석가가 데이터 레이크와 같은 레파지토리의 데이터를 활용하여 데이터 세트 모델링을 할 수 있도록 설계된 기술
- 데이터 카탈로그 등이 포함
데이터 분석 - 비즈니스 사용자에게 쿼리, 분석, 시각화 및 인사이트를 공유하는 도구 제공
데이터 프로세스
(DATA PROCESSES)
개발 및 배포 - 애자일 또는 데브옵스 방법론의 개발 및 개포 방식 활용
- 일반적으로 2주이하의 짧은 스프린트로 기능적인 코드 작성 및 완벽한 테스트 수행
오케스트레이션 - 데이터옵스의 핵심 요소
- 데이터 파이프라인을 통과할 때 데이터를 이동, 처리 및 보강하기위한 수많은 종속성이 있는 워크플로우가 필요
- 코드, 데이터, 기술 및 인프라와 같은 데이터 개발 프로젝트의 구성요소를 모두 조정하는 기능 수행
지속적 테스트 - 지속적인 테스트 및 모니터링을 통해 데이터 팀은 목표 설정 및 결과를 측정하여 사이클타임 또는 품질을 지속적으로 개선

 

4. 데이터옵스의 아키텍처 및 주요기술

1) 데이터옵스의 아키텍처

- 출처 : 2e투이컨설팅 (http://www.2e.co.kr/news/articleView.html?idxno=210869)

 

2) 데이터옵스의 주요기술

주요기술 설명 사례
스토리지/리비전 제어 - 버전 제어는 인위적인 변경 사항 관리
- 거버넌스 및 반복 개발에 필요 기술
Git, Dockerhub
이력 및 메타 데이터 - 시스템 및 활동 로그 관리 MongoDB
인증 및 권한 - 환경에 대한 접근 제어 Auth0
환경 비밀 - 환경 내 도구 및 리소스에 대한 역할 기반 접근 Vault
데이터옵스 지표 및 보고서 - 분석 및 데이터 팀의 상태 평가에 대한 내부 분석
- CDO 대시보드
Tableau
자동 배포 - 하나의 환경에서 프로덕션 환경으로 코드/구성을 이동하는 과정 Jenkins, CircleCI
환경 생성 및 관리 - 하드웨어, 소프트웨어, 테스트 데이터 세트 등 필요한 모든것을 가지고 작업할 수 있는 환경 생성 코드와 같은 인프라 취급 -
오케스트레이션, 테스트, 모니터링 - 파이프라인이 실행되는 동안 관련된 모든 도구를 오케스트레이션하고 테스트 및 모니터링하여 문제 발생시 경고 Grafana

 

5. 데브옵스와 데이터옵스의 비교

구분 데브옵스 데이터옵스
목적 - 소프트웨어 개발 자동화 및 모니터링 - 데이터 파이프라인 자동화/모니터링 및 관리
조합 - 소프트웨어 개발
- 품질보증(QA)
- 기술 운영
- 데이터 공학
- 데이터 통합
- 데이터 품질
- 데이터 보안/개인정보
협력 - 소프트웨어 엔지니어(개발자)
- 시스템 관리자(운영팀)
- 테스트
- 데이터 엔지니어
- 데이터 과학자
- 데이터 분석가
- 데이터 전문가
기대효과 - 더 짧은 개발 주기
- 배포(Deployment) 빈도 증가
- 개발에서 테스트로, 테스트에서 프로덕션으로 신속한 이동
- 보다 신뢰할 수 있는 릴리즈
- 스토리지 워크플로우 자동화
- 데이터 흐름 오케스트레이션 & 모니터링
- 데이터 분석 최적화
- 데이터 품질 규칙을 시행할 인프라 생성

※ [참고자료] 데이터옵스 선언문 (DataOps Manifesto)

번호 원칙 번호 원칙
1 - 지속적으로 고객을 만족시켜라
→ 분석 통찰력의 조속하고 지속적인 전달을 통해 고객 만족
2 - 작동하는 분석을 소중하게 생각하라
→ 프레임워크 + 시스템 위에 정확한 데이터 통합
3 - 변화를 수용하라
→ 고객의 니즈를 환영
4 - 이것은 팀 스포츠다
→ 다양한 역할, 다양한 기술 및 도구 활용
5 - 매일 일어나는 상호 작용
→ 고객과 분석팀의 일상적인 협력
6 - 스스로 조직화하라
→ 자직 조직적 팀 구성
7 - 영웅주의를 줄여라
→ 지속가능한 데이터 분석팀 및 프로세스
8 - 반성하라
→ 고객의 피드백에 대한 자기 반성
9 - 분석은 코드다
→ 데이터 통합/모델링/시각화를 위한 개별도구 활용
10 - 결합하라
→ 데이터, 도구, 코드, 환경 및 분석팀을 작업에 결합
11 - 재현 가능하게 만들어라
→ 재현 가능한 결과가 필요 (데이터, HW, SW, Tool의 버전화)
12 - 일회용 환경
→ 안전한 일회용 기술환경 제공
13 - 단순성
→ 실행되지 않는 작업의 양을 극대화
14 - 분석은 제조다
→ 제조 파이프라인과 같이 지속적 효율을 목표
15 - 품질이 다른 무엇보다 중요하다
→ 자동화된 탐지가 가능한 구조
16 - 품질 및 성능을 모니터링하라
→ 품질 척도 수립 및 모니터링 체계 확립
17 - 재사용하라
→ 이전 작업의 반복을 제거
18 - 사이클 타임을 개선하라
→ 리팩토링, 재사용하는 노력의 최소화

- 출처 (https://dataopsmanifesto.org/ko)

반응형

댓글