▶ 빅데이터의 정의
- 데이터는 "객관적 사실"이라는 존재적 특성을 가짐
- 동시에 추론, 예측, 전망, 추정을 위한 근거로 기능하는 당위적 특성을 가짐
▷ 데이터의 유형
구분 | 정성적 데이터 | 정량적 데이터 |
형태 | 비정형 데이터 | 정형, 반정형 데이터 |
특징 | 객체 하나에 함의된 정보 보유 | 속성이 모여 객체를 이룸 |
구성 | 언어, 문자 등으로 이루어짐 | 수치, 도형, 기호 등으로 이루어짐 |
저장 형태 | 파일, 웹 | 데이터베이스, 스프레드시트 |
소스 위치 | SNS 데이터 | 관계형 데이터베이스 |
> 데이터 구조 형태에 따른 분류
① 정형 데이터 (Structured data)
- 관계형 데이터베이스 시스템의 정형 데이터를 비정형 데이터와 비교할 때 가장 큰 차이점은 데이터의 스키마를 지원한다는 점
- 정형 데이터의 경우, 스키마 구조를 가지고 있기 때문에 데이터를 탐색하는 과정이 테이블 탐색, 컬럼 구조 탐색, 로우 탐색 순으로 정형화 되어 있음
② 반정형 데이터 (Semi-Structured data)
- 반정형 데이터의 경우, 데이터 내부에 데이터 구조에 대한 메타 정보를 가지고 있기 때문에 어떤 형태를 가진 데이터인지 파악하는 것이 필요함
- 데이터 내부에 있는 규칙성을 파악해 데이터를 파싱할 수 있는 파싱 규칙을 적용.
③ 비정형 데이터 (Unstructured data)
- 언어 분석이 가능한 데이터나 이미지, 동영상 같은 멀티미디어 데이터가 대표적인 비정형 데이터
> 데이터 저장 방식에 따른 분류
저장 방식 | 특징 | 도구 |
RDBMS | - 관계형 데이터를 저장하거나 관리할 수 있게 해주는 데이터베이스 - SQL 문장을 통하여 데이터베이스의 생성, 수정 및 검색 등의 서비스를 제공 |
Oracle, MSSQL, MySQL 등 |
NoSQL | - NoSQL은 RDBMS와 달리 데이터 간의 관계를 정의하지 않음 - RDBMS에 비해 훨씬 더 큰 대용량의 데이터를 저장할 수 있음 - 분산형 구조 - 고정되지 않은 테이블 스키마 |
MongoDB, Cassandra, HBase, Redis 등 |
하둡 분산 파일 시스템 (Hadoop Distributed File System) | - 분산 파일 시스템이란, 네트워크를 이용해 접근하는 파일 시스템을 말함 | HDFS 등 |
▶ DIKW 피라미드
데이터(Data) | 가공되기 전의 객관적 수치 또는 기호 |
정보(Information) | 데이터의 가공 및 처리를 통해 도출된 현상 |
지식(Knowledge) | 정보의 구조화를 통해 도출되는 고유의 아이디어 |
지혜(Wisdom) | 지식의 축적과 아이디어가 결합된 창의적 산물 |
▶ 암묵지와 선택지
- 지식은 존재의 형태에 따라 암묵지와 선택지로 구분 가능
⒜ 암묵지 : 개인에게 축적된 내면화된 지식으로, 공통화나 내면화 과정이 작용됨.
⒝ 형식지 : 언어나 문서로 표준화 및 형상화된 지식으로, 표출화나 연결화 과정이 작용됨.
▶ 빅데이터의 특징 (5V)
Volumn(규모) | 수집, 저장, 처리하는 데이터의 규모가 매우 큼 |
Variety(다양성) | 정형화된 데이터뿐만 아니라 다양한 유형의 데이터를 처리함 |
Velocity(속도) | 데이터의 수집, 분석, 활용의 속도가 매우 빠름 |
Veracity(신뢰성) | 데이터 처리를 통한 노이즈 제거로 수집된 데이터의 신뢰 확보 |
Value(가치) | 수집된 데이터를 처리함으로써 다양한 가치를 창출함 |
▶ 빅데이터의 활용 3요소
- 자원(빅데이터), 기술(빅데이터 플랫폼), 인력(데이터 사이언티스트)
▷ 데이터 사이언스
- 다양한 유형의 데이터로부터 의미있는 정보를 추출하는 분야
- IT기술, 분석, 컨설팅 영역으로 구분 가능
↳ IT기술 : 프로그래밍, 데이터 엔지니어링, 클라우드 컴퓨팅 등
↳ 분석적 영역 : 통계, 머신러닝, 모델링 등
↳ 비즈니스 컨설팅 : 커뮤니케이션, 프레젠테이션 등
▷ 빅데이터가 만들어내는 본질적 변화
- 사전처리에서 사후처리 시대로
- 표본조사에서 전수조사로
- 질보다 양으로
- 인과관계에서 상관관계로
▶ 빅데이터 조직 구조
- 조직 구조 설계시 업무의 절차, 방법, 목표 등을 사전에 설정하여 공식화하고 업무 수행시 분업하여 수행 가능하도록 수평적/수직적인 업무 분할이 필요함.
- 집중 구조 : 각 부서별로 분석을 진행하며 전사 분석업무를 별도의 분석 전담 조직에서 담당. 분석업무가 이중화/이원화 될 수 있음.
- 기능 구조 : 각 부서별로 분석을 진행. 별도의 분석 조직이 없어 전사적 핵심분석이 어렵고, 과거 실적 분석에 국한될 가능성이 큼.
- 분산 구조 : 분석 조직 인력들을 현업부서로 직접 배치하여 분석업무를 수행. 분석 결과에 따른 신속한 활동이 가능하며 Best Practice의 공유가 가능하여 분석 수준을 상향 평준화 시킬 수 있음. 각 부서의 분석업무와 역할 분담을 명확히 해야 함.
▷ 데이터 사이언티스트 역량
- Hard skill :
① 빅데이터에 대한 이론적 지식 (관련 기법에 대한 이해 및 방법론 습득)
② 분석 기술에 대한 숙련 : 최적의 분석 설계 및 노하우 축적
- Soft skill :
① 통찰력 있는 분석 : 창의적 사고, 호기심, 논리적 비판
② 설득력 있는 전달 : 스토리텔링, Visualization
③ 다분야 간 협력 : Communication
▶ 빅데이터 관련 직무
- 데이터 아키텍트 : 비즈니스 요건을 구현하기 위한 데이터의 흐름과 표준 원칙 등을 규정
- 데이터 엔지니어 : 데이터 플랫폼 설계. 데이터 Flow 관리 및 모델 배포 등 데이터 분석 환경을 설계하고 구축
- 데이터 모델러 : 데이터 처리를 위한 모델(논리/물리 모델)의 설계 및 개발
▶ 빅데이터 분석 기술
- 오픈 소스 기반의 빅데이터 분석 플랫폼과 클라우드 기반의 빅데이터 처리 기술
> 빅데이터 플랫폼 = 다양한 유형의 데이터에서 가치를 창출하는 분석 프로세스를 규격화한 기술
- 데이터 수집 : 정형, 반정형, 비정형 데이터의 수집 기술
- 데이터 저장 : 수집된 데이터를 목적에 맞는 형태로 저장하는 기술
- 데이터 분석 : 통계 분석, 머신 러닝, 딥 러닝, 데이터 마이닝 등
- 데이터 활용 : 데이터 시각화 기술 및 분석 리포트, 응용 프로그램 연계
▷ 조직의 데이터 분석 모델 및 수준 진단
- 분석 준비도 : 분석 업무 파악, 인력 및 조직, 분석 기법, 분석 데이터, 분석 문화, IT 인프라
분석 업무 파악 | - 발생한 사실 분석 업무 - 예측 분석 업무 - 시뮬레이션 분석 업무 - 최적화 분석 업무 - 분석 업무 정기적 개선 |
인력 및 조직 | - 분석 전문가 직무 존재 - 분석 전문가 교육훈련 프로그램 - 관리자들의 기본적 분석 능력 - 전사 분석 업무 총괄 조직 존재 - 경영진 분석 업무 이해 능력 |
분석 기법 | - 업무별 적합한 분석 기법 사용 - 분석 업무 도입 방법론 - 분석 기법 라이브러리 - 분석 기법 효과성 평가 - 분석 기법 정기적 개선 |
분석 데이터 | - 분석 업무를 위한 데이터 충분성 - 분석 업무를 위한 데이터 신뢰성 - 분석 업무를 위한 데이터 적시성 - 비구조적 데이터 관리 - 외부 데이터 활용 체계 - 기준 데이터 관리 (MDM) |
분석 문화 | - 사실에 근거한 의사결정 - 관리자의 데이터 중시 - 회의 등에서 데이터 활용 - 경영진의 직관보다 데이터 - 데이터 공유 및 현업 문화 |
IT 인프라 | - 운영 시스템 데이터 통합 - EAL ETL 등 데이터 유통 체계 - 분석 전용 서버 및 스토리지 - 빅데이터 분석 환경 - 통계 분석 환경 - 비주얼 분석 환경 |
- 분석 성숙도 모델 : 분석 성숙도 진단은 비즈니스 부문, 조직/역량 부문, IT 부문 등 3개의 부문을 대상으로 성숙도 수준에 따라 도입 단계, 활용 단계, 확산 단계, 최적화 단계로 구분 가능. 소프트웨어 공학에서는 시스템 개발 업무능력과 CMMI(Capability Maturity Model Integration) 모델을 기반으로 조직의 성숙도를 평가함.
단계 | 도입 | 활용 | 확산 | 최적화 |
설명 | 분석을 시작하여 환경과 시스템을 구축 | 분석 결과를 실제 업무에 적용 | 전사 차원에서 분석을 관리하고 공유 | 분석을 진화시켜서 혁신 및 성과 향상에 기여 |
비즈니스 부문 | - 실적분석 및 통계 - 정기 보고 수행 - 운영 데이터 기반 |
- 미래 결과 예측 - 시뮬레이션 - 운영 데이터 기반 |
- 전사 성과 실시간 분석 - 프로세스 혁신 3.0 - 분석 규칙 관리 - 이벤트 관리 |
- 외부환경 분석 활용 - 최적화 업무 적용 - 실시간 분석 - 비즈니스 모델 진화 |
조직역량 부문 | - 일부 부서에서 수행 - 담당자 역량에 의존 |
- 전문 담당부서 수행 - 분석 기법 도입 - 관리자가 분석 수행 |
- 전사 모든 부서 수행 - 분석 CoE 조직 운영 - 데이터 사이언티스트 확보 |
- 데이터 사이언스 그룹 - 경영진 분석 활용 - 전략 연계 |
IT 부문 | - 데이터 웨어 하우스 - 데이터 마트 - ETL/EAI - OLAP |
- 실시간 대시보드 - 통계분석 환경 |
- 빅데이터 관리 환경 - 시뮬레이션 최적화 - 비주얼 분석 - 분석 전용 서버 |
- 분석 협업 환경 - 분석 Sandbox - 프로세스 내재화 - 빅데이터 분석 |
- 분석 수준 진단 결과
▶ 데이터 웨어하우스(DW)와 데이터 마트(Data mart)
> 데이터 웨어하우스
- 방대한 양의 이력데이터를 가지고 있는 자료 저장소
- 데이터 웨어하우스의 변경은 시간 순서를 가지고 입력
> 데이터 마트
- 데이터 웨어하우스와 유사하지만 제한된 업무 도메인을 가짐
- 데이터가 특정 유형, 특정 업무기능 또는 특정 업무단위로 제한됨
▷ 데이터 웨어하우스 아키텍처
> ETL의 주요기능
- Extraction : 하나 또는 그 이상의 데이터 소스들로부터 데이터 획득
- Transformation : 데이터 클렌징, 형식 변환, 표준화, 통합 또는 다수 애플리케이션에 내장된 비즈니스 룰 적용
↳ ETL 기능이 필요한 이유 : 각각의 시스템에서 발생한 데이터의 형태가 달라 데이터 웨어하우스에 맞게 적재하기 위함. 또한 데이터 마트, OLAP, OTLP 등 운영시스템에 적재하기 위해서도 필요함.
> 데이터 레이크 : 데이터 분석을 위해 추출할 때 변환하여 분석할 필요가 없는 원시 데이터셋의 저장소
> 데이터 웨어하우스 특징
- 데이터의 주제 지향성 : DW는 의사결정에 필요한 주제와 관련된 데이터만 유지하는 주제 지향적인 특징을 가짐
- 데이터의 통합성 : DW는 데이터가 항상 일관된 상태를 유지하도록 여러 DB에서 추출한 데이터를 통합하여 저장하는 특성을 가짐
- 데이터의 시계열성 : DW는 과거와 현재의 데이터를 동시에 유지하여 데이터 간의 시간적 관계나 동향을 분석해 의사결정에 반영할 수 있도록 하는 특징을 가짐
- 데이터의 비휘발성 : DB의 저장된 데이터는 삽입, 삭제, 수정 작업이 자주 발생하지만, DW는 검색 작업만 수행되는 읽기 전용의 데이터를 유지함
▶ 빅데이터의 위기요인
- 사생활 침해
- 책임 원칙의 훼손
- 데이터의 오용
▶ 가트너의 비즈니스 분석 4가지 요인
- 비즈니스 분석이란, 주어진 데이터를 기반으로 현상을 파악하고, 앞으로의 일을 예측하여 이에 적합한 조치를 결정하기 위한 정보를 활용하는 방법
- 비즈니스 분석 프로세스에서 어떤 종류의 분석 결과를 제공하는가에 따라 Description analytics(기술적 분석), Diagnostic analytics(진단 분석) , Predictive analytics(예측 분석), Prescriptive analytics(처방적 분석) 총 4가지로 구분 가능
↳ Description analytics : 과거/현재에 어떤 일이 발생했는지에 대한 분석
↳ Diagnostic analytics : 과거/현재에 발생한 일에 대한 이해를 위한 분석
↳ Predictive analytics : 미래에 어떤 일이 발생할 것인가에 대한 분석
↳ Prescriptive analytics : 어떤일을 해야 할 것인가를 제시하는 분석
▶ 데이터 산업
- 데이터 산업은 데이터의 생산, 수집, 처리, 분석, 유통, 활용 등을 통해 가치를 창출하는 상품과 서비스를 생산, 제공하는 산업으로 정의됨
- 데이터의 생명주기(= 가치사슬) 상에 나타난 데이터와 관련된 제반활동을 포함해 데이터로부터 가치가 창출되는 일련의 모든 과정과 활동을 포함함
> 데이터 산업의 진화
① 데이터 처리시대 → ② 데이터 통합시대 → ③ 데이터 분석시대 → ④ 데이터 연결시대 → ⑤ 데이터 권리시대
> 마이데이터 : 정보의 주체가 되는 개인이 본인의 데이터를 다룰 수 있어, 한 기업이 보유한 개인 데이터를 허락을 받고 다른 기업이나 개인 등의 제 3자에게 공유하는 역할을 함.
▶ 데이터 거버넌스 체계 수립
- 데이터 거버넌스란, 전사 차원의 모든 데이터에 대하여 정책 및 지침, 표준화, 운영 조직 및 책임 등의 표준화된 관리 쳬계를 수립하고 운영을 위한 프레임워크 및 저장소를 구축하는 것을 말함.
- 기업에서 가치있는 양질의 데이터를 지속적으로 발굴 및 관리해 비즈니스 자산으로 활용하기 위한 데이터 통합 관리 체계를 말함.
- 마스터 데이터, 메타데이터, 데이터 사전은 데이터 거버넌스의 중요한 관리대상임.
- 기업은 데이터 거버넌스 체계를 구축함으로써 데이터의 가용성, 유용성, 통합성, 보안성, 안정성을 확보할 수 있으며, 이는 빅데이터 프로젝트를 성공으로 이끄는 기반이 됨.
▷ 데이터 거버넌스 구성 요소
① 원칙
- 데이터를 유지 관리하기 위한 지침과 가이드
- 보안, 품질 기준, 변경 관리
② 조직
- 데이터를 관리할 조직의 역할과 책임
- 데이터 관리자, 데이터 아키텍트(Data architect)
③ 프로세스
- 데이터 관리를 위한 활동과 체계
- 작업 절차, 모니터링 활동, 측정 활동
▷ 데이터 거버넌스 체계 요소
① 데이터 표준화
- 데이터 표준 용어 설명, Naming rule, 메타데이터 구축, 데이터 사전 구축 등의 업무로 구성됨
② 데이터 관리 체계
- 데이터 정합성 및 활용의 효율성을 위하여 표준 데이터를 포함한 메타데이터와 데이터 전의 관리 원칙을 수립
- 수립된 원칙에 근거하여 항목별 상세한 프로세스를 만들고 관리와 운영을 위한 담당자 및 조직별 역할과 책임을 상세하게 준비함
③ 데이터 저장소 관리
- 메타데이터 및 표준 데이터를 관리하기 위한 전사 차원의 저장소를 구성함
- 저장소는 데이터 관리 체계 지원을 위한 워크플로우 및 관리용 응용 소프트웨어를 지원하고 관리 대상 시스템과의 인터페이스를 통한 통제가 이루어져야 함
- 또한, 데이터 구조 변경에 따른 사전 영향 평가도 수행되어야 효율적인 활용이 가능함
④ 표준화 활동
- 데이터 거버넌스의 체계를 구축한 후 표준 준수 여부를 주기적으로 점검하고 모니터링을 실시함.
- 거버넌스의 조직 내 안정적 정착을 위한 계속적인 변화관리 및 주기적인 교육 진행.
▶ 빅데이터 플랫폼
- 빅데이터 플랫폼은 다양하고 방대한 양의 데이터로부터 수집한 데이터를 처리하고, 분석하여 지식을 추출함으로써 지능화된 서비스를 제공하기 위한 IT 환경
> 빅데이터 플랫폼 구성 및 기능
수집 | 비정형 데이터 수집, 정형 데이터 수집, ETL, Web Robot, 로그 수집 웹페이지 크롤링(Crawling), Open API를 활용한 데이터 수집, IoT 센싱 |
저장 | 정형 및 비정형 데이터 분산관리, 데이터 공유, 메모리 관리, 데이터 보안 등 |
처리 | 배치 처리, 실시간 처리, 분산 병렬 처리, 인메모리 처리 등 |
분석 | 텍스트 분석, 기계학습, 통계기능, 데이터 마이닝, 소셜 네트워크 분석, 예측 분석 |
시각화 | 차트, 다차원 그래프 등 연관 관계, 상관 관계 시각화 기능 |
> 빅데이터 플랫폼을 구성하는 오픈 소스 프로그램
- 하둡(Hadoop) : 분산 처리기술을 제공하는 빅데이터 플랫폼을 대표하는 기술
- 하둡은 자바 기반 프레임워크로서 대용량의 데이터를 분산처리하는 기술 제공- 초기의 빅데이터 플랫폼은 하둡 분산파일시스템(HDFS : Hadoop Distributed File System)과 맵리듀스(MapReduce)의 모듈로 구성되었지만, 빅데이터 수집, 저장, 활용, 관리 등을 위한 데이터 처리에는 부족한 부분이 많았음.- 이를 보완하기 위해 나온게 에코시스템
> 빅데이터 플랫폼을 구성하는 오픈 소스 소프트웨어 (에코시스템)
기능 | 소프트웨어 | 설명 |
코디네이터 | Zookeeper | - 분산 환경에서 서버간의 상호 조정이 필요한 다양한 서비스를 제공하는 시스템으로 다음 역할을 수행함 ① 하나의 서비스에만 집중되지 않게 서비스를 알맞게 분산해 동시에 처리할 수 있도록 지원 ② 하나의 서버에서 처리한 결과를 다른 서버와 동기화해서 데이터의 안정성을 보장 ③ 운영 서버에 문제가 발생해서 서비스를 제공할 수 없을 경우, 다른 대기 중인 서버를 운영 서버로 바꿔서 서비스가 중지 없이 제공됨 ④ 분산 환경을 구성하는 서버의 환경설정을 통합적으로 관리 |
리소스 관리 | YARN | - 얀(YARN)은 데이터 처리 작업을 실행하기 위한 클러스터 자원(CPU, 메모리, 디스크 등)과 스케줄링을 위한 프레임워크 - 맵리듀스, 하이브, 임팔라, 타조, 스파크 등 다양한 애플리케이션은 YARN에서 리소스를 할당받아 작업을 실행함 |
데이터 저장 | HBase | - HBase는 HDFS 기반의 컬럼 기반 데이터베이스임 - 구글의 빅테이블 논문을 기반으로 개발, 실시간 랜덤 조회 및 업데이트가 가능하며, 각 프로세스는 개인의 데이터를 비동기적으로 업데이트 할 수 있음 |
Kudu | - Kudu는 컬럼 기반 스토리지로 특정 컬럼에 대한 데이터 읽기를 고속화 할 수 있음 | |
데이터 수집 | Chukwa | - Chukwa는 분산 환경에서 생성되는 데이터를 HDFS에 안정적으로 저장하는 플랫폼 - 분산된 각 서버에서 에이전트를 실행하고 콜렉터(Collector)가 에이전트로부터 데이터를 받아서 HDFS에 저장함 |
Flume | - 플럼(Flume)은 척와(Chukwa)처럼 분산된 서버에서 에이전트가 설치되고, 에이전트로부터 데이터를 전달받은 콜렉터로 구성함 - 차이점은 전체 데이터의 흐름을 관리하는 마스터 서버가 있어서 데이터를 어디서 수집하고 어떤 방식으로 전송하며 어디에 저장할지를 동적으로 변경 가능 (마스터-슬레이브 구조) |
|
Kafka | - 카프카(Kafka)는 데이터 스트림을 실시간으로 관리하기 위한 분산 메시징 시스템 - 2011년 링크드인에서 자사의 대용량 이벤트 처리를 위해 개발됐으며, 2012년 아파치 탑 레벨 프로젝트가 됨 - 데이터 손실을 막기 위하여 디스크에 데이터를 저장함 - 파티셔닝을 지원하기 때문에 다수의 카프카 서버에서 메세지를 분산 처리 할 수 있으며, 시스템 안정성을 위해 로드 밸런싱과 내고장성(Fault Tolerant)를 보장함 |
|
데이터 처리 | Pig | - 피그(Pig)는 야후에서 개발했으나 현재 아파치 프로젝트에 속한 프로젝트로서 복잡한 맵리듀스 프로그래밍을 대체할 피그 라틴(Pig Latin)이라는 자체 언어를 제공함 - 맵리듀스 API를 매우 단순화한 형태이고 SQL과 유사한 형태로 설계됨 |
Spark | - 스파크(Spark)는 인메모리 기반의 범용 데이터 처리 플랫폼 - 배치 처리, 머신러닝, SQL 쿼리 처리, 스트리밍 데이터 처리, 그래프 라이브러리 처리와 같은 다양한 작업을 수용할 수 있도록 설계됨 - Spark는 Hadoop에 호환되게 만들어졌지만 Hadoop을 대신하지는 않음 - Spark는 주로 실시간 처리 영역, Hadoop은 배치 처리 영역에서 사용됨 |
|
Hive | - 하이브(Hive)는 하둡 기반의 데이터 웨어하우징 솔루션 - 페이스북에서 개발했으며, 오픈소스로 공개되어 주목받은 기술로 SQL과 매우 유사한 HiveSQL이라는 쿼리 언어 제공 - 자바를 모르더라도 하둡 데이터를 쉽게 분석할 수 있도록 돕는 역할을 함 |
|
Mahout | - 머하웃(Mahout)은 하둡 기반으로 데이터 마이닝 알고리즘을 구현한 오픈소스 프로젝트 - 분류(Classification), 클러스터링(Clustering) 등 주요 알고리즘 지원 |
|
Impala | - 임팔라(Impala)는 클라우데라에서 개발한 하둡 기반의 분산 쿼리 엔진 - 임팔라는 데이터 조회를 위한 인터페이스로 HiveSQL을 사용하며, SQL 질의 결과를 확인할 수 있음 |
|
Presto | - 프레스토(Presto)는 페이스북이 개발한 대화형 질의를 처리하기 위한 분산 쿼리 엔진 - 메모리 기반으로 데이터를 처리하며 다양한 데이터 저장소에 저장된 데이터를 SQL로 처리할 수 있음 |
|
Tajo | - 타조(Tajo)는 고려대 박사 과정 학생들이 주도하여 개발한 하둡 기반의 데이터 웨어하우스 시스템 - 맵리듀스 엔진이 아닌 자체 분산 처리 엔진 사용 |
|
워크플로우 관리 |
Oozie | - 우지(Oozie)는 하둡 작업을 관리하는 워크플로우 및 코디네이터 시스템 |
Airflow | - 에어플로우는 에어비엔비에서 개발한 워크플로우 플랫폼 | |
Azkaban | - 아즈카반은 링크드인에서 개발한 워크플로우 플랫폼 | |
Nifi | - 나이파이(Nifi)는 데이터 흐름을 모니터링하기 위한 프레임워크 | |
데이터 시각화 | Zeppelin | - 제플린(Zeppelin)은 빅데이터 분석가를 위한 웹 기반의 분석 도구이며 분석 결과를 시각화하는 작업을 지원함 |
> 빅데이터 플랫폼 프로세스
Data source → Data acquisition → Data storage → Data analysis → Reporting & Visualization
▷ 빅데이터 플랫폼 구조 및 세부 기술
- 빅데이터 처리 과정별 요소 기술을 이용한 빅데이터 플랫폼 구조는 소프트웨어 계층, 플랫폼 계층, 인프라스트럭처 계층으로 구분 가능
① 소프트웨어 계층 : 빅데이터 응용을 구성하며 데이터 처리 및 분석과 이를 위한 데이터 수집 및 정제 등을 수행
② 플랫폼 계층 : 빅데이터를 응용하는 플랫폼을 제공하고, 이를 위한 데이터 및 자원 할당을 작업 스케줄링, 자원 및 데이터 할당, 프로파일링, 데이터 관리, 자원 관리 등을 통해 수행
③ 인프라 계층 : 자원 배치, 노드, 스토리지, 네트워크 관리 등을 통해 빅데이터 처리 및 분석에 필요한 자원을 제공
▶ 빅데이터와 인공지능
- 인공지능(AI : Artificial Intelligence) : 인공지능은 인지, 추론 등을 통한 학습과 문제해결 등 인간의 사고능력을 기계적으로 구현해 자동화한 시스템을 의미함
- 강한 인공지능과 약한 인공지능으로 분류
① 강한 인공지능 (Strong AI)
↳ 사람과 같은 지능
↳ 마음을 가지고 사람처럼 느끼면서 지능적으로 행동하는 기계
↳ 추론, 문제해결, 판단, 계획, 의사소통, 자아 의식(Self awareness), 감정(Sentiment), 지혜(Sapience), 양심(Conscience)
② 약한 인공지능 (Weak/Narrow AI)
↳ 특정 문제를 해결하는 지능적 행동
↳ 사람의 지능적 행동을 흉내낼 수 있는 수준
> 용어 정리
- 지도 학습 (Supervised learning) : 문제(입력)와 답(출력)의 쌍으로 구성된 데이터들이 주어질 때, 새로운 문제를 풀 수 있는 함수 또는 패턴을 찾는 것
- 비지도 학습 (Unsupervised learning) : 답이 없는(목표변수) 문제들만 있는 데이터들로부터 패턴을 추출하는 것
- 강화 학습 (Reinforcement learning) : 문제에 대한 직접적인 답을 주지는 않지만 경험을 통해 기대 보상(Expected reward)이 최대가 되는 정책을 찾는 학습
> 머신러닝과 딥러닝
- 머신러닝은 딥러닝을 포괄하며 인공 지능은 둘 다 포함 (인공 지능 > 머신 러닝 > 딥 러닝)
- 인공 지능 : 인간과 유사하게 사고하는 컴퓨터 지능을 일컫는 포괄적 개념
- 머신 러닝 (Machine learning) : 데이터를 통해 컴퓨터를 학습시키거나, 컴퓨터가 스스로 학습하여 인공지능의 성능(정확도, 속도, 응용 범위 등)을 향상시키는 방법
- 딥 러닝 (Deep learning) : 인공신경망 이론 기반으로, 인간의 뉴런과 유사한 입출력 계층 및 복수의 은닉 계층을 활용하는 학습 방식. 복잡한 비선형 문제를 비지도 학습으로 해결하는데 효과적임
▶ 개인정보 법과 제도
- 개인 정보란 살아있는 개인에 관해 식별할 수 있는 정보
> 개인정보의 수집 및 수집 목적내 이용이 가능한 경우
- 정보 주체의 동의를 받는 경우
- 법률에 특별한 규정이 있거나 법령상 의무를 준수하기 위해 불가피한 경우
- 공공기관이 법령 등에서 정하는 소관 업무의 수행을 위해 불가피한 경우
- 정보 주체와의 계약 체결 및 이행을 위해 불가피하게 필요한 경우
- 명백히 정보 주체 등의 급박한 생명, 신체, 재산의 이익을 위해 필요한 경우
- (정보 주체의 권리보다 우선하는) 개인정보처리자의 정당한 이익 달성을 위해 필요한 경우
> 개인정보 수집, 이용 동의시 필수 고지 사항
- 개인정보의 수집, 이용 목적
- 수집하려는 개인정보의 항목
- 개인정보의 보유 및 이용 기간
- 동의를 거부할 권리가 있다는 사실 및 동의 거부에 따른 불이익이 있는 경우에는 그 불이익의 내용
▷ 개인정보의 수집 제한
- 개인정보 수집시 그 목적에 필요한 범위에서 최소한의 개인정보만을 적법하게 정당히 수집해야 함. (개인정보 수집 처리자는 '정보 주체가 필요 최소한의 정보 외의 개인정보 수집에 동의하지 않는다'라는 이유로 정보 주체에게 재화 또는 서비스의 제공을 거부할 수 없음)
> 민감정보, 고유식별정보 처리 제한
- 예외적으로 정보주체에게 별도 동의를 얻거나, 법령에서 구체적으로 허용된 경우에 한해 처리 가능
↳ 민감정보 : 사상/신념, 노동조합/정당의 가입 및 탈퇴, 정치적 견해, 건강 및 성생활 등에 관한 정보, 유전자 검사 등의 결과로 얻어진 유전 정보, 범죄경력자료에 해당하는 정보
↳ 고유식별 정보 : 주민등록번호, 외국인등록번호, 여권번호, 운전면허번호
- GDPR (General Data Protection Regulation) : 유럽연합이 2018년 5월 25일 부터 적용한 개인정보를 통제할 권리, 정보에 접근할 권리, 정보를 삭제할 권리 등에 대한 규정.
▷ 데이터 3법 주요 개정 내용
- 데이터 3법이란 데이터 이용을 활성화하는 '개인정보보호법', '정보통신망 이용촉진 및 정보보호 등에 관한 법률(이하 정보통신망법)', '신용정보의 이용 및 보호에 관한 법률(이하 신용정보법)' 등 3가지 법률을 통칭함.
주요 개정 내용)
- 데이터 이용 활성화를 위한 가명정보 개념 도입
- 관련 법률의 유사, 중복 규정을 정비하고 추진 체계를 일원화하는 등 개인정보 보호 협치(거버넌스) 체계의 효율화
- 데이터 활용에 따른 개인정보 처리자의 책임 강화
- 모호한 개인정보 판단 기준의 명확화
> 가명처리 및 가명정보 처리
- 개인정보 처리자는 통계작성, 과학적 연구, 공익적 기록 보존 등을 위해 정보주체의 동의 없이 가명정보를 이용, 제공, 결합 등 처리 할 수 있음
- 개인정보 가명처리 순서
1. 가명처리 목적 설정 등 사전 준비
2. 위험성 검토
3. 가명처리 수행
4. 적정성 검토 및 추가 가명처리
5. 가명정보의 안전한 관리 단계
> 프라이버시 모델 (Privacy model)
- 가능한 추론의 형태와 프라이버시 노출에 대한 정량적인 위험성을 규정하는 방법
- 개인정보법 개정전 비식별조치의 적정성 검토에 해당되었지만 법 개정 후 이보다 완화된 가명 처리 가이드 라인으로 완화됨
기법 | 의미 | 적용례 |
k - 익명성 | 특정인임을 추론할 수 있는지 여부를 검토, 일정 확률수준 이상 비식별되도록 함 | 동일한 값을 가진 레코드를 k개 이상으로 함. 이 경우 특정 개인을 식별할 확률은 1/k. |
l - 다양성 | 특정인 추론이 안된다고 해도 민감한 정보의 다양성을 높여 추론 가능성을 낮추는 기법 | 각 레코드는 1개 이상의 다양성을 가지도록 하여 동질성 또는 배경지식 등에 의한 추론 방지 |
t - 근접성 | l - 다양성 뿐만 아니라, 민감한 정보의 분포를 낮추어 추론 가능성을 더욱 낮추는 기법 | 전체 데이터 집합의 정보 분포와 특정 정보의 분포 차이를 t 이하로 하여 추론 방지 |
▶ 데이터 분석 기획
- 분석 기획이란, 실제 분석을 수행하기에 앞서 분석을 수행할 과제의 정의 및 의도했던 결과를 도출할 수 있도록 이를 적절하게 관리할 수 있는 방안을 사전에 계획하는 일련의 작업.
> 분석 주제 유형
> 목표시점별 분석기획방안
- 목표시점별로는 당면한 과제를 빠르게 해결하는 과제 중심적인 접근방식과 지속적인 분석 내재화를 위한 장기적인 마스터플랜 방식으로 나누어 볼 수 있으며, 이 둘을 융합적으로 적용하는 것이 바람직함.
> 분석기획시 고려사항
① 가용한 데이터 (Available data)
- 분석을 위한 데이터의 확보가 필수적임.
- 데이터 유형에 따라서 적용가능한 솔루션 및 분석 방법이 다르기 때문에 유형에 대한 분석이 선행적으로 이루어져야 함
② 적절한 유즈케이스(Use-case) 탐색
- 유사 분석 시나리오 및 솔루션이 있다면 이를 최대한 활용하는 것이 중요함.
③ 장애 요소들에 대한 사전 계획 수립 (Low barrier of execution)
- 정확도를 올리기 위해서는 기간과 투입 리소스가 늘어나는데 이는 비용 상승으로 이어질 수 있으므로 많은 사전 고려가 필요함.
- 일회성 분석으로 그치지 않고 조직의 역량을 내재화하기 위해서는 충분하고 계속적인 교육 및 활용방안 등의 변화 관리(Change management)가 고려되어야 함.
▷ 분석 마스터플랜 수립 프레임워크
- 분석 마스터플랜은 분석 대상이 되는 과제를 도출하고 우선순위를 평가하여 단기적인 세부 이행계획과 중/장기적인 로드맵을 작성해야 함.
- 중/장기적 관점의 마스터플랜 수립을 위해서는 분석 과제를 대상으로 전략적 중요도, 비즈니스 성과 및 ROI(투자 회수율), 분석과제의 실행용이성 등 다양한 기준을 고려해 적용할 우선순위를 설정할 필요가 있음.
- 분석을 업무에 내재화 할 것인지, 별도의 분석화면으로 일단 적용할 것인지, 분석데이터를 내부의 데이터로 한정할 것인지, 외부의 데이터까지 포함할 것인지, 분석기술은 어느 기술요소까지 적용할 것인지 등 분석의 적용범위 및 방식에 대해서도 종합적으로 고려하여, 데이터 분석을 실행하기 위한 로드맵을 수립
> ROI(Return of investment, 투자자본 수익률) 관점에서 보는 빅데이터의 4V
- 빅데이터의 4V를 ROI 관점에서 보면 Volumn, Variety, Velocity 3V는 투자비용(Investment), 그리고 Value는 비즈니스 효과 요소라고 볼 수 있음 (이는 기업이 데이터 분석을 통해 추구하거나 달성하고자 하는 목표 가치라고 정의 할 수 있음)
> ROI 관점에서의 분석과제 우선순위 평가기준
① 시급성
- 판단 기준은 전략적 중요도가 핵심이며, 이는 전략적 중요도가 시점에 따라 시급성 여부를 고려할 수 있다는 뜻 (현재는 미래보다 시급성이 높다)
② 난이도
- 현시점에서 과제를 추진하는 것이 비용과 범위 측면을 고려했을때 바로 적용하기 쉬운 것인지 어려운 것인지를 판단하는 것
- 과제의 범위를 시범과제(Pilot) 형태로 일부 수행할 것인지, 처음부터 크게 수행할 것인지, 아니면 데이터 소스는 기업 내부의 데이터로부터 우선 활용하고 외부 데이터까지 확대해 나갈 것인지에 대한 난이도를 고려해 볼 수 있음
③ 포트폴리오 사분면 분석을 통한 과제 우선순위를 선정하는 기법
- 우선순위 기준을 난이도와 시급성으로 구분하여, 우선 추진해야 하는 분석과제와 제한된 자원을 고려한 단기적 또는 중장기적으로 추진해야 하는 분석 과제들의 4가지 유형으로 구분하고 우선순위를 결정함
④ 분석 과제 우선순위 조정
- 데이터 양, 데이터 특성, 분석 범위 등에 따라 난이도 조정은 경영진 또는 실무 담당자의 의사결정에 따라 적용 우선순위를 조정할 수 있음
- 기술적 요소에 따라서도 적용 우선순위를 조정할 수 있음
- 분석 범위에 따라서도 우선순위 조정 가능
> 이행 계획 수립
1. 로드맵 수립 : 분석 과제에 대한 포트폴리오 사분면 분석을 통해 결정된 과제의 우선순위를 토대로 분석 과제별 적용 범위 및 방식을 고려하여 최종적인 실행 우선순위를 결정한 후 단계적 구현 로드맵을 수립함
2. 세부 이행 계획 수립 : 반복적인 정렬 과정을 통하여 프로젝트의 완성도를 높이는 방식을 주로 사용. 이러한 반복적인 분석 체계는 모든 단계를 반복하기보다 데이터 수집 및 확보와 분석 데이터를 준비하는 단계를 순차적으로 진행하고, 모델링 단계는 반복적으로 수행하는 혼합형을 많이 적용함
▶ 분석문제 정의
- 하향식 접근 방법 (Top down approach) : 문제가 주어지고 이에 대한 해답을 찾기 위하여 각 과정이 체계적으로 단계화되어 수행하는 방식
- 상향식 접근 방법 (Bottom up approach) : 문제의 정의 자체가 어려울 경우 데이터를 기반으로 문제의 재정의 및 해결방안을 탐색하고 이를 지속적으로 개선하는 방식. 데이터를 활용하여 생각하지 못했던 인사이트를 도출하고 시행착오를 통해 개선해가는 방식
▷ 하항식 접근 방식
- 현황 분석 또는 인식된 문제점, 전략으로부터 기회나 문제를 탐색(Problem discovery), 해당 문제를 데이터 문제로 정의(Problem definition)한 후 해결방안 탐색(Solution search), 그리고 데이터 분석의 타당성 평가(Feasibility study)를 거쳐 분석 과제를 도출하는 과정으로 이루어짐.
> 하향식 접근 방식의 문제점
- 기존 접근 방법인 논리적 단계별 접근법은 문제의 구조가 분명하고 문제 해결 및 해결책을 도출하기 위한 데이터 분석가와 의사결정자가 존재하고 있음을 가정하기 때문에 솔루션 도출에는 유효하지만 새로운 문제탐색에는 한계가 있음.
- 따라서 기존의 논리적인 단계별 접근법에 기반한 문제해결 방식은 최근 복잡하고 다양한 환경에서 발생하는 문제에는 적합하지 않을 수 있음.
▷ 상향식 접근 방식
- 문제의 정의 자체가 어려울 경우 데이터를 기반으로 문제의 재정의 및 해결방안을 탐색하고 이를 지속적으로 개선하는 방식이며, 일반적으로 상향식 접근 방식의 데이터 분석은 비지도 학습(Unsupervised learning) 방법에 의해 수행됨.
> 상향식 접근 방식 절차
1. 프로세스 분류 : 전사 업무 프로세스를 가치 사슬, 메가 프로세스, 메이저 프로세스, 프로세스 단계로 구조화해 업무 프로세스 정의.
2. 프로세스 흐름 분석 : 프로세스 맵을 통해 프로세스별로 업무 흐름을 상세히 표현
3. 분석 요건 식별 : 각 프로세스 맵상의 주요 의사 결정 포인트 식별
4. 분석 요건 정의 : 각 의사결정 시점에 무엇을 알아야만 의사결정을 할 수 있는지 정의
ⓐ 프로토타이핑 접근법
- 상향식 접근법 중 하나
- 프로토타이핑 접근법의 기본 프로세스는 가설의 생성(Hypothesis), 디자인에 대한 실험(Design experiment), 실제 환경에서의 테스트(Test), 테스트 결과에서의 통찰(Insight) 도출 및 가설 확인으로 구성됨
- 한번의 분석을 통해서 의도했던 결과가 나오기 쉽지 않은 동적인 환경에서 최대한 빨리 결과를 보여주고 해당내용을 토대로 지속적인 반복을 수행하는 프로토타이핑 방식이 빅데이터 환경에서 보다 유용하다고 알려져 있음. (분석요건 정의 후에 분석을 통해 얻고자 하는 목표를 명확히 하기 위해 분석목표(요건) 정의서를 수립할 수 있음)
- 분석목표 정의서에는 분석별로 필요한 소스데이터, 분석방법, 데이터 입수 난이도, 분석의 난이도, 분석 수행주기, 분석 결과에 대한 검증이 가능한 성과평가 기준을 설계할 수 있음.
- 분석목표 정의서에 상세분석 과정별 담당조직, 인원을 명확히 기재하여 실무자와 워크숍 등을 통해 공유 가능
▶ 데이터 분석 방안
▷ 분석 방법론의 개요
- 데이터 분석을 효과적으로 기업에 정착시키기 위해서는 이를 체계화하는 절차와 방법이 정리된 데이터 분석 방법론의 수립이 필수적임.
- 일반적으로 방법론은 계층적 프로세스 모델(Stepwise process model)의 형태로 구성됨.
> 분석 방법론의 구성 요소
① 상세한 절차 (Procedure)
② 방법 (Methods)
③ 도구와 기법 (Tools & Techniques)
④ 템플릿과 산출물 (Templates & Outputs)
> 빅데이터 분석 방법론
- 빅데이터 분석 방법론의 계층적 프로세스 모델은 3계층으로 구성됨
① 단계 (Phase)
↳ 프로세스 그룹을 통하여 완성된 단계별 산출물이 생성되어야 함.
↳ 각 단계는 기준선(Baseline)으로 설정되어 관리되어야 하며, 버전 관리(Configuration management) 등을 통하여 통제가 이루어져야 함.
② 테스크 (Task)
↳ 각 단계는 여러개의 테스크로 구성되는데, 각 테스크는 단계를 구성하는 단위활동으로써 물리적 또는 논리적 단위로 품질 검토의 항목이 될 수 있음
③ 스탭 (Step)
↳ WBS(Work breakdown structure)의 워크패키지에 해당되고, 입력자료(Input)와 처리 및 도구(Process & Tool), 출력자료(Output)로 구성된 단위 프로세스(Unit process).
↳ 테스크는 여러개의 스탭으로 구성
> 빅데이터 분석 방법 절차
(1) 분석 기획 (Planning) ( ☜ Phase)
- 비즈니스 이해 및 범위 설정 ( ☜ Task)
↳ 프로젝트에 참여하는 관계자들(Stakeholders)의 이해를 일치시키기 위해서 구조화된 프로젝트 범위 정의서인 SOW(Statement of work)를 작성
- 프로젝트 정의 및 계획 수립
↳ 프로젝트의 목표 및 KPI(핵심 성과지표), 목표 수준 등을 구체화하여 상세 프로젝트 정의서를 작성
↳ 프로젝트 수행 계획서를 작성하는 단계로서 프로젝트의 목적 및 배경, 기대효과, 수행방법, 일정 및 추진 조직, WBS를 작성함
- 프로젝트 위험 계획 수립
↳ 데이터 분석 위험 식별, 계획 수립 단계에서 빅데이터 분석 프로젝트를 진행하면서 발생 가능한 모든 위험을 식별함
↳ 예상되는 위험에 대한 대응은 회피(Avoid), 전이(Transfer), 완화(Mitigate), 수용(Accept)으로 구분하여 위험 관리 계획서를 작성함
(2) 데이터 준비 (Preparing)
- 필요 데이터 정의
↳ 정형/비정형/반정형 등의 모든 내/외부 데이터를 포함하고 데이터의 속성, 데이터 오너, 데이터 관련 시스템 담당자 등을 포함하는 데이터 정의서를 작성함
- 데이터 스토어 설계
↳ 일반적으로 관계형 데이터베이스(RDBMS)를 사용하고 데이터의 효율적인 저장과 활용을 위하여 데이터 스토어의 논리적, 물리적 설계를 구분하여 설계함
↳ 하둡, NoSQL 등을 이용하여 비정형 또는 반정형 데이터를 저장하기 위한 논리적, 물리적 데이터 스토어를 설계
- 데이터 수집 및 적합성 점검
↳ 크롤링 등의 데이터 수집을 위한 ETL 같은 다양한 도구와 API, 스크립트 프로그램 등을 이용하여 데이터를 수집하고, 수집된 데이터를 설계된 데이터 스토어에 저장
(3) 데이터 분석 (Analyzing)
- 분석용 데이터 준비
↳ 분석 계획 단계에서 비즈니스 이해, 도메인 문제점 인식, 프로젝트 정의 등을 이용하여 프로젝트의 목표를 정확하게 인식함
↳ 데이터 스토어로 분석에 필요한 정형/비정형 데이터를 추출함
- 텍스트 분석
↳ 감성 분석(Sentimental analysis), 토픽 분석(Topic analysis), 오피니언 분석(Opinion analysis), 소셜 네트워크 분석(SNA) 등을 실시하여 텍스트로부터 분석 목적에 맞는 적절한 모델을 구축함
- 탐색적 분석
↳ 다양한 관점별로 기초 통계량을 산출하고 데이터의 분포와 변수 간의 관계 등 데이터 특성 및 데이터의 통계적 특성을 이해하고 모델링을 위한 기초 자료로 활용함
- 모델링
↳ 모델링이란 분석용 데이터를 이용한 가설 설정을 통해 통계 모델을 만들거나 기계 학습을 이용한 데이터의 분류, 예측, 군집 등의 기능을 수행하는 모델을 만드는 과정
↳ ① 데이터 분할 : 모델의 과적합과 일반화를 위해 분석용 데이터 셋을 모델 개발을 위한 훈련용 데이터와 모델의 검증을 테스트하기 위한 데이터로 분할
↳ ② 데이터 모델링 : 기계 학습 등을 이용한 모델링은 훈련용 데이터를 활용하여 분류, 예측, 군집 등의 모델을 만들어 가동중인 운영 시스템에 적용함
↳ ③ 모델 적용 및 운영 방안 : 모델을 가용중인 운영시스템에 적용하기 위해서는 모델에 대한 상세한 알고리즘 설명서 작성이 필요함. 알고리즘 설명서는 시스템 구현 단계에서 중요한 입력자료로 활용되므로 필요시 의사코드 수준의 상세한 작성이 필요할 수도 있음
- 모델 평가 및 검증
↳ 프로젝트 정의서의 모델 평가 기준에 따라 모델을 객관적으로 평가하고 품질관리 차원에서 모델 평가 프로세스를 진행함
(4) 시스템 구현 (Developing)
- 설계 및 구현
↳ 모델링 테스크에서 정의된 알고리즘 설명서와 데이터 시각화 보고서를 이용하여 시스템 및 아키텍처 설계, 사용자 인터페이스 설계를 진행함
↳ 설계서를 바탕으로 패키지를 활용하여 프로그램을 구축함
- 시스템 테스트 및 운영
↳ 구축된 시스템의 검증을 위하여 단위 테스트, 통합 테스트, 시스템 테스트 등을 실시함
(5) 평가 및 전개 (Deploying)
- 모델 발전 계획 수립
↳ 개발된 모델의 지속적인 운영과 기능 향상을 위한 발전 계획을 상세하게 수립함
- 프로젝트 평가 및 보고
↳ 프로젝트의 성과를 정량적, 정성적으로 평가하고 프로젝트 진행 과정에서 산출된 지식, 프로세스, 출력 자료를 지식 자산화하고 프로젝트 최종 보고서를 작성함
> 기타 분석 방법론
① KDD (Knowledge Discovery in Database)
- KDD는 1996년 Fayyad가 체계적으로 정리한 데이터 마이닝 프로세스로서, 데이터베이스에서 의미 있는 지식을 탐색하는 데이터 마이닝, 기계학습, 인공지능, 패턴인식, 데이터 시각화 등에서 응용될 수 있는 구조를 가짐
> KDD 분석 절차
데이터셋 선택 (Selection) |
- 분석 대상의 비즈니스 도메인에 대한 이해와 프로젝트의 목표 설정 - 데이터 마이닝에 필요한 목표 데이터 선택 |
데이터 전처리 (Preprocessing) |
- 분석 데이터셋에 포함되어 있는 잡음(Noise), 이상값(Outlier), 결측치(Missing value)를 식별하고 필요시 제거함 |
데이터 변환 (Transformation) |
- 분석 목적에 맞는 변수를 선택하거나 데이터의 차원을 축소하여 데이터 마이닝을 효율적으로 적용할 수 있도록 데이터셋을 변경함 |
데이터 마이닝 (Data mining) |
- 변환된 데이터셋을 이용하여 분석 목적에 맞는 데이터 마이닝 기법을 선택하고, 데이터 마이닝 알고리즘을 선택하여 데이터의 패턴을 찾거나 데이터를 분류 또는 예측과 같은 마이닝 작업을 시행함 |
데이터 마이닝 결과 평가 (Interpretation / Evaluation) |
- 분석 결과에 대한 해석과 평가 및 활용을 함 |
② CRISP-DM (Cross Industry Standard Process for Data Mining)
- CRISP-DM은 1996년 유럽 연합의 ESPRIT에서 있었던 프로젝트에서 시작되었으며, 계층적 프로세스 모델로서 4개 레벨로 구성됨
- 최상위 레벨은 여러 개의 단계(Phrases)로 구성되고, 각 단계는 일반화 테스크(Generic tasks)를 포함함
- 일반화 테스크는 데이터 마이닝의 단일 프로세스를 완전하게 수행하는 단위임
- 세번째 레벨은 세분화 테스크(Specialized tasks)로 일반화 테스크를 구체적으로 수행하는 레벨임.
- 마지막 레벨인 프로세스 실행(Process instance)은 데이터 마이닝을 위한 구체적인 실행을 포함함.
> CRISP-DM 분석 절차
업무 이해 (Business understanding) |
- 비즈니스 관점 프로젝트의 목적과 요구 사항을 이해하기 위한 단계로서, 도메인 지식을 데이터 분석을 위한 문제 정의로 변경하고 초기 프로젝트 계획을 수립하는 단계 - 일반화 테스크 : 업무 목적 파악, 상황 파악, 데이터 마이닝 목표설정, 프로젝트 계획 수립 |
데이터 이해 (Data understanding) |
- 데이터 이해는 분석을 위한 데이터를 수집하고 데이터 속성을 이해하기 위한 과정으로 구성되는 데이터 품질에 대한 문제점을 식별하고 숨겨진 인사이트를 발견하는 초기 단계 - 일반화 테스크 : 데이터 수집, 데이터 기술 분석, 데이터 탐색, 데이터 품질 확인 |
데이터 준비 (Data preparation) |
- 데이터 준비는 분석을 위하여 수집된 데이터에서 분석기법에 적합한 데이터 셋을 편성하는 단계로 많은 시간 소요 - 일반화 테스크 : 데이터 셋 선택, 데이터 정제, 데이터 통합, 데이터 포맷팅 |
모델링 (Modeling) |
- 다양한 모델링 기법과 알고리즘을 선택하고 모델링 과정에서 사용되는 파라미터를 최적화해 나가는 단계. - 모델링 단계를 통하여 찾아낸 모델은 테스트용 프로세스와 데이터셋으로 평가하여 모델 과적합(Overfitting) 등의 문제를 발견하고 대응방안 마련 - 모델링 기법 선택, 모델 테스트 계획 설계, 모델 작성, 모델 평가로 구성 |
평가 (Evaluation) |
- 모델링 단계에서 얻은 모델이 프로젝트의 목적에 부합하는지를 평가함 - 이 단계의 목적은 데이터마이닝 결과를 수용할 것인지 최종적으로 판단하는 것에 있음 - 일반화 테스크 : 분석결과 평가, 모델링 과정 평가, 모델 적용성 평가 |
전개 (Deployment) |
- 모델링과 평가단계를 통하여 완성된 모델을 실제 업무에 적용하기 위한 계획을 수립하고 모터링과 모델의 유지보수계획을 마련 - 일반화 테스크 : 전개계획 수립, 모니터링과 유지보수계획 수립, 프로젝트 종료 보고서 작성, 프로젝트 리뷰 |
댓글