본문 바로가기
자격증 공부/빅데이터분석기사

[빅분기] 과목1: 빅데이터 분석 기획

by Mandy's 2025. 3. 31.

 

해당 강의를 보면서 요약해서 작성했음을 밝힙니다

1. 빅데이터 개요 및 활용

- 빅데이터의 특징

빅데이터 활용을 위한 3대 요소: 인자기 (인력, 자원(데이터), 기술)

빅데이터의 3V (가트너 정의): Volume(규모), Variety(다양성), Velocity(속도) + Value(가치)

DIKW 피라미드: Data, Information, Knowledge, Wisdom

데이터 베이스의 개념

DB: 일정 구조에 맞게 조직화된 데이터의 집합

- 스키마: DB의 구조와 제약조건에 관한 전반적 명세 (외부 스키마, 개념 스키마, 내부스키마)

- 메타데이터: 데이터를 설명하는 데이터, 데이터 구조를 설명하고 검색하는데 활용

DBMS: DB를 관리, 접근 환경을 제공하는 소프트웨어

- DDL: CREATE, ALTER, DROP

- DML: SELECT, INSERT, DELETE, UPDATE

- DCL: COMMIT, ROLLBACK, GRANT, REVOKE

빅데이터가 만들어내는 변화

전후양상: 전수조사, 사후처리, 질보단양, 상관관계

하둡: 여러 컴퓨터를 하나로 묶어 대용량 데이터를 처리하는 오픈 소스 빅데이터 솔루션
HDFS: 분산파일시스템

 

- 개인정보 법제도

데이터 3법

개정신: 인정보보호법, 보통신망법, 용정보법

 

데이터분석 계획

데이터 분석 프로젝트의 우선순위 선정 기준

시급성: KPI - Value

난이도: 3V

- 분석 문제 정의

하향식 접근 방법: 문제가 주어지고 해답을 찾기 위해 진행
- 지원인프라 업무 중에 고객이 제품을 규제와 감사 했다
- 거시적 관점 ; STEEP (사회, 기술, 경제, 환경, 정치)
상향식 접근 방법: 비지도 학습

 

- 데이터 분석 방안

분석 방법론의 구성 요소: 절차, 방법, 도구와 기법, 템플릿과 산출물
분석 과제에서 고려해야할 5가지 요소: 데이터 크기, 속소, 데이터 복잡도, 분석 복잡도, 정확도/정밀고

정확도와 정밀도는 trade-off 관계

프로젝트 관리 지식 체계 10가지 영역

이범통이 의자에서 시원한 조리품을 먹었다: 이해관계자, 범위, 통합, 의사소통, 인적자원, 시간, 원가, 조달, 리스크, 품질

Crisp-DM 분석 방법론
업데데이트모델평가전: 업무 이해->데이터이해->데이터준비->모델링->평가->전개
모델링: 모델 작성 및 평가
빅데이터 분석 방법론 ***

PPADD: Planning (분석 기획) -> Preparing (데이터 준비) -> Analyzing (데이터 분석) -> Developing (시스템 구현) -> Deploying (평가 및 전개)

데이터 분석 수준 진단

분석 준비도: IT문데기인파

-> 분석적 업무 파악, 인력 및 조직, 분석 기법, 분석 데이터, 분석 문화, IT 인프라

분석 성숙도 *CMMI 모델 기반: 도활확최 (입, 용, 산, 적화)

 데이터 분석 성숙도 모델

도준정확: 도입형(4), 준비형(3), 정착향(1), 확산형(2)

데이터 거버넌스

원조프: 원칙, 조직, 프로세스

데이터 수집 및 저장 계획

1. 데이터 수집 및 전환

- 데이터 수집

데이터 수집 기술: ETL (Extraction, Transformation, Load) , FTP, API, 아파치 스쿱, 아파치 클럼, 웹 크롤링

- 데이터 유형 및 속성 파악

데이터의 유형

정성적, 정량적

정형, 반정형, 비정형

- 정형: 관계형 DB, 반정형: 메타데이터, 비정형: SNS, 유튜브, 음원 (NoSQL)

2. 데이터 적재 및 저장

분산 파일 시스템

HDFS (하둡 분산파일 시스템), GFS, Ceph, 아마존 S3

* 분산 파일 시스템과 분산 데이터베이스는 구분되는 개념

데이터 베이스

관계형 데이터베이스 (무결성 보장), NoSQL 데이터베이스 (확장성과 가용성)

병렬 DBMS

SAP HANA

데이터웨어하우스 > 데이터마트, 데이터레이크

데이터 웨어 하우스: 주제지향성, 데이터 통합, 시계열성, 비휘발성 (읽기전용)

ETL(추출, 변환, 적재) - ODS에 임시 저장

데이터 레이크; 비정형 데이터, 호수