[빅분기] 과목2: 빅데이터 탐색

빅데이터 분석기사 필기 완벽 요약강의

- 2과목 (빅데이터 탐색) 주요 내용

데이터 전처리, 데이터 탐색, 통계기법 이해

데이터가 어떻게 생겨먹었는가! 탐색, 통계, 전처리
2과목에서는 통계가 있어서 수학을 포기한 사람들을 상당히 어려울 수 있음
기초 통계 ; 대학교 한학기 수업 -> 추가적인 학습이 필요할 수 있음. or 외워서라도 해
2~4과목은 연관된 부분이 많아서, 1과목은 보고 기출문제 풀어도 되지만 2~4는 한 번에 공부를 하고 기출문제를 푸는게 좋음.

데이터 전처리

1. 데이터 정제

데이터 정제

데이터의 종류

단변량, 다변량, 시계열 데이터

집값 <- 수도권 거리 (하나면 단변량), 고속도로, 지하철, 버스, 평수 (2개 이상 다변량)

시계열은 시간 순서

종단면적 (여러 시점) <-> 횡단변적 (한 시점) / 패널 데이터 (종+횡)

데이터 정제

잡음이 있는 것을 평활화 -> 부드럽게 변함. (이동평균법, 지수평활법) -> 시계열분석

데이터 결측값 처리

결측치 종류

존재하지 않는 데이터 null/NA
무작위 결측; 관련되어 발생 but 결과와는 관계 X
비무작위결측; 소득이 낮은 응답자들의 응답룰이 낮음 ; 상관이 있는 경우

결측값 처리

완전분석법: 데이터 삭제
단순 확률 대치법: 확률적 - nearest neighbit, hot-deck (비슷한 성향), Cold-deck(유사한 외부 출처에서 비슷한 성향)
다중 대치법: 여러 번 대치 (대치->분석->결합)

데이터 이상값 처리

이상값 처리

극단적으로 크거나 작은 값, 의미 있는 데이터 일수도 있으므로 이상값을 항상 제거하는 것은 아님.
ESD (Extreme Studentized Deviation)
- 평균으로부터 표준편차의 3배가 넘어가는 데이터는 이상값 (정규분포)
사분위수
- Q1 - 1.5IQR보다 작어나, Q3 + 1.5IQR보다 크면 이상값, (25%, 50%, 75%) - Boxplot
- B 데이터가 A보다 넓게 분포되어 있으면 분산이 더 큼
- Q2; 중앙값 B가 A보다 높이 있으므로 더 큼
- A에 MAX를 벗어나는 데이터가 존재하면 이상치가 존재한다고 판단
- A와 B의 평균은 알 수 없음
Z-Score
DBScan

2. 분석 변수 처리

변수 선택

변수 선택 방법

집값 <- 수도권 거리, 고속도로, 버스, 지하철, 평수 ; 5개의 변수를 다 활용하지 않고 하나씩 추가해보면서 (전진선택법), 5개 다 넣어놓고 하나씩 제거하는 것 (후진제거법), 같이 하는 것 (단계별 선택법)

상관계수 매트릭스 분석
- 자기 자신은 1 (양의 상관관계)
- 상관계수가 높다는 것은 둘 중 하나의 변수는 제거해도 됨. - 고속도로나 버스나 상관관계가 높으면 둘 중 하나는 제거함

차원축소

차원이란? 집값 <- 수도권으로부터의 거리, 고속도로 접근성, 지하철, 버스, 평수 ; 이 특성들, 변수의 개수를 차원이라고 부름.

차원의 저주

1차원의 데이터를 2차원으로 늘리면 데이터가 분포가 됨. 3차원으로 옮기면 이 안에 분포를 하는데 3차원에서는 빈공간이 늘어남. 채워야할 데이터의 개수가 늘어남.
차원이 높아질수록 알고리즘의 성능이 저하가 됨
특성이 많을 수록 데이터를 많이 수집해야 함.
많은 개수를 지금은 5차원이지만 3차원을 만들든, 2차원을 만들든 극단적으로 1차원을 만들어야 함. (차원 축소)

차원 축소의 효과

차원의 저주 해소, 데이터 시각화, 노이즈 제거, 데이터 압축, 성능 향상, 특징 추출, 계산 비용 절감

차원 축소 기법 (다 시험이 출제됨**)

선형차원축소기법
- 주성분 분석 (PCA); 분산이 최대화되는 방향 (4과목)
- LDA(분산을 최대화), ICA(독립적인 성분), SVD(비정방행렬), 요인분석 (잠재 요인으로 축소)
비선형 차원 축소 기법
- MDS (Multi-Dimensional Scaling, 거리정보의 근접성 보존), t-SNE (데이터간 거리 정보를 확률적으로 유지), UMAP, AutoEncoder(신경망을 활용한 차원 축소 기법으로 데이터를 압축 후 다시 복원하는 학습)

파생변수 생성

요약변수와 파생 변수

요약변수 (종합, 요약, 재활용성 높음), 파생변수 (의미부여, 논리적 타당성)
파생변수 생성방법: 특징 추출, 결합, 부가적 정보 결합, 수학적 변환, 교호작용
- 교호작용; 고혈압 <- 유전적, 비만 (유전적이 2배정도 비만이 4배정도, 유전적*비만은 20배의 영향을 미친다면? 2개의 변수보다 새로운 파생 변수를 도입해서 3개의 변수로 예측하는 것이 더욱 타당함)
  - 두 개 이상의 독립변수가 상호작용. 종속변수에 영향을 미치는 경우

변수 변환

수치형 자료와 범주형 자료

수치형 자료 (키, 몸무게 -> 회귀분석), 범주형 자료 (혈액형, 성별 -> 분류 분석)

수치형 변수 변환

Z-Score 정규화: 평균 0, 표준편차 1 - N(0,1)
- 키 160-190, 몸무게 50-80이므로 같은 수치로 만들자
최소-최대 정규화: 0에서 1사이로 변환
로그 변환: 데이터가 한쪽으로 치우쳐져 있을 시 -> 정규분포(로그)
지수변환, 제곱근 변환, box-cox변환 (양수 데이터의 비대칭 분포)

범주형 변수 변환

레이블 인코딩; 데이터를 정수로 (오렌지;0, 바나나;1, 포도;2)
- 포도가 오렌지보다 크다고 인식할 수 있다는 문제가 있음
원-핫 인코딩; 레이블 인코딩의 문제를 해결, 해당하는 컬럼만 1로 표시하고 나머지는 영으로 표시
- 오렌지; [1, 0, 0] 바나; [0, 1, 0] -> 용량을 많이 차지하는 문제점
타깃 인코딩; 평균값으로 변환

날짜/시간 변수 변환 - 분할, 파생

불균형 데이터 처리

불균형 데이터의 처리 방법

강아지 300장, 고양이 50장 수집 - 불균형 데이터; 가중치에 균형을 적용 (가중치 균형 적용), 다수 데이터의 일부를 줄임 (언더샘플링), 소수 데이터를 복사하거나 유사한 데이터를 만듦(오버샘플링)

데이터 탐색

1. 데이터 탐색 기초

데이터 탐색 개요

EDA (탐색적 자료 분석) ; 통계, 시각화

4가지 주제: 저잔재현 (저항성의 강조, 잔차계산, 자료변수의 재표현, 그래프를 통한 현시성)

상관관계 분석

상관분석

상관관계 매트릭스 ; 어느정도의 관계가 있는지를 나타내는 것

단순상관분석 - 2개의 변수, 다중상관분석 - 3개 이상, 편상관관계분석: 제 3의 젼수를 통제한 상태에서 두 변수의 상관관계

상관분석 방법

피어슨 상관분석; 선형관계 크기 측정
스피어만 상관분석: 서열, 척도, 순서형 변수, 선형/비선형적 관계
- 순서를 매길 수 있으면 다 사용가능함

기초통계량 추출 및 이해

기초 통계량

중심경향성: 산술평균, 기하평균, 조화평균, 중앙값, 최빈값
분산 정도 측면 (얼마나 퍼져있는지): 범위, 분산, 표준편차, 사분위수 (IQR), 변동계수 (CV)
관계 측면 (공분산: 두 확률 변수의 상관정도; 0 상관없음, 양, 음의 상관관계, 무한대까지 갈 수 있음) ; 최대 최소값이 없어서 강약 판단 불가 -> 상관계수
상관계수: -1~1값으로 표현 ; 1정비례 0 상관없음 -1 반비례
- 전후양상 (1과목); '상' 상관관계
공분산과 독립성의 관계; 두 변수가 독립이면 공분산은 0이지만 공분산이 0이라고 해서 두 변수가 독립이라고 할 수는 없음
- 2차 함수의 관계로 명확하다면 공분산이 0이 아님.

기댓값과 분산의 특성

서로 독립인 X, Y가 각각 정규분포 N(20, 2^2), N(27, 1^2)를 따른다고 할 때 확률변수일 경우의 Z = 5X - 7Y + 15의 기댓값과 분산을 계산

1) Z의 기대값 ; 그냥 대입하면 됨

2) Z의 분산; 상수는 0으로 취급 V(5X-7Y) = 25 * 2^2 + 49 * 1^2 = 149 제곱이 튀어나온다.

첨도와 왜도

첨도; 자료의 분포가 얼마나 뾰족한 지 나타내는 척도 ; 첨도 = 3 정규 분포 -> 값이 클수록 뾰족한 모양
왜도; 자료 분포의 비대칭 정도 (0일때 대칭)

왜도 < 0: 최빈값 > 중앙값 > 평균값
왜도 >0: 최빈값 (가장 높은 부분) < 중앙값 < 평균값
-> 평균값은 꼬리를 따라감

Summary 함수 결과의 해석

Mean, Median -> 수치형 변수; 범주형 변수는 이런게 없음
- 평균이 중앙값보다 크면 왜도 >0
- 결측치(NA's)의 개수
집단의 빈도 수 -> 변수형 변수
- 범주 0과 1이 클래스 불균형이면 오버샘플링이나 다운샘플링을 해야 함

2. 고급 데이터 탐색

시공간 데이터 탐색

시공간 데이터

일기예보에서 태풍이 움직이는 경로. 활용: 패지격 (패턴, 지도, 격자 차트)

다변량 데이터 탐색

다변량 데이터 탐색

목표: 변수 간 관계, 패턴 분석, 이상치 탐지, 데이터 요약
방법: 상관관계분석, PCA, 다차원척도법, 다중선형회귀, 군집 분석 등

비정형 데이터 탐색

자연어 전처리

언어를 가공을 시켜야 함. 크게 5가지
토큰화 (I/like/apple), 불용어(Family ~~is an~~ important thing), 정규화 (Apple = apple), 어간추출 (Working, Works, Worked -> work) 표제어 추출 (am, are, is -> be)

통계기법 이해

1. 기술추출

표본추출

전수조사와 표본조사

모집단 -> 표본 ; 이 과정을 표본 추출
표본집단을 가설검정 과정을 거쳐서 모집단을 예측함
전수조사는 전체를 다 조사 (시간과 비용이 너무 많이 소모), 표본조사는 일부만 추출하여 모집단을 분석 (출구조사)
가설검정은 표본집단의 분포가 타당한지를 검사

확률적 표본 추출 방법

랜덤 추출, 계통 추출 (번호를 부여하여 일정 가격으로 추출; 1 3 5 7 ..)
집락 추출법 <-> 층화 추출법
- A, B, C 아파트를 돌아다니면서 조사하기 힘드니까 특정 아파트만 조사해서 검사 ; 여러 군집으로 나눈다음에 이 안에서 랜덤하게 ; 집락 추출법 (군집 추출법) -> A, B, C 군집 간에는 동질적 특징, 군집 내에는 이질적 특징
- 층화추출법 ; 1학년 (100명) 2학년 (100명) 3학년 (100명) - 실수로 1학년에서만 60명을 뽑았다면 학교를 대변할 수 없음. 즉 층을 나눠서 추출해야 함. 학년별로 각각 추출. 학년 끼리는 동질적이지만 (군집 내 동질적 특징) 그러나 학년 별로는 이질적임 (군집 간 이질적 특징) 비율로 뽑는게 가장 좋음 (비례 층화 추출법)
복원 (넣었던 거 다시 포함해서) / 비복원은 제외하고 추출

비확률적 표본 추출 방법

편의 추출법, 의도적 추출법, 할당 추출법, 눈덩이 추출법, 자기선택 추출법

확률분포

기초 확률 용어

확률, 사건, 표본 공간, 확률변수 - 이미 알고 있다고 가정
조건부 확률: 특정 사건 B가 발생했을 때 A가 발생할 확률
독립사건: A, B가 서로 영향을 주지 않음 P(A|B) = P(A)
배반사건: A, B가 서로 동시에 일어나지 않음. 교집합이 공집합
베이즈 정리: 두 확률 변수의 사전 확률과 사후 확률 사이의 관계 (3과목)

확률 분포

확률 변수의 개별 값들이 가지는 확률 값의 분포

이산 확률분포 (값을 셀 수 있는, 확률질량함수), 연속 확률분포 (값을 셀 수 없는, 확률밀도함수)
이산 확률분포: 베포항항하 (베르노이분포, 이항분포, 기하분포, 음이항분포, 초기하분포, 다항분포, 포아송분포)
연속 확률분포: 정규분포, t분포 (표본이 너무 작으면 - 표본이 30개보다 작은 집단), 카이제곱분포, F분포

확률분포의 기댓값

확률변수 X의 f(x)의 확률분포의 대한 기대값 E(X)

이산적 확률변수 (덧셈), 연속적 확률변수 (적분 - 면적)

표본분포

중심극한정리***

모집단으로 부터 표본을 예측하는데, 표본집단을 여러번 추출해서 평균을 매긴 집단을 분석함. (표본크기가 충분히 큼. 30개 이상) -> 정규분포 ; 모집단의 분포와 상관없이 표본분포가 정규분포를 이룸

-> 정규분포의 특징만 제대로 알면 세상의 많은 모집단의 특징을 알 수 있다는 뜻. (가설검정, 예측)

표본평균의 표본분포

표본비율의 표본분포

정답과 오답의 비율

2. 추론통계

배달 앱에서 30분 뒤에 도착한다고 하면 점추정, 20~50분 사이에 온다고 하면 구간추정

점추정

점추정

모집단이 특정한 값으로 추정하며, 추정량으로 모수를 측정

불표일충: 불편성(오차가 없어야 함. 편향이 0), 효율성(분산이 작아야함), 일치성(표본의 크기가 증가할수록), 충족성(추정량이 모집단의 정보를 최대한 반영)
대표적인 추정량
- n-1로 나누는 이유; 자유도
- 분산이 퍼져 있는 정도. 표본을 뽑아가면 잘 뽑아도 이 길이만큼 뽑지는 못함 (일부분만 뽑기 때문에) 그렇기 때문에 분산이 줄어들 수밖에 없으므로 n-1로 나눔.

구간추정

구간추정

특정 구간에 들어오는 지를 의미함.

중심극한정리에 의해서 표본을 뽑아서 표본의 평균의 분포를 그리면 정규분포. 평균이 와야 하는데 (표준정규분포) ; 각국정상들이 한 자리에 모여서 회의를 할 때 달러를 가지고 얘기를 하는데 우리나라 혼자 원단위로 얘기를 하면 얘기가 안됨. 우리나라도 그 자리에서는 달러를 얘기하고 한국에 돌아와서 원으로 얘기함; 많은 분포에서 N(0,1)에 관심이 있고 이것을 우리가 가진 분포에 잘 적용하면 됨 (추정하고자 하는 값이 정규분포에 잘 들어있으면 됨)
- 양측이니까 1/2로 나눔. 표준정규분포의 값으로서 1.96으로 이미 구해져있음. 신뢰구간안에 들어가 있는가? (모집단) - 신뢰구간 구하는 공식 외우기!!
- 모집단에서 표본집단을 추출한 다음에 표본집단으로 모집단을 예측하는 것인데 모집단의 분산을 모를 수 있음. (시그마값) ; 자유도가 n-1인 t분포를 이용해서 신뢰구간을 추정 ; 표본의 표준편차를 사용을 하면 됨.
- 비율도 마찬가지

가설검정

가설검정

모집단의 특성에 대한 주장을 가설로 세우고 표본조사로 가설의 채택여부를 판정

1인분에 200g이 아닌 것 같아서 아니라고 주장을 함. 귀무가설은 일반적으로 생각하는 가설임. (1인분에 200g이에요) 이를 기각하는 가설이 대립가설. (1인분에 200g이 아니에요) 모든 주문하는 사람마다 저울을 잴 수 없으니 표본을 뽑아서 조사를 함. 7%정도는 내가 틀릴 수 있을 것 같다. 검정통계량 (계산된 확률, 일반적으로 0.05는 봐줌) 그러면 7%는 넘으므로 틀렸다고 주장함. 유의수준이 5%인 것이다. 다시 조사를 했더니 틀릴 확률이 3%였다. 그러면 너의 말이 맞으므로 1인분이 200g이 아닌 것이므로 기각시키는 것이 기각역
1종오류
정규분포안에 들어오면 채택역 (귀무가설을 채택하는 것) , 만약에 안들어오면 기각역 (0.025) - 작다와 크다를 검정하면 양측검정, 1인분이 200g보다 작거나 큰 둘 중 하나만 검정하는 것이면 단측검정

가설 검정 문제 풀이 방법

귀무가설/ 대립가설 설정
양측 혹은 단측검정 확인 (같지 않다면 양측검정, 값이 크다 혹은 작다면 단측 검정)
일표본 혹은 이표본 (하나의 모집단이면 일표본, 두개면 이표본)
검정통계량이 기각역에 존재하면 귀무가설 기각
t검정인 경우, 단일표본(모집단에 대한 평균 검정), 대응표본(동일 모집단에 대한 평균비교 검정), 독립표본 (서로 다른 모집단에 대한 평균비교 검정)

저작자표시 비영리 변경금지

'자격증 공부 > 빅데이터분석기사' 카테고리의 다른 글

[빅분기] 과목3: 빅데이터 모델링 (0)	2025.04.01
[빅분기] 과목1: 빅데이터 분석 기획 (6)	2025.03.31
[빅분기] Part1.1.2 빅데이터와 인공지능 (8)	2025.03.29
[빅분기] 필기 준비 시작! (2)	2025.03.29

내 블로그 - 관리자 홈 전환	`Q` `Q`
새 글 쓰기	`W` `W`

글 수정 (권한 있는 경우)	`E` `E`
댓글 영역으로 이동	`C` `C`

이 페이지의 URL 복사	`S` `S`
맨 위로 이동	`T` `T`
티스토리 홈 이동	`H` `H`
단축키 안내	`Shift` + `/` `⇧` + `/`

Mandy World

[빅분기] 과목2: 빅데이터 탐색

- 2과목 (빅데이터 탐색) 주요 내용

1. 데이터 정제

데이터 정제

데이터 결측값 처리

데이터 이상값 처리

2. 분석 변수 처리

변수 선택

차원축소

파생변수 생성

변수 변환

불균형 데이터 처리

1. 데이터 탐색 기초

데이터 탐색 개요

상관관계 분석

기초통계량 추출 및 이해

2. 고급 데이터 탐색

시공간 데이터 탐색

다변량 데이터 탐색

비정형 데이터 탐색

1. 기술추출

표본추출

확률분포

표본분포

2. 추론통계

점추정

구간추정

가설검정

'자격증 공부 > 빅데이터분석기사' 카테고리의 다른 글

티스토리툴바

단축키

내 블로그

블로그 게시글

모든 영역

[빅분기] 과목2: 빅데이터 탐색

- 2과목 (빅데이터 탐색) 주요 내용

1. 데이터 정제

데이터 정제

데이터 결측값 처리

데이터 이상값 처리

2. 분석 변수 처리

변수 선택

차원축소

파생변수 생성

변수 변환

불균형 데이터 처리

1. 데이터 탐색 기초

데이터 탐색 개요

상관관계 분석

기초통계량 추출 및 이해

2. 고급 데이터 탐색

시공간 데이터 탐색

다변량 데이터 탐색

비정형 데이터 탐색

1. 기술추출

표본추출

확률분포

표본분포

2. 추론통계

점추정

구간추정

가설검정

'자격증 공부 > 빅데이터분석기사' 카테고리의 다른 글

관련글

티스토리툴바

단축키

내 블로그

블로그 게시글

모든 영역