- 2과목 (빅데이터 탐색) 주요 내용
데이터 전처리, 데이터 탐색, 통계기법 이해
데이터가 어떻게 생겨먹었는가! 탐색, 통계, 전처리
2과목에서는 통계가 있어서 수학을 포기한 사람들을 상당히 어려울 수 있음
기초 통계 ; 대학교 한학기 수업 -> 추가적인 학습이 필요할 수 있음. or 외워서라도 해
2~4과목은 연관된 부분이 많아서, 1과목은 보고 기출문제 풀어도 되지만 2~4는 한 번에 공부를 하고 기출문제를 푸는게 좋음.
데이터 전처리
1. 데이터 정제
데이터 정제
데이터의 종류
- 단변량, 다변량, 시계열 데이터
집값 <- 수도권 거리 (하나면 단변량), 고속도로, 지하철, 버스, 평수 (2개 이상 다변량)
시계열은 시간 순서
종단면적 (여러 시점) <-> 횡단변적 (한 시점) / 패널 데이터 (종+횡)
데이터 정제
- 잡음이 있는 것을 평활화 -> 부드럽게 변함. (이동평균법, 지수평활법) -> 시계열분석
데이터 결측값 처리
결측치 종류
- 존재하지 않는 데이터 null/NA
- 무작위 결측; 관련되어 발생 but 결과와는 관계 X
- 비무작위결측; 소득이 낮은 응답자들의 응답룰이 낮음 ; 상관이 있는 경우
결측값 처리
- 완전분석법: 데이터 삭제
- 단순 확률 대치법: 확률적 - nearest neighbit, hot-deck (비슷한 성향), Cold-deck(유사한 외부 출처에서 비슷한 성향)
- 다중 대치법: 여러 번 대치 (대치->분석->결합)
데이터 이상값 처리
이상값 처리
- 극단적으로 크거나 작은 값, 의미 있는 데이터 일수도 있으므로 이상값을 항상 제거하는 것은 아님.
- ESD (Extreme Studentized Deviation)
- 평균으로부터 표준편차의 3배가 넘어가는 데이터는 이상값 (정규분포)
- 사분위수
- Q1 - 1.5IQR보다 작어나, Q3 + 1.5IQR보다 크면 이상값, (25%, 50%, 75%) - Boxplot
- B 데이터가 A보다 넓게 분포되어 있으면 분산이 더 큼
- Q2; 중앙값 B가 A보다 높이 있으므로 더 큼
- A에 MAX를 벗어나는 데이터가 존재하면 이상치가 존재한다고 판단
- A와 B의 평균은 알 수 없음
- Z-Score
- DBScan
2. 분석 변수 처리
변수 선택
변수 선택 방법
집값 <- 수도권 거리, 고속도로, 버스, 지하철, 평수 ; 5개의 변수를 다 활용하지 않고 하나씩 추가해보면서 (전진선택법), 5개 다 넣어놓고 하나씩 제거하는 것 (후진제거법), 같이 하는 것 (단계별 선택법)
- 상관계수 매트릭스 분석
- 자기 자신은 1 (양의 상관관계)
- 상관계수가 높다는 것은 둘 중 하나의 변수는 제거해도 됨. - 고속도로나 버스나 상관관계가 높으면 둘 중 하나는 제거함
차원축소
차원이란? 집값 <- 수도권으로부터의 거리, 고속도로 접근성, 지하철, 버스, 평수 ; 이 특성들, 변수의 개수를 차원이라고 부름.
차원의 저주
- 1차원의 데이터를 2차원으로 늘리면 데이터가 분포가 됨. 3차원으로 옮기면 이 안에 분포를 하는데 3차원에서는 빈공간이 늘어남. 채워야할 데이터의 개수가 늘어남.
- 차원이 높아질수록 알고리즘의 성능이 저하가 됨
- 특성이 많을 수록 데이터를 많이 수집해야 함.
- 많은 개수를 지금은 5차원이지만 3차원을 만들든, 2차원을 만들든 극단적으로 1차원을 만들어야 함. (차원 축소)
차원 축소의 효과
- 차원의 저주 해소, 데이터 시각화, 노이즈 제거, 데이터 압축, 성능 향상, 특징 추출, 계산 비용 절감
차원 축소 기법 (다 시험이 출제됨**)
- 선형차원축소기법
- 주성분 분석 (PCA); 분산이 최대화되는 방향 (4과목)
- LDA(분산을 최대화), ICA(독립적인 성분), SVD(비정방행렬), 요인분석 (잠재 요인으로 축소)
- 비선형 차원 축소 기법
- MDS (Multi-Dimensional Scaling, 거리정보의 근접성 보존), t-SNE (데이터간 거리 정보를 확률적으로 유지), UMAP, AutoEncoder(신경망을 활용한 차원 축소 기법으로 데이터를 압축 후 다시 복원하는 학습)
파생변수 생성
요약변수와 파생 변수
- 요약변수 (종합, 요약, 재활용성 높음), 파생변수 (의미부여, 논리적 타당성)
- 파생변수 생성방법: 특징 추출, 결합, 부가적 정보 결합, 수학적 변환, 교호작용
- 교호작용; 고혈압 <- 유전적, 비만 (유전적이 2배정도 비만이 4배정도, 유전적*비만은 20배의 영향을 미친다면? 2개의 변수보다 새로운 파생 변수를 도입해서 3개의 변수로 예측하는 것이 더욱 타당함)
- 두 개 이상의 독립변수가 상호작용. 종속변수에 영향을 미치는 경우
- 교호작용; 고혈압 <- 유전적, 비만 (유전적이 2배정도 비만이 4배정도, 유전적*비만은 20배의 영향을 미친다면? 2개의 변수보다 새로운 파생 변수를 도입해서 3개의 변수로 예측하는 것이 더욱 타당함)
변수 변환
수치형 자료와 범주형 자료
- 수치형 자료 (키, 몸무게 -> 회귀분석), 범주형 자료 (혈액형, 성별 -> 분류 분석)
수치형 변수 변환
- Z-Score 정규화: 평균 0, 표준편차 1 - N(0,1)
- 키 160-190, 몸무게 50-80이므로 같은 수치로 만들자
- 최소-최대 정규화: 0에서 1사이로 변환
- 로그 변환: 데이터가 한쪽으로 치우쳐져 있을 시 -> 정규분포(로그)
- 지수변환, 제곱근 변환, box-cox변환 (양수 데이터의 비대칭 분포)
범주형 변수 변환
- 레이블 인코딩; 데이터를 정수로 (오렌지;0, 바나나;1, 포도;2)
- 포도가 오렌지보다 크다고 인식할 수 있다는 문제가 있음
- 원-핫 인코딩; 레이블 인코딩의 문제를 해결, 해당하는 컬럼만 1로 표시하고 나머지는 영으로 표시
- 오렌지; [1, 0, 0] 바나; [0, 1, 0] -> 용량을 많이 차지하는 문제점
- 타깃 인코딩; 평균값으로 변환
날짜/시간 변수 변환 - 분할, 파생
불균형 데이터 처리
불균형 데이터의 처리 방법
강아지 300장, 고양이 50장 수집 - 불균형 데이터; 가중치에 균형을 적용 (가중치 균형 적용), 다수 데이터의 일부를 줄임 (언더샘플링), 소수 데이터를 복사하거나 유사한 데이터를 만듦(오버샘플링)
데이터 탐색
1. 데이터 탐색 기초
데이터 탐색 개요
EDA (탐색적 자료 분석) ; 통계, 시각화
4가지 주제: 저잔재현 (저항성의 강조, 잔차계산, 자료변수의 재표현, 그래프를 통한 현시성)
상관관계 분석
상관분석
상관관계 매트릭스 ; 어느정도의 관계가 있는지를 나타내는 것
- 단순상관분석 - 2개의 변수, 다중상관분석 - 3개 이상, 편상관관계분석: 제 3의 젼수를 통제한 상태에서 두 변수의 상관관계
상관분석 방법
- 피어슨 상관분석; 선형관계 크기 측정
- 스피어만 상관분석: 서열, 척도, 순서형 변수, 선형/비선형적 관계
- 순서를 매길 수 있으면 다 사용가능함
기초통계량 추출 및 이해
기초 통계량
- 중심경향성: 산술평균, 기하평균, 조화평균, 중앙값, 최빈값
- 분산 정도 측면 (얼마나 퍼져있는지): 범위, 분산, 표준편차, 사분위수 (IQR), 변동계수 (CV)
- 관계 측면 (공분산: 두 확률 변수의 상관정도; 0 상관없음, 양, 음의 상관관계, 무한대까지 갈 수 있음) ; 최대 최소값이 없어서 강약 판단 불가 -> 상관계수
- 상관계수: -1~1값으로 표현 ; 1정비례 0 상관없음 -1 반비례
- 전후양상 (1과목); '상' 상관관계
- 공분산과 독립성의 관계; 두 변수가 독립이면 공분산은 0이지만 공분산이 0이라고 해서 두 변수가 독립이라고 할 수는 없음
- 2차 함수의 관계로 명확하다면 공분산이 0이 아님.
기댓값과 분산의 특성
서로 독립인 X, Y가 각각 정규분포 N(20, 2^2), N(27, 1^2)를 따른다고 할 때 확률변수일 경우의 Z = 5X - 7Y + 15의 기댓값과 분산을 계산
1) Z의 기대값 ; 그냥 대입하면 됨
2) Z의 분산; 상수는 0으로 취급 V(5X-7Y) = 25 * 2^2 + 49 * 1^2 = 149 제곱이 튀어나온다.
첨도와 왜도
- 첨도; 자료의 분포가 얼마나 뾰족한 지 나타내는 척도 ; 첨도 = 3 정규 분포 -> 값이 클수록 뾰족한 모양
- 왜도; 자료 분포의 비대칭 정도 (0일때 대칭)
왜도 < 0: 최빈값 > 중앙값 > 평균값
왜도 >0: 최빈값 (가장 높은 부분) < 중앙값 < 평균값
-> 평균값은 꼬리를 따라감
Summary 함수 결과의 해석
- Mean, Median -> 수치형 변수; 범주형 변수는 이런게 없음
- 평균이 중앙값보다 크면 왜도 >0
- 결측치(NA's)의 개수
- 집단의 빈도 수 -> 변수형 변수
- 범주 0과 1이 클래스 불균형이면 오버샘플링이나 다운샘플링을 해야 함
2. 고급 데이터 탐색
시공간 데이터 탐색
시공간 데이터
- 일기예보에서 태풍이 움직이는 경로. 활용: 패지격 (패턴, 지도, 격자 차트)
다변량 데이터 탐색
다변량 데이터 탐색
- 목표: 변수 간 관계, 패턴 분석, 이상치 탐지, 데이터 요약
- 방법: 상관관계분석, PCA, 다차원척도법, 다중선형회귀, 군집 분석 등
비정형 데이터 탐색
자연어 전처리
- 언어를 가공을 시켜야 함. 크게 5가지
- 토큰화 (I/like/apple), 불용어(Family
is animportant thing), 정규화 (Apple = apple), 어간추출 (Working, Works, Worked -> work) 표제어 추출 (am, are, is -> be)
통계기법 이해
1. 기술추출
표본추출
전수조사와 표본조사
- 모집단 -> 표본 ; 이 과정을 표본 추출
- 표본집단을 가설검정 과정을 거쳐서 모집단을 예측함
- 전수조사는 전체를 다 조사 (시간과 비용이 너무 많이 소모), 표본조사는 일부만 추출하여 모집단을 분석 (출구조사)
- 가설검정은 표본집단의 분포가 타당한지를 검사
확률적 표본 추출 방법
- 랜덤 추출, 계통 추출 (번호를 부여하여 일정 가격으로 추출; 1 3 5 7 ..)
- 집락 추출법 <-> 층화 추출법
- A, B, C 아파트를 돌아다니면서 조사하기 힘드니까 특정 아파트만 조사해서 검사 ; 여러 군집으로 나눈다음에 이 안에서 랜덤하게 ; 집락 추출법 (군집 추출법) -> A, B, C 군집 간에는 동질적 특징, 군집 내에는 이질적 특징
- 층화추출법 ; 1학년 (100명) 2학년 (100명) 3학년 (100명) - 실수로 1학년에서만 60명을 뽑았다면 학교를 대변할 수 없음. 즉 층을 나눠서 추출해야 함. 학년별로 각각 추출. 학년 끼리는 동질적이지만 (군집 내 동질적 특징) 그러나 학년 별로는 이질적임 (군집 간 이질적 특징) 비율로 뽑는게 가장 좋음 (비례 층화 추출법)
- 복원 (넣었던 거 다시 포함해서) / 비복원은 제외하고 추출
비확률적 표본 추출 방법
편의 추출법, 의도적 추출법, 할당 추출법, 눈덩이 추출법, 자기선택 추출법
확률분포
기초 확률 용어
- 확률, 사건, 표본 공간, 확률변수 - 이미 알고 있다고 가정
- 조건부 확률: 특정 사건 B가 발생했을 때 A가 발생할 확률
- 독립사건: A, B가 서로 영향을 주지 않음 P(A|B) = P(A)
- 배반사건: A, B가 서로 동시에 일어나지 않음. 교집합이 공집합
- 베이즈 정리: 두 확률 변수의 사전 확률과 사후 확률 사이의 관계 (3과목)
확률 분포
확률 변수의 개별 값들이 가지는 확률 값의 분포
- 이산 확률분포 (값을 셀 수 있는, 확률질량함수), 연속 확률분포 (값을 셀 수 없는, 확률밀도함수)
- 이산 확률분포: 베포항항하 (베르노이분포, 이항분포, 기하분포, 음이항분포, 초기하분포, 다항분포, 포아송분포)
- 연속 확률분포: 정규분포, t분포 (표본이 너무 작으면 - 표본이 30개보다 작은 집단), 카이제곱분포, F분포
확률분포의 기댓값
확률변수 X의 f(x)의 확률분포의 대한 기대값 E(X)
- 이산적 확률변수 (덧셈), 연속적 확률변수 (적분 - 면적)
표본분포
중심극한정리***
모집단으로 부터 표본을 예측하는데, 표본집단을 여러번 추출해서 평균을 매긴 집단을 분석함. (표본크기가 충분히 큼. 30개 이상) -> 정규분포 ; 모집단의 분포와 상관없이 표본분포가 정규분포를 이룸
-> 정규분포의 특징만 제대로 알면 세상의 많은 모집단의 특징을 알 수 있다는 뜻. (가설검정, 예측)
표본평균의 표본분포

표본비율의 표본분포
정답과 오답의 비율

2. 추론통계
배달 앱에서 30분 뒤에 도착한다고 하면 점추정, 20~50분 사이에 온다고 하면 구간추정
점추정
점추정
모집단이 특정한 값으로 추정하며, 추정량으로 모수를 측정
- 불표일충: 불편성(오차가 없어야 함. 편향이 0), 효율성(분산이 작아야함), 일치성(표본의 크기가 증가할수록), 충족성(추정량이 모집단의 정보를 최대한 반영)
- 대표적인 추정량
- n-1로 나누는 이유; 자유도
- 분산이 퍼져 있는 정도. 표본을 뽑아가면 잘 뽑아도 이 길이만큼 뽑지는 못함 (일부분만 뽑기 때문에) 그렇기 때문에 분산이 줄어들 수밖에 없으므로 n-1로 나눔.

구간추정
구간추정
특정 구간에 들어오는 지를 의미함.
- 중심극한정리에 의해서 표본을 뽑아서 표본의 평균의 분포를 그리면 정규분포. 평균이 와야 하는데 (표준정규분포) ; 각국정상들이 한 자리에 모여서 회의를 할 때 달러를 가지고 얘기를 하는데 우리나라 혼자 원단위로 얘기를 하면 얘기가 안됨. 우리나라도 그 자리에서는 달러를 얘기하고 한국에 돌아와서 원으로 얘기함; 많은 분포에서 N(0,1)에 관심이 있고 이것을 우리가 가진 분포에 잘 적용하면 됨 (추정하고자 하는 값이 정규분포에 잘 들어있으면 됨)
- 양측이니까 1/2로 나눔. 표준정규분포의 값으로서 1.96으로 이미 구해져있음. 신뢰구간안에 들어가 있는가? (모집단) - 신뢰구간 구하는 공식 외우기!!
- 모집단에서 표본집단을 추출한 다음에 표본집단으로 모집단을 예측하는 것인데 모집단의 분산을 모를 수 있음. (시그마값) ; 자유도가 n-1인 t분포를 이용해서 신뢰구간을 추정 ; 표본의 표준편차를 사용을 하면 됨.
- 비율도 마찬가지

가설검정
가설검정
모집단의 특성에 대한 주장을 가설로 세우고 표본조사로 가설의 채택여부를 판정
- 1인분에 200g이 아닌 것 같아서 아니라고 주장을 함. 귀무가설은 일반적으로 생각하는 가설임. (1인분에 200g이에요) 이를 기각하는 가설이 대립가설. (1인분에 200g이 아니에요) 모든 주문하는 사람마다 저울을 잴 수 없으니 표본을 뽑아서 조사를 함. 7%정도는 내가 틀릴 수 있을 것 같다. 검정통계량 (계산된 확률, 일반적으로 0.05는 봐줌) 그러면 7%는 넘으므로 틀렸다고 주장함. 유의수준이 5%인 것이다. 다시 조사를 했더니 틀릴 확률이 3%였다. 그러면 너의 말이 맞으므로 1인분이 200g이 아닌 것이므로 기각시키는 것이 기각역
- 1종오류
- 정규분포안에 들어오면 채택역 (귀무가설을 채택하는 것) , 만약에 안들어오면 기각역 (0.025) - 작다와 크다를 검정하면 양측검정, 1인분이 200g보다 작거나 큰 둘 중 하나만 검정하는 것이면 단측검정
가설 검정 문제 풀이 방법
- 귀무가설/ 대립가설 설정
- 양측 혹은 단측검정 확인 (같지 않다면 양측검정, 값이 크다 혹은 작다면 단측 검정)
- 일표본 혹은 이표본 (하나의 모집단이면 일표본, 두개면 이표본)
- 검정통계량이 기각역에 존재하면 귀무가설 기각
- t검정인 경우, 단일표본(모집단에 대한 평균 검정), 대응표본(동일 모집단에 대한 평균비교 검정), 독립표본 (서로 다른 모집단에 대한 평균비교 검정)

'자격증 공부 > 빅데이터분석기사' 카테고리의 다른 글
[빅분기] 과목3: 빅데이터 모델링 (0) | 2025.04.01 |
---|---|
[빅분기] 과목1: 빅데이터 분석 기획 (6) | 2025.03.31 |
[빅분기] Part1.1.2 빅데이터와 인공지능 (8) | 2025.03.29 |
[빅분기] 필기 준비 시작! (2) | 2025.03.29 |