본문 바로가기
자격증 공부/빅데이터분석기사

[빅분기] 과목2: 빅데이터 탐색

by Mandy's 2025. 3. 31.

 

빅데이터 분석기사 필기 완벽 요약강의

- 2과목 (빅데이터 탐색) 주요 내용

데이터 전처리, 데이터 탐색, 통계기법 이해

데이터가 어떻게 생겨먹었는가! 탐색, 통계, 전처리
2과목에서는 통계가 있어서 수학을 포기한 사람들을 상당히 어려울 수 있음
기초 통계 ; 대학교 한학기 수업 -> 추가적인 학습이 필요할 수 있음. or 외워서라도 해
2~4과목은 연관된 부분이 많아서, 1과목은 보고 기출문제 풀어도 되지만 2~4는 한 번에 공부를 하고 기출문제를 푸는게 좋음. 
데이터 전처리

1. 데이터 정제

데이터 정제

데이터의 종류
  • 단변량, 다변량, 시계열 데이터

집값 <- 수도권 거리 (하나면 단변량), 고속도로, 지하철, 버스, 평수 (2개 이상 다변량)

시계열은 시간 순서

종단면적 (여러 시점) <-> 횡단변적 (한 시점) / 패널 데이터 (종+횡)

데이터 정제
  • 잡음이 있는 것을 평활화 -> 부드럽게 변함. (이동평균법, 지수평활법) -> 시계열분석

 

데이터 결측값 처리

결측치 종류
  • 존재하지 않는 데이터 null/NA
  • 무작위 결측; 관련되어 발생 but 결과와는 관계 X
  • 비무작위결측; 소득이 낮은 응답자들의 응답룰이 낮음 ; 상관이 있는 경우
결측값 처리
  • 완전분석법: 데이터 삭제
  • 단순 확률 대치법: 확률적 - nearest neighbit, hot-deck (비슷한 성향), Cold-deck(유사한 외부 출처에서 비슷한 성향)
  • 다중 대치법: 여러 번 대치 (대치->분석->결합)

 

데이터 이상값 처리

이상값 처리
  • 극단적으로 크거나 작은 값, 의미 있는 데이터 일수도 있으므로 이상값을 항상 제거하는 것은 아님. 
  • ESD (Extreme Studentized Deviation)
    • 평균으로부터 표준편차의 3배가 넘어가는 데이터는 이상값 (정규분포)
  • 사분위수
    • Q1 - 1.5IQR보다 작어나, Q3 + 1.5IQR보다 크면 이상값, (25%, 50%, 75%) - Boxplot
    • B 데이터가 A보다 넓게 분포되어 있으면 분산이 더 큼
    • Q2; 중앙값 B가 A보다 높이 있으므로 더 큼
    • A에 MAX를 벗어나는 데이터가 존재하면 이상치가 존재한다고 판단
    • A와 B의 평균은 알 수 없음
  • Z-Score
  • DBScan

 

2. 분석 변수 처리

변수 선택

변수 선택 방법

집값 <- 수도권 거리, 고속도로, 버스, 지하철, 평수 ; 5개의 변수를 다 활용하지 않고 하나씩 추가해보면서 (전진선택법), 5개 다 넣어놓고 하나씩 제거하는 것 (후진제거법), 같이 하는 것 (단계별 선택법)

  • 상관계수 매트릭스 분석
    • 자기 자신은 1 (양의 상관관계)
    • 상관계수가 높다는 것은 둘 중 하나의 변수는 제거해도 됨. - 고속도로나 버스나 상관관계가 높으면 둘 중 하나는 제거함

 

차원축소

차원이란? 집값 <- 수도권으로부터의 거리, 고속도로 접근성, 지하철, 버스, 평수 ; 이 특성들, 변수의 개수를 차원이라고 부름. 

차원의 저주
  • 1차원의 데이터를 2차원으로 늘리면 데이터가 분포가 됨. 3차원으로 옮기면 이 안에 분포를 하는데 3차원에서는 빈공간이 늘어남. 채워야할 데이터의 개수가 늘어남. 
  • 차원이 높아질수록 알고리즘의 성능이 저하가 됨
  • 특성이 많을 수록 데이터를 많이 수집해야 함. 
  • 많은 개수를 지금은 5차원이지만 3차원을 만들든, 2차원을 만들든 극단적으로 1차원을 만들어야 함. (차원 축소)
차원 축소의 효과
  • 차원의 저주 해소, 데이터 시각화, 노이즈 제거, 데이터 압축, 성능 향상, 특징 추출, 계산 비용 절감
차원 축소 기법 (다 시험이 출제됨**)
  1. 선형차원축소기법
    • 주성분 분석 (PCA); 분산이 최대화되는 방향  (4과목)
    • LDA(분산을 최대화), ICA(독립적인 성분), SVD(비정방행렬), 요인분석 (잠재 요인으로 축소)
  2. 비선형 차원 축소 기법
    • MDS (Multi-Dimensional Scaling, 거리정보의 근접성 보존), t-SNE (데이터간 거리 정보를 확률적으로 유지), UMAP, AutoEncoder(신경망을 활용한 차원 축소 기법으로 데이터를 압축 후 다시 복원하는 학습)

 

파생변수 생성

요약변수와 파생 변수
  • 요약변수 (종합, 요약, 재활용성 높음), 파생변수 (의미부여, 논리적 타당성)
  • 파생변수 생성방법: 특징 추출, 결합, 부가적 정보 결합, 수학적 변환, 교호작용
    • 교호작용; 고혈압 <- 유전적, 비만 (유전적이 2배정도 비만이 4배정도, 유전적*비만은 20배의 영향을 미친다면? 2개의 변수보다 새로운 파생 변수를 도입해서 3개의 변수로 예측하는 것이 더욱 타당함) 
      • 두 개 이상의 독립변수가 상호작용. 종속변수에 영향을 미치는 경우

 

변수 변환

수치형 자료와 범주형 자료
  • 수치형 자료 (키, 몸무게 -> 회귀분석), 범주형 자료 (혈액형, 성별 -> 분류 분석)
수치형 변수 변환
  • Z-Score 정규화: 평균 0, 표준편차 1 - N(0,1)
    • 키 160-190, 몸무게 50-80이므로 같은 수치로 만들자 
  • 최소-최대 정규화: 0에서 1사이로 변환
  • 로그 변환: 데이터가 한쪽으로 치우쳐져 있을 시 -> 정규분포(로그) 
  • 지수변환, 제곱근 변환, box-cox변환 (양수 데이터의 비대칭 분포)
범주형 변수 변환
  • 레이블 인코딩; 데이터를 정수로 (오렌지;0, 바나나;1, 포도;2)
    • 포도가 오렌지보다 크다고 인식할 수 있다는 문제가 있음
  • 원-핫 인코딩; 레이블 인코딩의 문제를 해결, 해당하는 컬럼만 1로 표시하고 나머지는 영으로 표시
    • 오렌지; [1, 0, 0] 바나; [0, 1, 0] -> 용량을 많이 차지하는 문제점
  • 타깃 인코딩; 평균값으로 변환
날짜/시간 변수 변환 - 분할, 파생

 

불균형 데이터 처리

불균형 데이터의 처리 방법

강아지 300장, 고양이 50장 수집 - 불균형 데이터; 가중치에 균형을 적용 (가중치 균형 적용), 다수 데이터의 일부를 줄임 (언더샘플링), 소수 데이터를 복사하거나 유사한 데이터를 만듦(오버샘플링)

 

데이터 탐색

1. 데이터 탐색 기초

데이터 탐색 개요

EDA (탐색적 자료 분석) ; 통계, 시각화

  4가지 주제: 저잔재현 (항성의 강조, 차계산, 자료변수의 표현, 그래프를 통한 시성)

 

상관관계 분석

상관분석

상관관계 매트릭스 ; 어느정도의 관계가 있는지를 나타내는 것

  • 단순상관분석 - 2개의 변수, 다중상관분석 - 3개 이상, 편상관관계분석: 제 3의 젼수를 통제한 상태에서 두 변수의 상관관계
상관분석 방법
  • 피어슨 상관분석; 선형관계 크기 측정
  • 스피어만 상관분석: 서열, 척도, 순서형 변수, 선형/비선형적 관계
    • 순서를 매길 수 있으면 다 사용가능함

 

기초통계량 추출 및 이해

기초 통계량
  • 중심경향성: 산술평균, 기하평균, 조화평균, 중앙값, 최빈값
  • 분산 정도 측면 (얼마나 퍼져있는지): 범위, 분산, 표준편차, 사분위수 (IQR), 변동계수 (CV)
  • 관계 측면 (공분산: 두 확률 변수의 상관정도; 0 상관없음, 양, 음의 상관관계, 무한대까지 갈 수 있음) ; 최대 최소값이 없어서 강약 판단 불가 -> 상관계수
  • 상관계수: -1~1값으로 표현 ; 1정비례 0 상관없음 -1 반비례
    • 전후양상 (1과목); '상' 상관관계
  • 공분산과 독립성의 관계; 두 변수가 독립이면 공분산은 0이지만 공분산이 0이라고 해서 두 변수가 독립이라고 할 수는 없음
    • 2차 함수의 관계로 명확하다면 공분산이 0이 아님. 
기댓값과 분산의 특성

서로 독립인 X, Y가 각각 정규분포 N(20, 2^2), N(27, 1^2)를 따른다고 할 때 확률변수일 경우의 Z = 5X - 7Y + 15의 기댓값과 분산을 계산

1) Z의 기대값 ; 그냥 대입하면 됨

2) Z의 분산; 상수는 0으로 취급 V(5X-7Y) = 25 * 2^2 + 49 * 1^2 = 149 제곱이 튀어나온다.

첨도와 왜도
  • 첨도; 자료의 분포가 얼마나 뾰족한 지 나타내는 척도 ; 첨도 = 3 정규 분포 -> 값이 클수록 뾰족한 모양
  • 왜도; 자료 분포의 비대칭 정도 (0일때 대칭)
왜도 < 0: 최빈값 > 중앙값 > 평균값
왜도 >0: 최빈값 (가장 높은 부분) < 중앙값 < 평균값
-> 평균값은 꼬리를 따라감
Summary 함수 결과의 해석
  • Mean, Median -> 수치형 변수; 범주형 변수는 이런게 없음
    • 평균이 중앙값보다 크면 왜도 >0
    • 결측치(NA's)의 개수
  • 집단의 빈도 수 -> 변수형 변수
    • 범주 0과 1이 클래스 불균형이면 오버샘플링이나 다운샘플링을 해야 함

 

2. 고급 데이터 탐색

시공간 데이터 탐색

시공간 데이터
  • 일기예보에서 태풍이 움직이는 경로. 활용: 패지격 (턴,도, 자 차트)

다변량 데이터 탐색

다변량 데이터 탐색
  • 목표: 변수 간 관계, 패턴 분석, 이상치 탐지, 데이터 요약
  • 방법: 상관관계분석, PCA, 다차원척도법, 다중선형회귀, 군집 분석 등

비정형 데이터 탐색

자연어 전처리
  • 언어를 가공을 시켜야 함. 크게 5가지
  • 토큰화 (I/like/apple), 불용어(Family is an important thing), 정규화 (Apple = apple), 어간추출 (Working, Works, Worked -> work) 표제어 추출 (am, are, is -> be)

 

통계기법 이해

1. 기술추출

표본추출

전수조사와 표본조사
  • 모집단 -> 표본 ; 이 과정을 표본 추출 
  • 표본집단을 가설검정 과정을 거쳐서 모집단을 예측함
  • 전수조사는 전체를 다 조사 (시간과 비용이 너무 많이 소모), 표본조사는 일부만 추출하여 모집단을 분석 (출구조사)
  • 가설검정은 표본집단의 분포가 타당한지를 검사
확률적 표본 추출 방법
  • 랜덤 추출, 계통 추출 (번호를 부여하여 일정 가격으로 추출; 1 3 5 7 ..)
  • 집락 추출법 <-> 층화 추출법
    • A, B, C 아파트를 돌아다니면서 조사하기 힘드니까 특정 아파트만 조사해서 검사 ; 여러 군집으로 나눈다음에 이 안에서 랜덤하게 ; 집락 추출법 (군집 추출법) -> A, B, C 군집 간에는 동질적 특징, 군집 내에는 이질적 특징
    • 층화추출법 ; 1학년 (100명) 2학년 (100명) 3학년 (100명) - 실수로 1학년에서만 60명을 뽑았다면 학교를 대변할 수 없음. 즉 층을 나눠서 추출해야 함. 학년별로 각각 추출. 학년 끼리는 동질적이지만 (군집 내 동질적 특징) 그러나 학년 별로는 이질적임 (군집 간 이질적 특징) 비율로 뽑는게 가장 좋음 (비례 층화 추출법)
  • 복원 (넣었던 거 다시 포함해서) / 비복원은 제외하고 추출
비확률적 표본 추출 방법

편의 추출법, 의도적 추출법, 할당 추출법, 눈덩이 추출법, 자기선택 추출법

 

확률분포

기초 확률 용어
  • 확률, 사건, 표본 공간, 확률변수 - 이미 알고 있다고 가정
  • 조건부 확률: 특정 사건 B가 발생했을 때 A가 발생할 확률
  • 독립사건: A, B가 서로 영향을 주지 않음 P(A|B) = P(A)
  • 배반사건: A, B가 서로 동시에 일어나지 않음. 교집합이 공집합
  • 베이즈 정리: 두 확률 변수의 사전 확률과 사후 확률 사이의 관계 (3과목)
확률 분포

확률 변수의 개별 값들이 가지는 확률 값의 분포

  • 이산 확률분포 (값을 셀 수 있는, 확률질량함수), 연속 확률분포 (값을 셀 수 없는, 확률밀도함수)
  • 이산 확률분포: 베포항항하 (르노이분포, 이분포, 기분포, 음이분포, 초기분포, 다분포, 아송분포)
  • 연속 확률분포: 정규분포, t분포 (표본이 너무 작으면 - 표본이 30개보다 작은 집단), 카이제곱분포, F분포 
확률분포의 기댓값

확률변수 X의 f(x)의 확률분포의 대한 기대값 E(X)

  • 이산적 확률변수 (덧셈), 연속적 확률변수 (적분 - 면적)

 

표본분포

중심극한정리***

모집단으로 부터 표본을 예측하는데, 표본집단을 여러번 추출해서 평균을 매긴 집단을 분석함. (표본크기가 충분히 큼. 30개 이상) -> 정규분포 ; 모집단의 분포와 상관없이 표본분포가 정규분포를 이룸

-> 정규분포의 특징만 제대로 알면 세상의 많은 모집단의 특징을 알 수 있다는 뜻. (가설검정, 예측)

표본평균의 표본분포

강의 자료에서 발췌

표본비율의 표본분포

정답과 오답의 비율

강의 자료에서 발췌

 

2. 추론통계

배달 앱에서 30분 뒤에 도착한다고 하면 점추정, 20~50분 사이에 온다고 하면 구간추정

점추정

점추정

모집단이 특정한 값으로 추정하며, 추정량으로 모수를 측정

  • 불표일충: 불편성(오차가 없어야 함. 편향이 0), 효율성(분산이 작아야함), 일치성(표본의 크기가 증가할수록), 충족성(추정량이 모집단의 정보를 최대한 반영)
  • 대표적인 추정량
    • n-1로 나누는 이유; 자유도
    • 분산이 퍼져 있는 정도. 표본을 뽑아가면 잘 뽑아도 이 길이만큼 뽑지는 못함 (일부분만 뽑기 때문에) 그렇기 때문에 분산이 줄어들 수밖에 없으므로 n-1로 나눔. 

강의자료에서 발췌한 내용

 

구간추정

구간추정

특정 구간에 들어오는 지를 의미함. 

  • 중심극한정리에 의해서 표본을 뽑아서 표본의 평균의 분포를 그리면 정규분포. 평균이 와야 하는데 (표준정규분포) ; 각국정상들이 한 자리에 모여서 회의를 할 때 달러를 가지고 얘기를 하는데 우리나라 혼자 원단위로 얘기를 하면 얘기가 안됨. 우리나라도 그 자리에서는 달러를 얘기하고 한국에 돌아와서 원으로 얘기함; 많은 분포에서 N(0,1)에 관심이 있고 이것을 우리가 가진 분포에 잘 적용하면 됨 (추정하고자 하는 값이 정규분포에 잘 들어있으면 됨)
    • 양측이니까 1/2로 나눔. 표준정규분포의 값으로서 1.96으로 이미 구해져있음. 신뢰구간안에 들어가 있는가? (모집단) - 신뢰구간 구하는 공식 외우기!!
    • 모집단에서 표본집단을 추출한 다음에 표본집단으로 모집단을 예측하는 것인데 모집단의 분산을 모를 수 있음. (시그마값) ; 자유도가 n-1인 t분포를 이용해서 신뢰구간을 추정 ; 표본의 표준편차를 사용을 하면 됨. 
    • 비율도 마찬가지

강의 자료에서 발췌한 내용

 

가설검정

가설검정

모집단의 특성에 대한 주장을 가설로 세우고 표본조사로 가설의 채택여부를 판정

  • 1인분에 200g이 아닌 것 같아서 아니라고 주장을 함. 귀무가설은 일반적으로 생각하는 가설임. (1인분에 200g이에요) 이를 기각하는 가설이 대립가설. (1인분에 200g이 아니에요) 모든 주문하는 사람마다 저울을 잴 수 없으니 표본을 뽑아서 조사를 함. 7%정도는 내가 틀릴 수 있을 것 같다. 검정통계량 (계산된 확률, 일반적으로 0.05는 봐줌) 그러면 7%는 넘으므로 틀렸다고 주장함. 유의수준이 5%인 것이다. 다시 조사를 했더니 틀릴 확률이 3%였다. 그러면 너의 말이 맞으므로 1인분이 200g이 아닌 것이므로 기각시키는 것이 기각역
  • 1종오류 
  • 정규분포안에 들어오면 채택역 (귀무가설을 채택하는 것) , 만약에 안들어오면 기각역 (0.025) - 작다와 크다를 검정하면 양측검정, 1인분이 200g보다 작거나 큰 둘 중 하나만 검정하는 것이면 단측검정
가설 검정 문제 풀이 방법
  • 귀무가설/ 대립가설 설정
  • 양측 혹은 단측검정 확인 (같지 않다면 양측검정, 값이 크다 혹은 작다면 단측 검정)
  • 일표본 혹은 이표본 (하나의 모집단이면 일표본, 두개면 이표본)
  • 검정통계량이 기각역에 존재하면 귀무가설 기각
  • t검정인 경우, 단일표본(모집단에 대한 평균 검정), 대응표본(동일 모집단에 대한 평균비교 검정), 독립표본 (서로 다른 모집단에 대한 평균비교 검정)

강의 자료에서 발췌한 내용