본문 바로가기
자격증 공부/빅데이터분석기사

[빅분기] Part1.1.2 빅데이터와 인공지능

by Mandy's 2025. 3. 29.
Part1. 빅데이터 분석 기획
Chap1. 빅데이터의 이해
Section02 빅데이터 기술 및 제도
인공지능과 머신러닝 문제가 많이 출제된다고 해서.. 순서는 제맘대로 입니다.. ^)^

1) 인공지능

1. 인공지능의 정의

- 기계를 지능화; 객체가 환경에서 적절히, 예지력을 갖고 작동

- 합리적 행동 수행자; 최적의 결과를 낳을 수 있도록 하는 의사결정 능력을 갖춘 에이전트

- 설정한 목표를 극대화하는 행동을 제시하는 의사결정 로직

- 사람과 흡사한 생각, 행동 but 인공지능 구현방법이 구체화 될수록 인간 << 합리성

 

2. 인공지능과 기계학습 및 딥러닝의 관계

  • 기계학습 + 딥러닝 

- 인공지능: 사람이 생각하고 판단하는 사고 구조를 구축 

- 기계학습; 인공지능의 연구 분야 중 하나, 인간의 학습능력과 같은 기능을 축적된 데이터를 활용, 실현하고자 하는 기술 및 방법

- 딥러닝; 기계학습 방법 중 하나, 컴퓨터가 많은 데이터를 이용해 사람처럼 스스로 학습, 인공신경망

 

3. 딥러닝의 특징

  • 제프리 힌튼. 함수추정 방법. 신경망 관점에서 정보를 압축, 가공, 재현하는 알고리즘으로 일반화 - 인공지능의 핵심 동인
  • 깊은 구조에 의해 엄청난 양의 데이터를 학습

- 우수한 인공지능 개발과 깊은 관련성

 

4. 기계학습의 종류

비지도학습 = 자율학습
지도학습 (Supervised Learning) 하나의 함수 유추
- 학습데이터; 벡터 형태, 원하는 결과가 무엇인지 표시
- 회귀분석; 유추된 함수 중 연속적인 값
- 분류; 주어진 입력 벡터가 어떤 종류의 값인지 표시
지도 학습기; 훈련 데이터로부터 주어진 데이터에 대해 예측하고자 하는 값을 올바로 추측
- 나타나지 않던 상황까지도 일반화. 처리.
비지도학습 (Unsupervised Learning) 데이터가 어떻게 구성되었는지
지도학습, 강화학습과는 달리 입력값에 대한 목표치x
통계의 밀도 추정, 데이터의 주요 특징을 요약하고 설명
군집화, 독립성분분석 방법
준지도학습 (Semi-supervised Learning) 목표값이 표시된 데이터(지도학습)표시되지 않은 데이터(비지도학습)를 모두 학습
- 목표값이 표시된 데이터 < 표시 x 데이터 (대개)
- 지도학습과 비지도학습 사이 어딘가
학습 정확도 상당히 좋아짐
두 개 이상의 학습기 각각이 예제를 통해 훈련되는 상호 훈련 방법 등
강화학습 (Reinforcement Learning) 행동심리학, 선택 가능한 행동들 중 보상을 최대화하는 행동 or 순서를 선택
- 운용과학, 제어이론; 근사 동적 계획법
- 경제학, 게임이론; 어떻게 제한된 합리성 하에서 평형이 일어나는지를 설명
학습 과정에서의 성능; 탐색과 이용의 균형
- 다중슬롯머신문제, 유한한 마르코프 결정 과정

 

5. 기계학습 방법에 따른 인공지능 응용분야

학습종류 방법 응용영역
지도학습 분류모형 이미지, 음성 인식
신용평가 및 사기검출
불량예측 및 원인발굴
회귀모형 시세/가격/주가 예측, 강우량 예측
비지도학습 군집분석 텍스트 토픽 분석, 고객 세그멘테이션
오토인코더 이상징후 탐지, 노이즈 제거, 텍스트 벡터화
생성적 적대 신경망 시뮬레이션 데이터 생성, 누락 데이터 생성, 패션 데이터 생성 등
강화학습 강화학습 게임 플레이어 생성, 로봇 학습 알고리즘, 공급망 최적화 

 

2) 인공지능 데이터 학습의 진화

1. 전이학습

기존의 학습된 모델의 지식을 새로운 문제에 적용, 학습을 빠르고 효율적으로 수행하는 머신러닝 기법

- 특성, 가중치, 표현 등을 새로운 모델에 전달, 새로운 작업에 적용

- 비슷한 분야에서 학습된 딥러닝 모형을 다른 문제에 해결하기 위해 사용

- 적은 양의 텍스트로 좋은 결과

- 이미지, 언어, 텍스트 인식 (지도학습 : 분류모형 - 인식)

-> 인식; 데이터 표준화 - 사전학습모형 입력형식에 맞출 수 있음

 

2. 전이학습 기반 사전학습모형

학습 데이터에 의한 인지능력을 갖춘 딥러닝 모형에 추가적인 데이터를 학습

- 데이터 학습량에 따라 발전 + 응용력

- 상대적으로 적은 양의 데이터로도 제한된 문제에 인공지능 적용 가능

-> 이미 학습된 사전학습모형도 데이터를 함축한 초보적 인공지능 ;  충분한 가치를 지닌 새로운 의미의 데이터

 

3. BERT (Bidirectional Encoder Representations from Transformers)

2018. 구글. 언어인식 사전학습모형 ; 확보된 언어 데이터의 추가 학습을 통한 신속한 학습 가능

- 다층의 임베딩 구조; 1억 2천개가 넘는 파라미터

- 256개까지의 문자 입력, 768차원 숫자 벡터 생성

- 언어 인식뿐 아니라 챗봇의 Q&A 엔진으로 활용 가능

 

3) 빅데이터와 인공지능의 관계

1. 인공지능을 위한 학습 데이터 확보

  • 학습 데이터 측면을 고려한 양질의 데이터 확보 -> 성공적인 인공지능 구현
  • 딥러닝; 깊은 구조를 통해 무한한 모수 추정이 필요 -> 많은 양의 데이터가 필요
  • 인공지능 학습 활용 데이터 가공 필요, 에노테이션 작업 (학습의 가이드를 제공)

2. 학습 데이터의 애노테이션 작업

많은 데이터를 확보후 -> 애노테이션 -> 학습이 가능한 데이터로 가공

  • 많은 수작업이 동반, 인공지능 사업은 노동집약적이라는 인식 ;;

3. 애노테이션 작업을 위한 도구로써의 인공지능

  • 인공지능 시장 확장 ; 애노테이션 작업을 전문으로 하는 기업의 수가 증가

- 경쟁으로 인해 학습용 데이터에 대한 보안 및 애노테이션 결과에 대한 품질 요구수준 높아짐

- 기업들은 데이터 업로드 및 애노테이션 도구, 작업 모니터링을 위한 플랫폼 제공

- 자동으로 애노테이션을 수행해주는 인공지능 기반의 애노테이션 도구 제공하는 서비스로 진화중 .. 

 

4) 인공지능의 기술동향

1. 기계학습 프레임워크

  • 구글브레인, 텐서플로우; 파이썬 기반 딥러닝 라이브러리 - CPU 및 GPU와 플랫폼에서 사용가능
  • 케라스; 딥러닝 신경망 구축을 위한 단순화된 인터페이스를 가진 라이브러리, 몇 줄의 코드만으로 딥러닝 모형 개발 가능

2. 생성적 적대 신경망 (GAN: Generative Adversarial Networks)

  • GAN; 두 개의 인공신경망 - 딥러닝 이미지 생성 알고리즘
  • 생성자가 가짜 사례를 생성하면 감별자가 진위를 판별하도록 구성, 적대적 관계 속에서 공방전을 반복

- 가짜 사례의 정밀도를 점점 더 진짜 사례와 구별하기 어려운 수준으로 높이는 방식으로 작동

  • 새로운 합성 이미지를 생성하는 분석에 많이 적용 ; 다른 분야에 응용되는 사례가 늘어나고 있음. 

3. 오토인코더

라벨이 설정되어 있지 않은 학습 데이터로부터 더욱 효율적인 코드로 표현하도록 학습하는 신경망

  • 입력 데이터의 차원을 줄여 모형을 단순화시키기 위해 활용

4. 설명 가능한 인공지능 (XAI: eXplainable AI)

결론 도출 과정에 대한 근거를 차트나 수치 또는 자연어 형태의 설명으로 제공

  • 기존의 기계학습은 정확한 예측을 할 수 있도록 하는 방향으로 개발

- 기존 기계학습 ; 내부 구조가 매우 복잡하고 의미 이해 x -> 일종의 블랙박스 모형이라고 불림

5. 기계학습 자동화(AutoML)

기계학습 전체 과정을 자동화

  • 데이터 전처리, 변수 생성, 변수 선택, 알고리즘 선택, 하이퍼파라미터 최적화 등의 기능 수행
  • 기계학습 모형 개발 과정의 생산성 높임, 비전문가들의 활용 용이
파라미터(매개변수); 어떤 시스템이나 합수의 특정한 성질을 나타내는 변수, 모델링에 의해 자동으로 결정
하이퍼파라미터; 모델링할 때 사용자가 직접 세팅해주는 값

 

5) 인공지능의 한계점과 발전방향

1. 국내시장의 한계

  • 머신러닝 및 인공지능과 관련한 수학, 통계학적 이해도는 낮은 수준
  • 데이터 확보 및 그 중요성에 대한 인식 부족

2. 인공지능의 미래

  • 딥러닝의 재학습 및 전이학습 특성을 활용한 사전학습모형이 새로운 데이터 경제의 모습
  • 마스킹이나 라벨링 등의 애노테이션 작업을 통해 학습용 데이터를 가공하는 산업이 확산
  • 복잡한 BERT의 학습을 위한 구글의 클라우드 서비스와 같은 확장된 개념의 데이터 경제로 파생