Part1. 빅데이터 분석 기획
Chap1. 빅데이터의 이해
Section02 빅데이터 기술 및 제도
인공지능과 머신러닝 문제가 많이 출제된다고 해서.. 순서는 제맘대로 입니다.. ^)^
1) 인공지능
1. 인공지능의 정의
- 기계를 지능화; 객체가 환경에서 적절히, 예지력을 갖고 작동
- 합리적 행동 수행자; 최적의 결과를 낳을 수 있도록 하는 의사결정 능력을 갖춘 에이전트
- 설정한 목표를 극대화하는 행동을 제시하는 의사결정 로직
- 사람과 흡사한 생각, 행동 but 인공지능 구현방법이 구체화 될수록 인간 << 합리성
2. 인공지능과 기계학습 및 딥러닝의 관계
- 기계학습 + 딥러닝
- 인공지능: 사람이 생각하고 판단하는 사고 구조를 구축
- 기계학습; 인공지능의 연구 분야 중 하나, 인간의 학습능력과 같은 기능을 축적된 데이터를 활용, 실현하고자 하는 기술 및 방법
- 딥러닝; 기계학습 방법 중 하나, 컴퓨터가 많은 데이터를 이용해 사람처럼 스스로 학습, 인공신경망
3. 딥러닝의 특징
- 제프리 힌튼. 함수추정 방법. 신경망 관점에서 정보를 압축, 가공, 재현하는 알고리즘으로 일반화 - 인공지능의 핵심 동인
- 깊은 구조에 의해 엄청난 양의 데이터를 학습
- 우수한 인공지능 개발과 깊은 관련성
4. 기계학습의 종류
비지도학습 = 자율학습
지도학습 (Supervised Learning) | 하나의 함수 유추 - 학습데이터; 벡터 형태, 원하는 결과가 무엇인지 표시 - 회귀분석; 유추된 함수 중 연속적인 값 - 분류; 주어진 입력 벡터가 어떤 종류의 값인지 표시 지도 학습기; 훈련 데이터로부터 주어진 데이터에 대해 예측하고자 하는 값을 올바로 추측 - 나타나지 않던 상황까지도 일반화. 처리. |
비지도학습 (Unsupervised Learning) | 데이터가 어떻게 구성되었는지 지도학습, 강화학습과는 달리 입력값에 대한 목표치x 통계의 밀도 추정, 데이터의 주요 특징을 요약하고 설명 군집화, 독립성분분석 방법 |
준지도학습 (Semi-supervised Learning) | 목표값이 표시된 데이터(지도학습) 와 표시되지 않은 데이터(비지도학습)를 모두 학습 - 목표값이 표시된 데이터 < 표시 x 데이터 (대개) - 지도학습과 비지도학습 사이 어딘가 학습 정확도 상당히 좋아짐 두 개 이상의 학습기 각각이 예제를 통해 훈련되는 상호 훈련 방법 등 |
강화학습 (Reinforcement Learning) | 행동심리학, 선택 가능한 행동들 중 보상을 최대화하는 행동 or 순서를 선택 - 운용과학, 제어이론; 근사 동적 계획법 - 경제학, 게임이론; 어떻게 제한된 합리성 하에서 평형이 일어나는지를 설명 학습 과정에서의 성능; 탐색과 이용의 균형 - 다중슬롯머신문제, 유한한 마르코프 결정 과정 |
5. 기계학습 방법에 따른 인공지능 응용분야
학습종류 | 방법 | 응용영역 |
지도학습 | 분류모형 | 이미지, 음성 인식 신용평가 및 사기검출 불량예측 및 원인발굴 |
회귀모형 | 시세/가격/주가 예측, 강우량 예측 | |
비지도학습 | 군집분석 | 텍스트 토픽 분석, 고객 세그멘테이션 |
오토인코더 | 이상징후 탐지, 노이즈 제거, 텍스트 벡터화 | |
생성적 적대 신경망 | 시뮬레이션 데이터 생성, 누락 데이터 생성, 패션 데이터 생성 등 | |
강화학습 | 강화학습 | 게임 플레이어 생성, 로봇 학습 알고리즘, 공급망 최적화 |
2) 인공지능 데이터 학습의 진화
1. 전이학습
기존의 학습된 모델의 지식을 새로운 문제에 적용, 학습을 빠르고 효율적으로 수행하는 머신러닝 기법
- 특성, 가중치, 표현 등을 새로운 모델에 전달, 새로운 작업에 적용
- 비슷한 분야에서 학습된 딥러닝 모형을 다른 문제에 해결하기 위해 사용
- 적은 양의 텍스트로 좋은 결과
- 이미지, 언어, 텍스트 인식 (지도학습 : 분류모형 - 인식)
-> 인식; 데이터 표준화 - 사전학습모형 입력형식에 맞출 수 있음
2. 전이학습 기반 사전학습모형
학습 데이터에 의한 인지능력을 갖춘 딥러닝 모형에 추가적인 데이터를 학습
- 데이터 학습량에 따라 발전 + 응용력
- 상대적으로 적은 양의 데이터로도 제한된 문제에 인공지능 적용 가능
-> 이미 학습된 사전학습모형도 데이터를 함축한 초보적 인공지능 ; 충분한 가치를 지닌 새로운 의미의 데이터
3. BERT (Bidirectional Encoder Representations from Transformers)
2018. 구글. 언어인식 사전학습모형 ; 확보된 언어 데이터의 추가 학습을 통한 신속한 학습 가능
- 다층의 임베딩 구조; 1억 2천개가 넘는 파라미터
- 256개까지의 문자 입력, 768차원 숫자 벡터 생성
- 언어 인식뿐 아니라 챗봇의 Q&A 엔진으로 활용 가능
3) 빅데이터와 인공지능의 관계
1. 인공지능을 위한 학습 데이터 확보
- 학습 데이터 측면을 고려한 양질의 데이터 확보 -> 성공적인 인공지능 구현
- 딥러닝; 깊은 구조를 통해 무한한 모수 추정이 필요 -> 많은 양의 데이터가 필요
- 인공지능 학습 활용 데이터 가공 필요, 에노테이션 작업 (학습의 가이드를 제공)
2. 학습 데이터의 애노테이션 작업
많은 데이터를 확보후 -> 애노테이션 -> 학습이 가능한 데이터로 가공
- 많은 수작업이 동반, 인공지능 사업은 노동집약적이라는 인식 ;;
3. 애노테이션 작업을 위한 도구로써의 인공지능
- 인공지능 시장 확장 ; 애노테이션 작업을 전문으로 하는 기업의 수가 증가
- 경쟁으로 인해 학습용 데이터에 대한 보안 및 애노테이션 결과에 대한 품질 요구수준 높아짐
- 기업들은 데이터 업로드 및 애노테이션 도구, 작업 모니터링을 위한 플랫폼 제공
- 자동으로 애노테이션을 수행해주는 인공지능 기반의 애노테이션 도구 제공하는 서비스로 진화중 ..
4) 인공지능의 기술동향
1. 기계학습 프레임워크
- 구글브레인, 텐서플로우; 파이썬 기반 딥러닝 라이브러리 - CPU 및 GPU와 플랫폼에서 사용가능
- 케라스; 딥러닝 신경망 구축을 위한 단순화된 인터페이스를 가진 라이브러리, 몇 줄의 코드만으로 딥러닝 모형 개발 가능
2. 생성적 적대 신경망 (GAN: Generative Adversarial Networks)
- GAN; 두 개의 인공신경망 - 딥러닝 이미지 생성 알고리즘
- 생성자가 가짜 사례를 생성하면 감별자가 진위를 판별하도록 구성, 적대적 관계 속에서 공방전을 반복
- 가짜 사례의 정밀도를 점점 더 진짜 사례와 구별하기 어려운 수준으로 높이는 방식으로 작동
- 새로운 합성 이미지를 생성하는 분석에 많이 적용 ; 다른 분야에 응용되는 사례가 늘어나고 있음.
3. 오토인코더
라벨이 설정되어 있지 않은 학습 데이터로부터 더욱 효율적인 코드로 표현하도록 학습하는 신경망
- 입력 데이터의 차원을 줄여 모형을 단순화시키기 위해 활용
4. 설명 가능한 인공지능 (XAI: eXplainable AI)
결론 도출 과정에 대한 근거를 차트나 수치 또는 자연어 형태의 설명으로 제공
- 기존의 기계학습은 정확한 예측을 할 수 있도록 하는 방향으로 개발
- 기존 기계학습 ; 내부 구조가 매우 복잡하고 의미 이해 x -> 일종의 블랙박스 모형이라고 불림
5. 기계학습 자동화(AutoML)
기계학습 전체 과정을 자동화
- 데이터 전처리, 변수 생성, 변수 선택, 알고리즘 선택, 하이퍼파라미터 최적화 등의 기능 수행
- 기계학습 모형 개발 과정의 생산성 높임, 비전문가들의 활용 용이
파라미터(매개변수); 어떤 시스템이나 합수의 특정한 성질을 나타내는 변수, 모델링에 의해 자동으로 결정
하이퍼파라미터; 모델링할 때 사용자가 직접 세팅해주는 값
5) 인공지능의 한계점과 발전방향
1. 국내시장의 한계
- 머신러닝 및 인공지능과 관련한 수학, 통계학적 이해도는 낮은 수준
- 데이터 확보 및 그 중요성에 대한 인식 부족
2. 인공지능의 미래
- 딥러닝의 재학습 및 전이학습 특성을 활용한 사전학습모형이 새로운 데이터 경제의 모습
- 마스킹이나 라벨링 등의 애노테이션 작업을 통해 학습용 데이터를 가공하는 산업이 확산
- 복잡한 BERT의 학습을 위한 구글의 클라우드 서비스와 같은 확장된 개념의 데이터 경제로 파생
'자격증 공부 > 빅데이터분석기사' 카테고리의 다른 글
[빅분기] 과목3: 빅데이터 모델링 (0) | 2025.04.01 |
---|---|
[빅분기] 과목2: 빅데이터 탐색 (2) | 2025.03.31 |
[빅분기] 과목1: 빅데이터 분석 기획 (6) | 2025.03.31 |
[빅분기] 필기 준비 시작! (2) | 2025.03.29 |