728x90
머신러닝 딥러닝은 분류와 회귀 문제 해결을 위한 도구(모델)
예) 개 고양이 분류
1. 확률적 모델링 (probabilistic modeling)
- 통계학 이론을 빅데이터 분석에 응용한 것
- 초창기 머신 러닝 형태 중 하나
- 대표적인 모델 알고리즘은 나이브 베이즈 알고리즘
1.1 나이브 베이즈(Naive Bayes)
- 입력 데이터가 모두 독립이라 가정하고, 베이즈 정리(Bayes' theorem)을 적용하는 머신 러닝 분류 알고리즘
- 분류 알고리즘
1.2 로지스틱 회귀(logistic regression)
- 분류 알고리즘 (회귀 알고리즘 아님)
2. 초창기 신경망 - 1980년대
- 경사 하강법 최적화를 이용하여 변수가 연쇄적으로 연결된 연산을 훈련하는 기법
- 1989년 Yann LeCun이 합성곱 신경망과 역전파 알고리즘을 결합하여 (LeNet), 이미지 분류(손글씨 숫자)에 최초 성공
- 이 후, 미국 우편번호 자동 분류에 사용됨.
3. 커널 방법 (Kernel method) -1990년대
- 분류 알고리즘
3.1. 서포트 벡터 머신 (support vector machne, SVM)
- 1995년 Vladmir Vapnick과 Corinna Cortes 에 의해 개발됨.
- 2개의 다른 범주에 속한 데이터 그룹 사이를 확실히 구분하는 결정경계(decision boundary)를 찾는 알고리즘
- 장점:
- 간단한 분류 문제에 최고 수준의 성능을 보임.
- 수학적으로 분석하기 용이하여 이론을 이해하고 설명하기 쉬움.
- 단점:
- 대용량 데이터셋으로의 확장이 어려움
- 이미지 분류에서 낮은 성능.
- 복잡한 특성공학(feature engineering) 필요함.
4. 결정트리, 랜덤 포레스트, 그래디언트 부스팅 머신 - 2000년대
4.1 결정트리(decision tree)
- flowchart 구조
- 입력 데이터 분류 또는 출력값 예측에 사용
- 시각화와 이해가 쉬움
4.2 랜덤포레스트(Random forest)
- 여러개의 결정트리 출력을 앙상블하는 방법
- 결정 트리 학습에 기초한 알고리즘으로서 실전에 유용
- 캐글(Kaggle)이 가장 선호하는 알고리즘
4.3 그래디언트 부스팅 머신(gradient boosting maehine)
- 여러개의 결정트리 출력을 앙상블하는 방법
- 빠진 데이터를 보완하는 알고리즘을 반복해서 훈련함으로 머신 러닝을 향상시킴
- 랜덤 포레스트 성능을 능가.
- 지각과 인지관련 분야에서, 딥러닝 다음으로 뛰어난 알고리즘
5. 딥러닝 - 심층 신경망 (Deep neural network) - 2010년대
- 2011년 Dan Ciresan가 GPU 심층 신경망으로 이미지 분류 대회 우승
- 2012년 부터 심층 합성 신경망(deep convolutional neural network, ConvNet)이 이미지 분류, 컴퓨터 비전 작업의 주력이 됨.
- 다양한 애플리케이션에서 SVM, 결정트리를 완전히 대체하고 있음.
728x90