728x90
반응형

머신러닝 딥러닝은 분류와 회귀 문제 해결을 위한 도구(모델)

예) 개 고양이 분류

 

1. 확률적 모델링 (probabilistic modeling)

  • 통계학 이론을 빅데이터 분석에 응용한 것
  • 초창기 머신 러닝 형태 중 하나
  • 대표적인 모델 알고리즘은 나이브 베이즈 알고리즘

1.1 나이브 베이즈(Naive Bayes) 

  • 입력 데이터가 모두 독립이라 가정하고, 베이즈 정리(Bayes' theorem)을 적용하는 머신 러닝 분류 알고리즘
  • 분류 알고리즘

1.2 로지스틱 회귀(logistic regression)

  • 분류 알고리즘 (회귀 알고리즘 아님)

 

2. 초창기 신경망 - 1980년대

  • 경사 하강법 최적화를 이용하여 변수가 연쇄적으로 연결된 연산을 훈련하는 기법
  • 1989년 Yann LeCun이 합성곱 신경망과 역전파 알고리즘을 결합하여 (LeNet), 이미지 분류(손글씨 숫자)에 최초 성공
  • 이 후, 미국 우편번호 자동 분류에 사용됨. 

 

3. 커널 방법 (Kernel method) -1990년대

  • 분류 알고리즘

3.1. 서포트 벡터 머신 (support vector machne, SVM)

  • 1995년 Vladmir Vapnick과 Corinna Cortes 에 의해 개발됨. 
  • 2개의 다른 범주에 속한 데이터 그룹 사이를 확실히 구분하는 결정경계(decision boundary)를 찾는 알고리즘
  • 장점: 
    • 간단한 분류 문제에 최고 수준의 성능을 보임. 
    • 수학적으로 분석하기 용이하여 이론을 이해하고 설명하기 쉬움. 
  • 단점:
    • 대용량 데이터셋으로의 확장이 어려움
    • 이미지 분류에서 낮은 성능.
    • 복잡한 특성공학(feature engineering) 필요함. 

 

4. 결정트리, 랜덤 포레스트, 그래디언트 부스팅 머신 - 2000년대

4.1 결정트리(decision tree) 

  • flowchart 구조
  • 입력 데이터 분류 또는 출력값 예측에 사용
  • 시각화와 이해가 쉬움

4.2 랜덤포레스트(Random forest) 

  • 여러개의 결정트리 출력을 앙상블하는 방법
  • 결정 트리 학습에 기초한 알고리즘으로서 실전에 유용
  • 캐글(Kaggle)이 가장 선호하는 알고리즘

4.3 그래디언트 부스팅 머신(gradient boosting maehine)

  • 여러개의 결정트리 출력을 앙상블하는 방법
  • 빠진 데이터를 보완하는 알고리즘을 반복해서 훈련함으로 머신 러닝을 향상시킴
  • 랜덤 포레스트 성능을 능가.
  • 지각과 인지관련 분야에서, 딥러닝 다음으로 뛰어난 알고리즘

 

5. 딥러닝 - 심층 신경망 (Deep neural network) - 2010년대

  • 2011년 Dan Ciresan가 GPU 심층 신경망으로 이미지 분류 대회 우승
  • 2012년 부터 심층 합성 신경망(deep convolutional neural network, ConvNet)이 이미지 분류, 컴퓨터 비전 작업의 주력이 됨.
  • 다양한 애플리케이션에서 SVM, 결정트리를 완전히 대체하고 있음.
728x90
반응형

+ Recent posts