앙상블 방법
분류에서 가장 각광 받는 방법
이미지, 영상, 음성,NLP 영역에서 신경망ㅌㅊ에 기반한 딥러닝이 머신러닝계를 선도하고 있지만, 이를 제외한 정형 데이터의 예측 분석 영역에서는 앙상블ㅇ리 매우 높은 예측 성능으로 애용되고 있음.
앗으븡:
서로 다른/또는 같은 알고리즘을 단순히 결하한 형태이나, 일반적으로 배팅과 부스팅 방식으로 나눔.
배깅방식: 랜덤 포레스트 - 뛰어나난 예측 선응 상대적으로 빠른 수행 시간, 유연성
최근에는 부스팅 방식으로 발전하고 있음. 그래디언트 부스팅(효쇠) 뛰어난 예측 성능이지만, 시간이 너무 오래 걸림따라서 최적화 모델 튜닝이 어려움
XgBoost , lightGBM 등 기존 그래디언트 부스팅의 예측 성능을 한단계 발전시키ㅁ녀서 수행시간을 단축시킨 알고리즘
정형 데이터 분류 영여ㅓㄱ에서 가장 활용도가 높으 ㄴ알고리즘으로 자리 잡음
랜덤 포레스트
그래디언트 부스닝
XGboost LightGMBM 스태킹 기법에 대해ㅓㅅ 살료봄.
앙상블의 기본 알고리즘 --> 결정트리
결정트리: 쉽고 유연
스케일링이나 정규화 등의 영향이 적다.
복잡한 구조로 인한 과적합이 발생하여 예측 성능이 저하될 수도 있음.
하지마나 이것이 오ㄹ히려 장점
왜냐하면, 앙상블은 매우 많은 여러개의 약한 학습기(예측 성능이 상대적으로 낮은 학습 알고리즘)를 결합해 확률적 보와노가 유로가 발생한 부분에 대한 가중치를 계속 업데티으하면서 옟윽 성능을 향상시키는데 결정 트리가 좋은 약한 학습기가다 되기때문
결정트리
앙상블 학습
랜덤 포레스트
GBM
XGBoost
LightGBM
캐글 산탄데르 고객 만족 예측
출처: 파이썬 머신러닝 완벽가이드