Random Forest vs Extra Trees
랜덤 포레스트와 엑스트라 트리의 차이점은 부트스트랩 샘플(중복된 훈련 샘플)을 사용하지 않는다는 점에 있습니다. 엑스트라 트리는 결정 트리를 만들어 낼 때 훈련 세트 전체를 사용하기 때문에 Bagging이라고는 할 수 없습니다.
또 랜덤포레스트는 주어진 모든 feature에 대한 정보이득을 계산하고 가장 높은 정보 이득을 가지는 feature를 Split Node로 선택하고 그것들은 전부 비교해서 가장 최선의 feature를 선정합니다. 이 과정을 통해 성능이 좋은 결정트리를 만들 수 있지만 연산량이 많이 든다는 단점이 있습니다.
반면에 엑스트라 트리는 Split을 할 때 무작위로 feature를 선정합니다. feature중에 아무거나 고른 다음 그 feature에 대해서 최적의 Node를 분할합니다. 성능이 낮아지지만 생각보다 준수한 성능을 보이고 과대적합을 막고 검증 세트의 점수를 높이는 효과가 있습니다. 그리고 속도가 빠르다는 장점이 있습니다.
앞의 랜덤 포레스트와 같은 데이터셋을 사용했습니다.
'AI' 카테고리의 다른 글
Clustering 실습 1 (0) | 2021.08.03 |
---|---|
Clustering (K-Means, DBSCAN) (0) | 2021.08.03 |
랜덤 포레스트 (Random Forest) (0) | 2021.08.02 |
AutoML(Grid Search, Random Search) (1) | 2021.07.29 |
교차 검증(cross validation) (0) | 2021.07.27 |