Tree-based Model Type
1) 분류 트리 분석:
- 예측 결과로 입력 데이터를 분류
- impurity를 최소화하는 방향으로 split이 진행됨
2) 회귀 트리 분석:
- 예측 결과로 실수 값을 출력 (ex. 주택의 가격, 사람의 몸무게)
- RSS(Residual Sum of Squares, 잔차제곱합)를 최소화 하는 방향으로 split
🌳Decision Tree 의사 결정 나무:
- "Decision Tree의 학습" = 데이터 세트를 적절한 분할 기준에 따라 부분 집합으로 나누는 과정
- 계층 구조로, Node 와 Edge들의 집합으로 이루어짐
- 결정 과정을 간단한 문제들로 이루어진 계층 구조로 나누어 표현
- 트리의 depth가 깊어질 수록, width가 넓어질 수록 (가지가 많아질수록) 과적합 발생
- Greedy한 방식으로 진행되므로 에러가 그대로 전파되는 단점
Hyperparameters:
1) max_depth: 값을 지정해 특정 depth보다 깊어지지 않도록 함
2) min_sample_split: 노드 분할위한 최소한의 샘플 데이터 수, 작게 설정할 수록 분할 노드 증가
3) min_samples_leaf: terminal node(리프노드)가 되기 위해 필요한 최소한의 샘플 데이터 수 (불균형 데이터의 경우 특정 클래스의 데이터가 적을 수 있으므로 작게 설정해야 함.)
4) max_leaf_nodes: terminal node의 최대 개수 지정
=> 이러한 hyperparameter 설정으로, pruning(가지치기) 통해 과적합 방지 가능
Algorithm:
분할의 적합성을 측정하는 기준 = Impurity (분류), RSS (회귀)
- Impurity 불순도 수치 종류
1) Gini index 지니 계수
- 분류된 결과에 이질적인 것이 얼마나 섞였는지를 측정하는 지표
- 결과 집합의 데이터가 모두 같다면 지니 계수는 0
2) Entropy 엔트로피
- 무질서 정도를 측정하는 수치
- 불순도를 0(완전 순수) 에서 1(완전 불순) 의 값으로 수치화한 것, 불순도가 높을수록 엔트로피도 높음
- 결과 집합의 데이터가 모두 같다면 엔트로피는 0
'Study IT > Machine Learning' 카테고리의 다른 글
[머신러닝] 모델에 대해 알아보자: SVM (Support Vector Machine) 서포트 벡터 머신 (0) | 2021.05.25 |
---|
댓글