Cute Dog Bopping Head
본문 바로가기
Study IT/Machine Learning

[머신러닝] Decision Tree 결정 트리

by 찾 2022. 11. 26.

Tree-based Model Type

1) 분류 트리 분석:

- 예측 결과로 입력 데이터를 분류

- impurity를 최소화하는 방향으로 split이 진행됨

2) 회귀 트리 분석:

- 예측 결과로 실수 값을 출력 (ex. 주택의 가격, 사람의 몸무게)

- RSS(Residual Sum of Squares, 잔차제곱합)를 최소화 하는 방향으로 split


🌳Decision Tree 의사 결정 나무:

출처: 위키백과 "결정 트리 학습법"

- "Decision Tree의 학습" = 데이터 세트를 적절한 분할 기준에 따라 부분 집합으로 나누는 과정

- 계층 구조로, Node 와 Edge들의 집합으로 이루어짐

- 결정 과정을 간단한 문제들로 이루어진 계층 구조로 나누어 표현

- 트리의 depth가 깊어질 수록, width가 넓어질 수록 (가지가 많아질수록) 과적합 발생

- Greedy한 방식으로 진행되므로 에러가 그대로 전파되는 단점

 

Hyperparameters:

1) max_depth: 값을 지정해 특정 depth보다 깊어지지 않도록 함

2) min_sample_split: 노드 분할위한 최소한의 샘플 데이터 수, 작게 설정할 수록 분할 노드 증가

3) min_samples_leaf: terminal node(리프노드)가 되기 위해 필요한 최소한의 샘플 데이터 수 (불균형 데이터의 경우 특정 클래스의 데이터가 적을 수 있으므로 작게 설정해야 함.)

4) max_leaf_nodes: terminal node의 최대 개수 지정

=> 이러한 hyperparameter 설정으로, pruning(가지치기) 통해 과적합 방지 가능

 

Algorithm:

분할의 적합성을 측정하는 기준 = Impurity (분류), RSS (회귀)

- Impurity 불순도 수치 종류

    1) Gini index 지니 계수

      - 분류된 결과에 이질적인 것이 얼마나 섞였는지를 측정하는 지표

      - 결과 집합의 데이터가 모두 같다면 지니 계수는 0

    2) Entropy 엔트로피 

      - 무질서 정도를 측정하는 수치

      - 불순도를 0(완전 순수) 에서 1(완전 불순) 의 값으로 수치화한 것, 불순도가 높을수록 엔트로피도 높음

      - 결과 집합의 데이터가 모두 같다면 엔트로피는 0

댓글