

결정트리: 예/ 아니요에 대한 질문을 이어나가면서 정답을 찾아 학습하는 알고리즘
비교적 예측 과정을 이해하기 쉽고 성능도 뛰어난 편
불순도: 결정 트리가 최적의 질문을 찾기 위한 기준. 사이킷런은 지니 불순도와 엔트로피 불순도 제공
정보이득: 부모 노드와 자식 노드의 불순도 차이. 결정 트리 알고리즘은 정보 이득이 최대화 되도록 학습
가지치기: 결정 트리의 성장을 제한하는 방법. 결정트리가 제한 없이 성장하면 훈련세트에 과대적합 되기 쉬움
특성 중요도: 결정 트리에 사용된 특성이 불순도 감소하는게 기여한 정도
->특성 중요도를 계산할 수 있다는 것이 결정 트리의 또 다른 장점
<pands>
info() : 데이터 프레임의 요약된 정보를 출력 인덱스와 컬럼 타입을 출력하고 널이 아닌 값의 개수, 메모리 사용량 제공
누락된 값을 확인 할 수 있다 -> 누락 된 값이 있으면 그 데이터를 버리거나 평균값으로 채운 후 사용 할 수 있다.
describe(): 데이터프레임 열의 통계 값을 제공한다. 수치형일 경우 최소, 최대, 평균, 표준편차와 사분위 값등이 출력된다.
p) 결정 트리의 불순도에 대해 옳게 설명한 것
-지니 불순도 1- ( 양성 클래스 비율^2 + 음성 클래스 비율 ^2)
-엔트로피 불순도 계산식 : -음성 클래스 비율 x log2(음성 클래스 비율) - 양성 클래스 비율 x log2(양성 클래스 비율)
p)결정 트리에서 계산한 특성 중요도가 저장되어 있는 속성 -> feature_importances_
--------
검증세트 : 하이퍼 파라미터 튜닝을 위해 모델을 평가 할대, 테스트 세트를 사용하지 않기 위해 훈련 세트에서
다시 떼어 낸 데이터 세트
교차검증: 훈련세트를 여러 폴드로 나눈 다음 한 폴드가 검증 세트의 역할을 하고 나머지 폴드에서는 모델을 훈련한다.
교차 검증은 이런 식으로 모든 폴드에 대해 검증 점수를 얻어 평군하는 방법.
책에서는 3-폴드 교차검증을 예시로 들었지만 5-폴드 10-폴드 교차 검증을 많이 사용한다
하이퍼파라미터: 모델이 학습할 수 없어서 사용자가 직접 지정해야만 하는 파라미터
사이킷런과 같은 머신러닝 라이브러리를 사용할 때 이런 하이퍼파라미터는 모두 클래스나 메서드의 매개변수로 표현됨
'머신러닝,딥러닝' 카테고리의 다른 글
혼공머신 챕터7 (0) | 2021.08.15 |
---|---|
혼공머신 챕터4 (0) | 2021.07.25 |
혼공머신 챕터3 (0) | 2021.07.18 |
혼공머신 챕터1& 챕터2 (0) | 2021.07.11 |