혼공머신 챕터5

결정트리: 예/ 아니요에 대한 질문을 이어나가면서 정답을 찾아 학습하는 알고리즘

비교적 예측 과정을 이해하기 쉽고 성능도 뛰어난 편

불순도: 결정 트리가 최적의 질문을 찾기 위한 기준. 사이킷런은 지니 불순도와 엔트로피 불순도 제공

정보이득: 부모 노드와 자식 노드의 불순도 차이. 결정 트리 알고리즘은 정보 이득이 최대화 되도록 학습

가지치기: 결정 트리의 성장을 제한하는 방법. 결정트리가 제한 없이 성장하면 훈련세트에 과대적합 되기 쉬움

특성 중요도: 결정 트리에 사용된 특성이 불순도 감소하는게 기여한 정도

->특성 중요도를 계산할 수 있다는 것이 결정 트리의 또 다른 장점

<pands>

info() : 데이터 프레임의 요약된 정보를 출력 인덱스와 컬럼 타입을 출력하고 널이 아닌 값의 개수, 메모리 사용량 제공

누락된 값을 확인 할 수 있다 -> 누락 된 값이 있으면 그 데이터를 버리거나 평균값으로 채운 후 사용 할 수 있다.

describe(): 데이터프레임 열의 통계 값을 제공한다. 수치형일 경우 최소, 최대, 평균, 표준편차와 사분위 값등이 출력된다.

p) 결정 트리의 불순도에 대해 옳게 설명한 것

-지니 불순도 1- ( 양성 클래스 비율^2 + 음성 클래스 비율 ^2)

-엔트로피 불순도 계산식 : -음성 클래스 비율 x log2(음성 클래스 비율) - 양성 클래스 비율 x log2(양성 클래스 비율)

p)결정 트리에서 계산한 특성 중요도가 저장되어 있는 속성 -> feature_importances_

--------

검증세트 : 하이퍼 파라미터 튜닝을 위해 모델을 평가 할대, 테스트 세트를 사용하지 않기 위해 훈련 세트에서

다시 떼어 낸 데이터 세트

교차검증: 훈련세트를 여러 폴드로 나눈 다음 한 폴드가 검증 세트의 역할을 하고 나머지 폴드에서는 모델을 훈련한다.

교차 검증은 이런 식으로 모든 폴드에 대해 검증 점수를 얻어 평군하는 방법.

책에서는 3-폴드 교차검증을 예시로 들었지만 5-폴드 10-폴드 교차 검증을 많이 사용한다

하이퍼파라미터: 모델이 학습할 수 없어서 사용자가 직접 지정해야만 하는 파라미터

사이킷런과 같은 머신러닝 라이브러리를 사용할 때 이런 하이퍼파라미터는 모두 클래스나 메서드의 매개변수로 표현됨

내 블로그 - 관리자 홈 전환	`Q` `Q`
새 글 쓰기	`W` `W`

글 수정 (권한 있는 경우)	`E` `E`
댓글 영역으로 이동	`C` `C`

Thanos73k의 블로그