본문 바로가기

머신러닝,딥러닝

혼공머신 챕터3

지도학습 알고리즘은 크게 회귀와 분류로 나누어진다.

 

변수 사이의 상관관계를 분석하는 방법 -> 회귀

 

사이킷런에서 사용할 훈련 세트는 2차원 배열이어야한다.

reshape(-1,1)를 적극 활용하자 

 

회귀의 경우 R^2로 값을 평가하는데 이 점수를 결정계수라고 한다

R^2 = 1- ( (타깃-예측)^2의 합) / ((타깃-평균)^2의합)

 

훈련세트에서 점수 굉장히 좋았는데 테스트세트에서 점수가 굉장히 나쁨

-> 모델이 훈련 세트에 과대 적합

 

훈련세트보다 테스트 세트의 점수가 높거나, 두 점수 모두 낮은 경우

-> 훈련세트에 과소적합 

 

과대적합일 경우 모델을 덜 복잡하게

과소적합일 경우 모델을 더 복잡하게 만들어여한다.

 

---------

K-최근접 이웃 회귀 사용 시 문제: 훈련 세트 범위 밖의 샘플을 예측 할 수 없다.

 

선형회귀: 특성과 타깃 사이의 관계를 가장 잘  나타내는 선형 방정식을 찾는다.

 

모델 파라미터: 선형 회귀가 찾은 가중치 처럼 머신러닝 모델이 특성에서 학습한 파리미터 의미

모델 기반 학습에서 모델이 찾은 정보는 모델 파라미터에 저장

선형회귀에서는 방정식의 계수가 여기에 해당.

 

다항식을 사용한 선형 회귀 -> 다항 회귀

 

가장 잘 맞는 직선의 방정식을 찾는다는 것은 최적의 기울기와 절편을 구한다는 것

이 값들은 선형 회귀 모델의 coef_ 와 intercept_ 속성에 저장되어 있음

 

------

 

선형회귀는 특성이 많을 수록 효과가 좋다

여러개의 특성을 사용한 선형회귀 -> 다중회귀

 

 

 

------

 

기본미션

 

Ch. 03-1 2번 문제 출력 그래프 인증샷

 

import numpy as np
import matplotlib.pyplot as plt
from sklearn.model_selection import train_test_split
from sklearn.neighbors import KNeighborsRegressor

perch_length = np.array(
    [8.4, 13.7, 15.0, 16.2, 17.4, 18.0, 18.7, 19.0, 19.6, 20.0, 
     21.0, 21.0, 21.0, 21.3, 22.0, 22.0, 22.0, 22.0, 22.0, 22.5, 
     22.5, 22.7, 23.0, 23.5, 24.0, 24.0, 24.6, 25.0, 25.6, 26.5, 
     27.3, 27.5, 27.5, 27.5, 28.0, 28.7, 30.0, 32.8, 34.5, 35.0, 
     36.5, 36.0, 37.0, 37.0, 39.0, 39.0, 39.0, 40.0, 40.0, 40.0, 
     40.0, 42.0, 43.0, 43.0, 43.5, 44.0]
     )
perch_weight = np.array(
    [5.9, 32.0, 40.0, 51.5, 70.0, 100.0, 78.0, 80.0, 85.0, 85.0, 
     110.0, 115.0, 125.0, 130.0, 120.0, 120.0, 130.0, 135.0, 110.0, 
     130.0, 150.0, 145.0, 150.0, 170.0, 225.0, 145.0, 188.0, 180.0, 
     197.0, 218.0, 300.0, 260.0, 265.0, 250.0, 250.0, 300.0, 320.0, 
     514.0, 556.0, 840.0, 685.0, 700.0, 700.0, 690.0, 900.0, 650.0, 
     820.0, 850.0, 900.0, 1015.0, 820.0, 1100.0, 1000.0, 1100.0, 
     1000.0, 1000.0]
     )

train_input, test_input, train_target, test_target = train_test_split(
    perch_length, perch_weight, random_state=42)

test_array = np.array([1,2,3,4])

test_array = test_array.reshape(2, 2)

train_input = train_input.reshape(-1, 1)
test_input = test_input.reshape(-1, 1)

knr = KNeighborsRegressor()

x=np.arange(5,45).reshape(-1,1)

for n in [1,5,10]:
  knr.n_neighbors=n
  knr.fit(train_input,train_target)

  prediction=knr.predict(x)

  plt.scatter(train_input,train_target)
  plt.plot(x,prediction)
  plt.plot('n_neighbors={}'.format(n))
  plt.xlabel('length')
  plt.ylabel('weight')
  plt.show()

 

선택미션

 

모델 파라미터에 대해서 설명

->모델 기반 학습에서 모델이 찾은 정보는 모델 파라미터에 저장. 선형회귀에서는 방정식의 계수가 여기에 해당.

'머신러닝,딥러닝' 카테고리의 다른 글

혼공머신 챕터7  (0) 2021.08.15
혼공머신 챕터5  (0) 2021.08.01
혼공머신 챕터4  (0) 2021.07.25
혼공머신 챕터1& 챕터2  (0) 2021.07.11