지도학습 알고리즘은 크게 회귀와 분류로 나누어진다.
변수 사이의 상관관계를 분석하는 방법 -> 회귀
사이킷런에서 사용할 훈련 세트는 2차원 배열이어야한다.
reshape(-1,1)를 적극 활용하자
회귀의 경우 R^2로 값을 평가하는데 이 점수를 결정계수라고 한다
R^2 = 1- ( (타깃-예측)^2의 합) / ((타깃-평균)^2의합)
훈련세트에서 점수 굉장히 좋았는데 테스트세트에서 점수가 굉장히 나쁨
-> 모델이 훈련 세트에 과대 적합
훈련세트보다 테스트 세트의 점수가 높거나, 두 점수 모두 낮은 경우
-> 훈련세트에 과소적합
과대적합일 경우 모델을 덜 복잡하게
과소적합일 경우 모델을 더 복잡하게 만들어여한다.
---------
K-최근접 이웃 회귀 사용 시 문제: 훈련 세트 범위 밖의 샘플을 예측 할 수 없다.
선형회귀: 특성과 타깃 사이의 관계를 가장 잘 나타내는 선형 방정식을 찾는다.
모델 파라미터: 선형 회귀가 찾은 가중치 처럼 머신러닝 모델이 특성에서 학습한 파리미터 의미
모델 기반 학습에서 모델이 찾은 정보는 모델 파라미터에 저장
선형회귀에서는 방정식의 계수가 여기에 해당.
다항식을 사용한 선형 회귀 -> 다항 회귀
가장 잘 맞는 직선의 방정식을 찾는다는 것은 최적의 기울기와 절편을 구한다는 것
이 값들은 선형 회귀 모델의 coef_ 와 intercept_ 속성에 저장되어 있음
------
선형회귀는 특성이 많을 수록 효과가 좋다
여러개의 특성을 사용한 선형회귀 -> 다중회귀
------
기본미션
Ch. 03-1 2번 문제 출력 그래프 인증샷
import numpy as np
import matplotlib.pyplot as plt
from sklearn.model_selection import train_test_split
from sklearn.neighbors import KNeighborsRegressor
perch_length = np.array(
[8.4, 13.7, 15.0, 16.2, 17.4, 18.0, 18.7, 19.0, 19.6, 20.0,
21.0, 21.0, 21.0, 21.3, 22.0, 22.0, 22.0, 22.0, 22.0, 22.5,
22.5, 22.7, 23.0, 23.5, 24.0, 24.0, 24.6, 25.0, 25.6, 26.5,
27.3, 27.5, 27.5, 27.5, 28.0, 28.7, 30.0, 32.8, 34.5, 35.0,
36.5, 36.0, 37.0, 37.0, 39.0, 39.0, 39.0, 40.0, 40.0, 40.0,
40.0, 42.0, 43.0, 43.0, 43.5, 44.0]
)
perch_weight = np.array(
[5.9, 32.0, 40.0, 51.5, 70.0, 100.0, 78.0, 80.0, 85.0, 85.0,
110.0, 115.0, 125.0, 130.0, 120.0, 120.0, 130.0, 135.0, 110.0,
130.0, 150.0, 145.0, 150.0, 170.0, 225.0, 145.0, 188.0, 180.0,
197.0, 218.0, 300.0, 260.0, 265.0, 250.0, 250.0, 300.0, 320.0,
514.0, 556.0, 840.0, 685.0, 700.0, 700.0, 690.0, 900.0, 650.0,
820.0, 850.0, 900.0, 1015.0, 820.0, 1100.0, 1000.0, 1100.0,
1000.0, 1000.0]
)
train_input, test_input, train_target, test_target = train_test_split(
perch_length, perch_weight, random_state=42)
test_array = np.array([1,2,3,4])
test_array = test_array.reshape(2, 2)
train_input = train_input.reshape(-1, 1)
test_input = test_input.reshape(-1, 1)
knr = KNeighborsRegressor()
x=np.arange(5,45).reshape(-1,1)
for n in [1,5,10]:
knr.n_neighbors=n
knr.fit(train_input,train_target)
prediction=knr.predict(x)
plt.scatter(train_input,train_target)
plt.plot(x,prediction)
plt.plot('n_neighbors={}'.format(n))
plt.xlabel('length')
plt.ylabel('weight')
plt.show()
선택미션
모델 파라미터에 대해서 설명
->모델 기반 학습에서 모델이 찾은 정보는 모델 파라미터에 저장. 선형회귀에서는 방정식의 계수가 여기에 해당.
'머신러닝,딥러닝' 카테고리의 다른 글
혼공머신 챕터7 (0) | 2021.08.15 |
---|---|
혼공머신 챕터5 (0) | 2021.08.01 |
혼공머신 챕터4 (0) | 2021.07.25 |
혼공머신 챕터1& 챕터2 (0) | 2021.07.11 |