상세 컨텐츠

본문 제목

[혼공머] 3장 회귀 알고리즘과 모델 규제

통계, ML 방법론

by eun_00 2024. 5. 6. 21:50

본문

k-최근접 이웃 회귀, 선형회귀, 다중선형회귀, 릿지/라쏘 규제 에 대해 공부하고 간단한 모델을 구현해보자.

 

1) k-최근접 이웃 회귀
 
- 지도학습 알고리즘은 크게 분류, 회귀로 나뉜다.
- 임의의 어떤 숫자를 예측하는 것이 회귀이다.
- 사이킷런 사용을 위해 1차원 배열을 **reshape() 메서드**를 통해 2차원 배열로 변경한다.
- k-최근접 이웃 회귀 알고리즘은 **KNeighborsRegressor** 클래스를 사용한다.
n_nieghbors 매개변수로 이웃 개수를 지정한다(기본값 5)
- 사이킷런은 회귀모델 점수로 R2 결정계수를 반환한다. 이 값은 1에 가까울수록 좋다. 정량적 성능 평가는 mean_absolute_error() 로 평균 절대값 오차를 계산한다.
- 훈련 데이터셋 성능이 좋은데, 테스트 데이터셋에서 매우 나쁘면 모델이 과대적합 되었다고 한다.
- 훈련 데이터셋보다 테스트 데이터셋에서 점수가 높으면 모델은 과소적합 되었다고 한다.데이터 크기가 너무 작으면 테스트 데이터셋가 훈련세트의 특징을 따르지 못할 수 있다.
- underfitting을 해결하려면 모델을 더 복잡하게 만들면 되는데, k최근접 이웃 알고리즘에서는 이웃의 개수를 줄이는 방법이 있다.
- 반대로 overfitting 에는 k 값을 줄여 모델을 덜 복잡하게 만든다.

 

 

관련글 더보기