개발 환경
---------------------------------
OS : Mac
개발 툴 : colab
개발 언어 : python
---------------------------------
회귀분석이 무엇인가
구글에 회귀분석이라고 검색하면 아래와 같이 나온다.
회귀 분석은 둘 이상의 변수 간의 관계를 보여주는 통계적 방법
입니다. 일반적으로 그래프로 표현되는 이 방법은 종속 변수와 독립 변수 간의 관계를 테스트합니다. 일반적으로 독립 변수는 종속 변수에 따라 변경되며 회귀 분석은 해당 변경에서 가장 중요한 요소에 대한 답을 찾으려고 시도합니다.
블라블라 ~ 머라고 하고 있군요.
머신러닝에서 회귀란 임의의 어떤 숫자를 예측하는 문제입니다.
예를들어 내년도 경제 성장률을 예측하거나 배달이 도착할 시간을 예측하는 것이 회귀 문제입니다.
회귀분석은 예측, 시계열 모델링 및 변수 간 인과관계 발견 등에 주로 사용됩니다.
1. 선형 회귀(Linear regression)
선형회귀는 머신러닝에서 가장 일반적인 회귀분석 유형이라고 할 수 있습니다.
선형회귀는 예측 변수와 종속변수(목표)로 구성되며 이 둘은 선형 방식으로 서로 연관지어져 있습니다.
<예제>
1. 데이터 준비
1. train_test_split 메서드를 사용하여 가져온 데이터를 훈련세트와 테스트세트로 나눕니다.
import numpy as np
from sklearn.model_selection import train_test_split
fish_length = np.array([8.4, 13.7, 15.0, 16.2, 17.4, 18.0, 18.7, 19.0, 19.6, 20.0, 21.0,
21.0, 21.0, 21.3, 22.0, 22.0, 22.0, 22.0, 22.0, 22.5, 22.5, 22.7,
23.0, 23.5, 24.0, 24.0, 24.6, 25.0, 25.6, 26.5, 27.3, 27.5, 27.5,
27.5, 28.0, 28.7, 30.0, 32.8, 34.5, 35.0, 36.5, 36.0, 37.0, 37.0,
39.0, 39.0, 39.0, 40.0, 40.0, 40.0, 40.0, 42.0, 43.0, 43.0, 43.5,
44.0])
fish_weight = np.array([5.9, 32.0, 40.0, 51.5, 70.0, 100.0, 78.0, 80.0, 85.0, 85.0, 110.0,
115.0, 125.0, 130.0, 120.0, 120.0, 130.0, 135.0, 110.0, 130.0,
150.0, 145.0, 150.0, 170.0, 225.0, 145.0, 188.0, 180.0, 197.0,
218.0, 300.0, 260.0, 265.0, 250.0, 250.0, 300.0, 320.0, 514.0,
556.0, 840.0, 685.0, 700.0, 700.0, 690.0, 900.0, 650.0, 820.0,
850.0, 900.0, 1015.0, 820.0, 1100.0, 1000.0, 1100.0, 1000.0,
1000.0])
train_input, test_input, train_target, test_target = train_test_split(fish_length, fish_weight, random_state=42)
2. 사이킷런 패키지로 모델을 훈련시키기 위해 특성데이터를 2차원 배열로 만듭니다.
#사이킷런의 특성 데이터는 2차원 배열로 변환해야 한다.
train_input = train_input.reshape(-1,1)
test_input = test_input.reshape(-1,1)
reshape() 메서드를 사용하는 방법은 아래 링크에 정리해두었습니다.
https://jpointofviewntoe.tistory.com/133
2. 데이터 훈련시키기
사이킷런은 sklearn_model 패키지 하위에 LinearRegression 클래스로 선형 회귀 알고리즘이 구현되어 있습니다.
LinearRegression 클래스를 import 하고 객체를 생성해줍니다.
다음 fit() 메서드를 통해 객체를 훈련시켜줍시다.
길이 데이터 50을 넣고 예측을 해보면
from sklearn.linear_model import LinearRegression
lr = LinearRegression()
lr.fit(train_input, train_target)
print(lr.predict([[50]]))
아래와 같이 잘 뜨는군요,
제가 가져온 데이터 중 가장 긴 길이는 44입니다. 즉, 50은 훈련세트에 없는데이터입니다.
이와같이 선형회귀는 알려진 다른 관련 데이터 값을 사용하여 알 수 없는 데이터의 값을 예측하는 데이터 분석 기법입니다.
https://jpointofviewntoe.tistory.com/141
https://link.coupang.com/a/Rzrh2
"이 포스팅은 쿠팡 파트너스 활동의 일환으로, 이에 따른 일정액의 수수료를 제공받습니다."
'개발노트 > 머신러닝' 카테고리의 다른 글
[머신러닝] 사이킷 런 변환기, PolynomialFeatures (0) | 2023.03.21 |
---|---|
회귀 분석(Regression analysis) - 선형회귀의 예제 #2 (0) | 2023.03.17 |
[머신러닝] 과대적합 vs 과소적합 (0) | 2023.03.13 |
[python] reshape() 메서드와 예제 (0) | 2023.03.13 |
[머신러닝] 데이터 전처리 개념과 예제 #2 (1) | 2023.03.12 |
댓글