본문 바로가기
개발노트/머신러닝

회귀 분석(Regression analysis) - 선형회귀의 예제#1

by 전지적진영시점 2023. 3. 17.
반응형

개발 환경

---------------------------------

OS : Mac

개발 툴 : colab 

개발 언어 : python

---------------------------------

 

회귀분석이 무엇인가

 

구글에 회귀분석이라고 검색하면 아래와 같이 나온다.

회귀 분석은 둘 이상의 변수 간의 관계를 보여주는 통계적 방법
입니다. 일반적으로 그래프로 표현되는 이 방법은 종속 변수와 독립 변수 간의 관계를 테스트합니다. 일반적으로 독립 변수는 종속 변수에 따라 변경되며 회귀 분석은 해당 변경에서 가장 중요한 요소에 대한 답을 찾으려고 시도합니다.

블라블라 ~ 머라고 하고 있군요.

 

머신러닝에서 회귀란 임의의 어떤 숫자를 예측하는 문제입니다.

예를들어 내년도 경제 성장률을 예측하거나 배달이 도착할 시간을 예측하는 것이 회귀 문제입니다.

 

회귀분석은 예측, 시계열 모델링 및 변수 간 인과관계 발견 등에 주로 사용됩니다.

 

1. 선형 회귀(Linear regression)

 

선형회귀는 머신러닝에서 가장 일반적인 회귀분석 유형이라고 할 수 있습니다.

선형회귀는 예측 변수와 종속변수(목표)로 구성되며 이 둘은 선형 방식으로 서로 연관지어져 있습니다.

 

<예제>

 

1. 데이터 준비

1. train_test_split 메서드를 사용하여 가져온 데이터를 훈련세트와 테스트세트로 나눕니다.

 

import numpy as np
from sklearn.model_selection import train_test_split

fish_length = np.array([8.4, 13.7, 15.0, 16.2, 17.4, 18.0, 18.7, 19.0, 19.6, 20.0, 21.0,
       21.0, 21.0, 21.3, 22.0, 22.0, 22.0, 22.0, 22.0, 22.5, 22.5, 22.7,
       23.0, 23.5, 24.0, 24.0, 24.6, 25.0, 25.6, 26.5, 27.3, 27.5, 27.5,
       27.5, 28.0, 28.7, 30.0, 32.8, 34.5, 35.0, 36.5, 36.0, 37.0, 37.0,
       39.0, 39.0, 39.0, 40.0, 40.0, 40.0, 40.0, 42.0, 43.0, 43.0, 43.5,
       44.0])
fish_weight = np.array([5.9, 32.0, 40.0, 51.5, 70.0, 100.0, 78.0, 80.0, 85.0, 85.0, 110.0,
       115.0, 125.0, 130.0, 120.0, 120.0, 130.0, 135.0, 110.0, 130.0,
       150.0, 145.0, 150.0, 170.0, 225.0, 145.0, 188.0, 180.0, 197.0,
       218.0, 300.0, 260.0, 265.0, 250.0, 250.0, 300.0, 320.0, 514.0,
       556.0, 840.0, 685.0, 700.0, 700.0, 690.0, 900.0, 650.0, 820.0,
       850.0, 900.0, 1015.0, 820.0, 1100.0, 1000.0, 1100.0, 1000.0,
       1000.0])

train_input, test_input, train_target, test_target = train_test_split(fish_length, fish_weight, random_state=42)

 

2. 사이킷런 패키지로 모델을 훈련시키기 위해 특성데이터를 2차원 배열로 만듭니다.

#사이킷런의 특성 데이터는 2차원 배열로 변환해야 한다.
train_input = train_input.reshape(-1,1)
test_input = test_input.reshape(-1,1)

 

reshape() 메서드를 사용하는 방법은 아래 링크에 정리해두었습니다.

 

https://jpointofviewntoe.tistory.com/133

 

[python] reshape() 메서드와 예제

개발 환경 --------------------------------- OS : Mac 개발 툴 : colab 개발 언어 : python --------------------------------- 이번 포스팅은 reshape() 메서드를 공부해보겠습니다. 파이썬 언어는 신기한게 많습ㄴ디ㅏ... re

jpointofviewntoe.tistory.com

 

 

 

 

2.  데이터 훈련시키기

 

사이킷런은 sklearn_model 패키지 하위에 LinearRegression 클래스로 선형 회귀 알고리즘이 구현되어 있습니다.

 

LinearRegression 클래스를 import 하고 객체를 생성해줍니다.

다음 fit() 메서드를 통해 객체를 훈련시켜줍시다.

 

길이 데이터 50을 넣고 예측을 해보면

from sklearn.linear_model import LinearRegression

lr = LinearRegression()

lr.fit(train_input, train_target)

print(lr.predict([[50]]))

 

아래와 같이 잘 뜨는군요, 

 

제가 가져온 데이터 중 가장 긴 길이는 44입니다. 즉, 50은 훈련세트에 없는데이터입니다.

 

이와같이 선형회귀는 알려진 다른 관련 데이터 값을 사용하여 알 수 없는 데이터의 값을 예측하는 데이터 분석 기법입니다.

 

 

 

https://jpointofviewntoe.tistory.com/141

 

회귀 분석(Regression analysis) - 선형회귀의 예제 #2

https://jpointofviewntoe.tistory.com/140 회귀 분석(Regression analysis) - 선형회귀의 예제#1 개발 환경 --------------------------------- OS : Mac 개발 툴 : colab 개발 언어 : python --------------------------------- 회귀분석이 무

jpointofviewntoe.tistory.com

 

 

https://link.coupang.com/a/Rzrh2

 

Apple 2023 맥북 프로 14 M2

COUPANG

www.coupang.com

 

 

" 포스팅은 쿠팡 파트너스 활동의 일환으로, 이에 따른 일정액의 수수료를 제공받습니다."

반응형

댓글