Computer Science/기계학습 (Machine Learning)

[머신러닝/ML]Linear Regression (선형회귀)

gxxgsta 2023. 5. 15. 01:48
반응형
SMALL

Linear Regression (선형회귀)


supervised learning을 통해 학습 모델 중

어떠한 범위 사이의 값을 추측하는 것을 Regression이라고 한다고 하였다.

x를 예측을 하기 위한 데이터, y는 그 데이터의 결과라고 하자.

위 데이터를 평면 위에 표현하면 우측과 같이 나온다.

점끼리 연결하여 선을 만들면

1, 2, 3값이 아닌 다른 데이터가 들어와도 결과값을 예측할 수 있다.

이때, 선을 만드는 것을 Linear regression이라고 한다.

이때, 그래프에 대한 식은 H(x) = Wx + b으로 일차방정식으로 나타내는 것을 기본으로 한다.

W와 b값에 따라 그래프의 생김새가 변화한다.

해당 선이 적합한 모델인지를 판단하기 위해 그래프와 데이터의 거리를 선으로 그어 비교한다.

당연한 말이겠지만, 그래프와 데이터가 적게 떨어져 있을 수록

좋은 가설(hypothesis)이라고 할 수 있다.

Loss Function (Cost Function)


해당 선이 적합한 모델인지를 판단하기 위해 그래프와 데이터의 거리를 선으로 그어 비교한다.

당연한 말이겠지만, 그래프와 데이터가 적게 떨어져 있을 수록

좋은 가설(hypothesis)이라고 할 수 있다.

 

위와 같이 training data에 대해 적합한 그래프인지 판별하기 위해 사용되는 함수를

Loss Function 또는 Cost Function이라고 한다.

로 보통 나타낸다. (y = distance)

사실 이 모델은 그리 좋은 편은 아니다.

값이 음수가 될 수도, 양수가 될 수도 있기 때문이다.

따라서 보통 위와 같은 모델을 사용한다.

이렇게 나타내면, 값이 항상 양수로 나오고, 차이가 클 때 값이 더 커지므로 더 큰 패널티를 줄 수 있다.

formal하게 정의하기 위해 위와 같이 나타낸다.

각 값과 거리를 제곱하여 합한 값의 평균을 낸다.

따라서 cost function은 아래와 같이 정의할 수 있다.

cost함수의 최소값을 찾는 W, b를 구하는 것이 목표이다.

Minimize Cost


H(x) = Wx로 H(x) 함수를 단순화하고 Cost Function을 위와 같이 나타냈다.

그러면 W값에 따라 cost 함수값이 달라지는 것을 확인할 수 있는데,

이를 그래프로 나타내면 아래와 같다.

Gradient Descent Algorithm (경사하강법)

cost함수가 최소값이 되도록 W를 점진적으로 찾아주는 방법이다.

해당 알고리즘의 작동 원리는 아래와 같다.

  1. W를 임의의 값으로 초기화한다.
  2. cost function의 기울기(Gradient)가 작아지는(Descent) 방향으로 W를 이동시킨다.
  3. 최소가 되는 W를 찾을 때까지 1, 2번을 반복한다.

계산의 편의를 위해 cost function을 임의로 수정하겠다.

위 식을 미분하면 아래와 같다.

미분하는 이유는 해당 값에서 기울기를 구하기 위함이다.

(알고리즘이 기울기가 감소하는 방향으로 이동해야 하기 때문)

이러한 식을 통해 W의 값을 점진적으로 옮겨가며 최솟값이 되는 W를 찾는다.

위 식을 통해 W의 값을 구할 수 있는데, 좌측의 W는 업데이트 된 값이다.

우측의 W의 값을 변화시켜가며 좌측의 W값을 업데이트하며 구하는 것이다.

 

위 식에서 존재하지 않던 α 기호가 등장한다.

α는 학습률, 즉 Learning Rate라고 부른다.

이는 W의 값을 얼마나 많이 이동시킬지를 결정한다.

 

α값이 크면 빠르게 수렴하고, α값이 작으면 느리게 수렴한다.

그럼 빠르게 수렴할 수 있도록 α값을 크게 하면 되는 것이 아닌가? 라는 의문이 들텐데

α값을 너무 크게 설정하면 최적값에 수렴하지 못하고 발산하게 된다는 단점이 존재한다.

α값을 작게 잡으면 마찬가지로, 최적값에 잘 수렴할 수 있지만

느리게 수렴하여 계산 횟수와 시간이 늘어난다는 단점이 있다.

따라서, 두 가지의 장점이 적절히 수용되도록 α값을 적당하게 조정할 필요가 있다.

반응형
LIST