사용안내 및 노트

홈으로/사용안내 및 노트
제목025. Regularization for Simplicity: L2 Regularization2020-12-13 19:57:02
작성자

☐ Regularization for Simplicity: L2 Regularization

 ○ 정규화(regularization)는 모델의 복잡성(가중치 w)에 대한 페널티이다.

  - 정규화는 loss function에 regularization term을 추가해서 w가 작아지도록 학습

  - 모델을 적당히 단순하게 만들어 over-fitting을 방지하는데 목적이 있다.

  - 정규화를 하면 데이터가 일반화되어 모델의 예측력이 향상된다.

 ○ regularization은 features 개수가 상당히 많을 때만 사용한다.

 ○ regularization의 종류

  - L1 regularization, L2 regularization, dropout regularization 등

 ○ 아래 generalization curve는 overfitting 상태를 보임

  - training loss 는 감소하지만 validation loss 는 확대되고 있음

  - L2 regularization을 통해 overfitting을 최소화할 수 있다.

 ○ Loss function을 structural risk minimization 형태로 변환

  - 단순히 loss를 최소화하는 것은 empirical risk minimization이라고 한다.

  - 이에 비해 structural risk minimization은 complexity를 추가한 값을 최소화하는 것이다.

  - empirical risk minimization = minimize(Loss(Data|Model))

  - structural risk minimization = minimize(Loss(Data|Model) + complexity(Model))

 ○ regularization을 적용하면 loss function에 regularization term이 추가된다.

  - loss term = Loss(Data|Model)

  - regularization term = penalty term = complexity(Model)

 ○ model complexity의 2가지 형태

  - as a function of the weights of all the features in the model (L2)

   · a feature weight with a high absolute value is more complex than a feature weight with a low absolute value

  - as a function of the total number of features with non-zero weights (L1)

 ○ 페널티 계산

  - the sum of the squares of all the feature weights

  - L2 regularization term = 

   · 제곱을 사용하므로 w의 절대 값이 커지면 complexity에 큰 영향을 준다.

   · 예시) { w1 = 0.2, w2 = 0.5, w3 = 5, w4 = 1, w5 = 0.25, w6 = 0.75 }
L2 regularization term = 0.22 + 0.52 + 52 + 12 + 0.252 + 0.752 = 26.915

   · 위 예시에서는 w3가 complexity 값의 대부분을 차지한다. 즉 0에 가까운 weight는 모델의 complexity에 거의 영향을 미치지 않지만 가중치의 절대 값이 커질수록 영향도 커짐을 알 수 있다.

 ○ L1 regularization과 L2 regularization의 차이

L1 regularization

L2 regularization

Lasso regularization이라고도 함

Ridge regularization이라고도 함

Robust (w에 둔감)

Not very robust (w에 민감)

weights -> sparsity

weights -> reduced

Unstable solution

Stable solution

Possibly multiple solutions

Always one solution

penalty = 
절대 값의 합

penalty = 
제곱의 합

  - loss function에 추가되는 regularization term(항)이 L1이면 L1 regularization이라 하고 해당 항이 L2이라면 L2 regularization이라고 한다.