사용안내 및 노트

홈으로/사용안내 및 노트
제목026. Regularization for Simplicity: Lambda (λ)2020-12-20 22:30:31
작성자

☐ Regularization for Simplicity: Lambda (λ)

 ○ regularization term의 중요도를 나타내는 scalar 값

  - minimize(Loss(Data|Model) + λcomplexity(Model))

  - regularization rate 라고도 한다.

 ○ lambda 값을 증가시키면 regularization 효과도 좋아진다.

  - L2 regularization 효과란?

   · weight를 0에 가깝게 만든다.

   · 정규 분포를 사용하여 weight의 평균을 0에 가깝게 만든다.

 ○ 예시) lambda 크기에 따른 weights histogram

  - lambda의 크기에 따라 weights가 크게 변화됨을 알 수 있다.

 ○ 적정 lambda 값은 simplicity와 training-data fit의 조화에 달려 있다.

  - lambda가 너무 크면 모델이 지나치게 단순(under-fitting)해져서 제대로 된 학습을 수행할 수 없고 예측 기능도 떨어질 수 있다.

  - lambda가 너무 작으면 모델이 지나치게 복잡(over-fitting)해져서 과-최적화가 발생하고 신규 데이터에 대해 generalization을 수행할 수 없다.

  - lambda를 0으로 설정하면 regularization이 완전히 제거되고 학습은 오직 loss를 최소화하는 데 초점을 맞춘다. 이는 과-최적화의 위험을 가장 크게 발생시킨다.

  - 이상적인 lambda 값은 데이터 의존적이므로 데이터를 튜닝할 필요도 있다.

 ○ L2 regularization과 learning rate

  - GDA에 사용되는 learning rate와 lambda 사이에는 밀접한 관계가 있다.

  - 강한 정규화는 weight를 0에 가깝게 만드는데, 조기 중단을 동반한 낮은 수준의 learning rate도 같은 효과를 나타낸다.

  - 따라서, learning rate와 lambda를 동시에 조정할 경우 혼란스런 상황이 발생할 수도 있다.

  - 조기 중단이란 모델이 완전히 수렴되기 전에 학습을 끝내는 것을 뜻한다. 실제로 online (continuous) 방식의 학습은 수렴에 필요한 데이터가 충분치 않아 학습이 조기에 중단되는 경우가 종종 있다.

  - 고정된 크기의 데이터 배치를 가지고 학습하는 경우 반복 횟수(iterations)를 충분히 높여 조기 중단을 방지하는 것이 해결책이 될 수 있다.