사용안내 및 노트

홈으로/사용안내 및 노트
제목028. Logistic Regression: Loss and Regularization2021-01-17 21:45:01
작성자

☐ Logistic Regression: Loss and Regularization

 ○ Logistic Regression의 Loss Function은 Log Loss를 사용한다.

※ [참고] Log Loss 방정식은 정보 이론에서 말하는 섀넌의 엔트로피 측정과 밀접한 관련이 있다. 또한 우도 함수의 음의 로그로 y의 Bernoulli 분포를 가정한다. 실제로 손실 함수를 최소화하면 최대 우도 추정치가 생성된다.

※ [복기] Linear Regression의 Loss Function은 L2 Loss (Squared Loss)와 Mean Square Error (MSE)가 있다.

 ○ Logistic Regression의 Regularization

  - logistic regression modeling에서 regularization은 매우 중요하다.

   · regularization을 사용하지 않는 경우에는 logistic regression의 asymptotic nature (함수나 값이 다른 값에 무한히 가까워지는 성질)가 고차원에서 계속 loss를 0으로 만들려고 시도한다.

  - 대부분의 logistic regression models은 모델의 복잡성을 줄이기 위해 다음 두 방법 중 하나를 사용한다.

   · L2 regularization

   · Early stopping (조기 중단) - training steps 또는 learning rate 제한

  - 각 example에 고유 ID를 할당하고 ID를 자신의 feature에 매핑할 때 regularization function을 가동하지 않으면 모델은 결국 과-체적화될 것이다. 모델은 loss를 0으로 만들려고 하지만 그에 도달하지 못하고 weights는 +무한대 또는 -무한대로 확장하기 때문이다. 각 example에서 한번만 발생하는 드문 crosses가 많은 경우(원문: when there’s a huge mass of rare crosses that happen only on one example each), feature crosses가 포함된 고차원 데이터에서 이런 상태가 발생할 수 있다.

   · L2 regularization 이나 Early stopping을 사용하면 위 문제를 해결할 수 있다.