☐ Regularization for Simplicity: L2 Regularization ○ 정규화(regularization)는 모델의 복잡성(가중치 w)에 대한 페널티이다. - 정규화는 loss function에 regularization term을 추가해서 w가 작아지도록 학습 - 모델을 적당히 단순하게 만들어 over-fitting을 방지하는데 목적이 있다. - 정규화를 하면 데이터가 일반화되어 모델의 예측력이 향상된다. ○ regularization은 features 개수가 상당히 많을 때만 사용한다. ○ regularization의 종류 - L1 regularization, L2 regularization, dropout regularization 등 ○ 아래 generalization curve는 overfitting 상태를 보임 - training loss 는 감소하지만 validation loss 는 확대되고 있음 - L2 regularization을 통해 overfitting을 최소화할 수 있다. 
○ Loss function을 structural risk minimization 형태로 변환 - 단순히 loss를 최소화하는 것은 empirical risk minimization이라고 한다. - 이에 비해 structural risk minimization은 complexity를 추가한 값을 최소화하는 것이다. - empirical risk minimization = minimize(Loss(Data|Model)) - structural risk minimization = minimize(Loss(Data|Model) + complexity(Model)) ○ regularization을 적용하면 loss function에 regularization term이 추가된다. - loss term = Loss(Data|Model) - regularization term = penalty term = complexity(Model) ○ model complexity의 2가지 형태 - as a function of the weights of all the features in the model (L2) · a feature weight with a high absolute value is more complex than a feature weight with a low absolute value - as a function of the total number of features with non-zero weights (L1) ○ 페널티 계산 - the sum of the squares of all the feature weights - L2 regularization term =  · 제곱을 사용하므로 w의 절대 값이 커지면 complexity에 큰 영향을 준다. · 예시) { w1 = 0.2, w2 = 0.5, w3 = 5, w4 = 1, w5 = 0.25, w6 = 0.75 } L2 regularization term = 0.22 + 0.52 + 52 + 12 + 0.252 + 0.752 = 26.915 · 위 예시에서는 w3가 complexity 값의 대부분을 차지한다. 즉 0에 가까운 weight는 모델의 complexity에 거의 영향을 미치지 않지만 가중치의 절대 값이 커질수록 영향도 커짐을 알 수 있다. ○ L1 regularization과 L2 regularization의 차이 L1 regularization | L2 regularization | Lasso regularization이라고도 함 | Ridge regularization이라고도 함 | Robust (w에 둔감) | Not very robust (w에 민감) | weights -> sparsity | weights -> reduced | Unstable solution | Stable solution | Possibly multiple solutions | Always one solution | penalty =  절대 값의 합 | penalty =  제곱의 합 |
- loss function에 추가되는 regularization term(항)이 L1이면 L1 regularization이라 하고 해당 항이 L2이라면 L2 regularization이라고 한다. |