☐ Logistic Regression: Calculating a Probability ○ Logistic Regression is a method to predict a the probability of a categorical dependent variable, given a set of independent variables. ○ logistic regression은 classification(분류) 문제에서 sigmoid 함수를 선형 예측에 적용하여 각 label의 발생 확률을 구한다. 주로 binary 분류 (Pass/Fail) 문제에 사용되지만 multi-class 분류 (Cats, Dogs, Sheep) 또는 ordinal 분류 (Low, Medium, High) 문제에도 사용할 수 있다. 
○ logistic regression를 이용해 구한 확률 값은 2가지 방식으로 사용할 수 있다. - 현재 상태 (“As is”) 그대로 사용 · 월요일에 비가 올 확률을 구하는 logistic regression 모델이 있다고 하자. · 해당 확률은 p(rain | Monday) 라고 표현할 수 있다. · 만일 logistic regression 모델이 p(rain | Monday)을 0.09로 계산했다면 1년 동안 (54주) 월요일에 우산이 필요한 경우는 약 5회가 될 것이다. umbrella = p(rain | Monday) * weeks 5 ~= 0.09 * 54 |
- 바이너리 카테고리로 변환 후 사용 · “As is”와 달리, logistic regression 모델이 구한 확률 값을 binary 형태 (예: Pass/Fail)로 변환해야 하는 경우도 많다. · logistic regression 모델이 구하는 값을 0와 1사이로 변환한다면 0이 발생할 확률과 1이 발생할 확률을 쉽게 구할 수 있을 것이다. · 이때 사용하는 함수가 sigmoid function이다. 어떤 x값을 사용하더라도 y값은 0과 1 사이에 위치한다. 
○ 위 그래프에서 z은 logistic regression 모델이 구한 값이다. 이 값을 sigmoid(z)에 대입하면 0과 1 사이의 확률이 구해지며 수학적으로 다음처럼 표현된다. 
- y′ : 특정 example에 대해 sigmoid function을 이용한 logistic regression 모델이 도출한 값 - z : b + w1x1 + w2x2 + ... wNxN · w : 모델의 학습 weights · b : bias
· x : 해당 example의 feature values |