사용안내 및 노트

홈으로/사용안내 및 노트
제목027. Logistic Regression: Calculating a Probability2021-01-10 12:02:54
작성자

☐ Logistic Regression: Calculating a Probability

 ○ Logistic Regression is a method to predict a the probability of a categorical dependent variable, given a set of independent variables.

 ○ logistic regression은 classification(분류) 문제에서 sigmoid 함수를 선형 예측에 적용하여 각 label의 발생 확률을 구한다. 주로 binary 분류 (Pass/Fail) 문제에 사용되지만 multi-class 분류 (Cats, Dogs, Sheep) 또는 ordinal 분류 (Low, Medium, High) 문제에도 사용할 수 있다.

 ○ logistic regression를 이용해 구한 확률 값은 2가지 방식으로 사용할 수 있다.

  - 현재 상태 (“As is”) 그대로 사용

   · 월요일에 비가 올 확률을 구하는 logistic regression 모델이 있다고 하자.

   · 해당 확률은 p(rain | Monday) 라고 표현할 수 있다.

   · 만일 logistic regression 모델이 p(rain | Monday)을 0.09로 계산했다면 1년 동안 (54주) 월요일에 우산이 필요한 경우는 약 5회가 될 것이다.

umbrella = p(rain | Monday) * weeks

5 ~= 0.09 * 54

  - 바이너리 카테고리로 변환 후 사용

   · “As is”와 달리, logistic regression 모델이 구한 확률 값을 binary 형태 (예: Pass/Fail)로 변환해야 하는 경우도 많다.

   · logistic regression 모델이 구하는 값을 0와 1사이로 변환한다면 0이 발생할 확률과 1이 발생할 확률을 쉽게 구할 수 있을 것이다.

   · 이때 사용하는 함수가 sigmoid function이다. 어떤 x값을 사용하더라도 y값은 0과 1 사이에 위치한다.

 ○ 위 그래프에서 z은 logistic regression 모델이 구한 값이다. 이 값을 sigmoid(z)에 대입하면 0과 1 사이의 확률이 구해지며 수학적으로 다음처럼 표현된다.

  - y′ : 특정 example에 대해 sigmoid function을 이용한 logistic regression 모델이 도출한 값

  - z : b + w1x1 + w2x2 + ... wNxN

   · w : 모델의 학습 weights

   · b : bias

   · x : 해당 example의 feature values