사용안내 및 노트

홈으로/사용안내 및 노트
제목009. Reducing Loss - Gradient Descent2020-07-12 20:08:36
작성자

☐ Reducing Loss - Gradient Descent

 ○ Regression 모델의 loss vs wi 그래프(loss curve)는 convex 형태를 보임

  - Convex 그래프의 특징

   · 1개의 minimum이 존재함

   · minimum에서의 Slope = 0

   · minimum = Converging point

 ○ Convex 그래프의 특징을 감안하면

  - 그래프의 어느 지점에서 시작하건 하강 시 유일한 converging point에 도달하기 때문에 모든 weight 값에 대해 loss function을 수행할 필요는 없다.

  - 이렇게 하강하며 converging point를 찾는 방법을 ‘GDA, Gradient Descent Algorithm’ 이라고 한다.

   · GDA는 simple regression과 multivariable regression 모두에 사용할 수 있다.

 ○ GDA 수행 1단계 : 초기 값 (starting value) 선택하기

  - Convex curve에서는 어느 곳을 시작점으로 선택해도 된다.

 ○ GDA 수행 2단계 : starting point에서 slope 구하기

  - slope를 ‘gradient’ 또는 ‘derivative’ 라고 한다.

  - gradient는 진행해야 할 방향을 알려준다.

   · warmer or colder?

  - 편미분(partial derivative)의 벡터인 gradient는 tensorflow가 계산을 해주므로 굳이 공식을 암기하거나 이해할 필요는 없다.

   · 예측에 대한 weight와 bias의 영향을 각각 측정해야 하므로 편미분을 사용한다.

 ○ GDA 수행 3단계 : 방향을 정하고 이동하기

  - gradient는 벡터이므로 방향과 크기를 가지고 있다.

   · gradient의 방향은 언제나 “to the steepest increase in the loss function”이다.

   · 그러므로 하강을 하려면 gradient의 반대 방향으로 이동해야 한다.