사용안내 및 노트

홈으로/사용안내 및 노트
제목011. Reducing Loss – 배치 사이즈별 Gradient Descent 종류2020-08-08 22:17:44
작성자

☐ Reducing Loss – 배치 사이즈별 Gradient Descent 종류

 ○ 배치(batch)는 모델 학습의 반복(iteration) 1회, 즉 경사(gradient) 갱신 1회에 사용되는 examples의 집합을 말한다.

  - 배치 사이즈(batch size): 배치 하나에 포함되는 examples의 개수

   · 학습 및 추론 중에 배치 크기는 일반적으로 고정되지만, tensorflow는 동적 배치 사이즈를 허용한다.

 ○ stochastic gradient descent

  - 배치 사이즈가 1개인 gradient descent 알고리즘

  - 각 단계에서 gradient 추정치를 계산하기 위해 데이터 세트에서 무작위로 선택한 single example을 사용

  - 전체를 대변하기 힘듦

 ○ mini-batch stochastic gradient descent

  - mini-batch를 사용하는 GDA

  - 학습 데이터의 부분 집합을 기반으로 gradient 추정

  - 반복할 때마다 10~1,000개 정도의 랜덤 examples을 배치로 사용

  - stochastic gradient descent보다 노이즈 감소

  - Full-batch보다 효율적임

  - Vanilla SGD는 size가 1개인 미니 배치를 사용

 ○ Full-batch Iteration

  - 전체 examples을 배치로 사용하므로 비효율적임