☐ Training Set와 Test Set ○ 데이터 나누기 
○ Never train on test data! - 일반적으로 test set에 대한 예측 정확도는 training set에서의 정확도보다 낮다. - training set와 test set의 examples들이 중복되지 않도록 주의하자. ○ Workflow 
○ learning rate를 낮추면 test loss는 training loss에 가깝게 축소된다. 일반적으로 batch size는 training loss나 test loss에 큰 영향을 주지 않는다.
○ Training 데이터의 비중을 10% 정도로 급격히 낮추면 training set의 데이터 포인트 수도 작아진다. 이렇게 적은 수의 training data에 대해 batch size와 learning rate를 높이면 => the training model jumps around chaotically (jumping repeatedly over the minimum point). |