adam (1) 썸네일형 리스트형 [Coursera] 6. Opitmization 🥑 Coursera의 "Improving Deep Neural Networks: Hyperparameter Tuning, Regularization and Optimization" 강좌의 내용을 배우면서 개인적으로 정리한 내용입니다. 우리가 일반적으로 사용하는 Gradient Descent은 각 Steop에 모든 Sample m에 대해서 Gradient Steps을 진행한다. 이런 Gradient Descent를 Batch Gradient Descent라고 부른다. Parameters Update Rule for l = 1, ..., L W[l] = W[l] − αdW[l] b[l] = b[l] − αdb[l] L은 Layer의 수, α(lpha)는 Learning Rate이다. 다른 Gradient .. 이전 1 다음