본문 바로가기

728x90
반응형

AI/Coursera

(8)
[Coursera] 8. Softmax 🥑 Coursera의 "Improving Deep Neural Networks: Hyperparameter Tuning, Regularization and Optimization" 강좌의 내용을 배우면서 개인적으로 정리한 내용입니다. Softmax는 주어진 벡터를 다른 벡터로 변환하는 함수로, 일반적으로 다중 클래스 분류 문제에서 출력 확률 형태로 표현하기 위해 사용된다. 입력 벡터의 각 요소를 0 ~ 1 사이의 값으로 변환하며, 모든 요소의 합이 1이 되도록 정규화 한다. 계산 방법 지수 함수를 사용하여 입력 값을 확률 값으로 변환 한다. 입력 벡터 x에 대해 출력 y는 다음 과같이 계산 (yi는 출력 벡터의 i번째 요소, xi는 입력 벡터의 i번째 요소, N은 벡터의 차원 수) 예시 Input vec..
[Coursera] 7. Hyperparameter tuning, Batch Normalization 🥑 Coursera의 "Improving Deep Neural Networks: Hyperparameter Tuning, Regularization and Optimization" 강좌의 내용을 배우면서 개인적으로 정리한 내용입니다. Hyperparameter Tuning 하이퍼파라미터는 파라미터와 구분하여 사용자가 딥러닝을 위해 설정하는 값들을 모두 지칭한다. 하이퍼파라미터는 다양하게 존재하지만 중요성은 다르다고 할 수 있다. Adam의 B1, B2, e은 거의 변경하지 않고 기본값을 사용한다.(거의 중요하지 않음...) hidden units, mini-batch size 등은 데이터 크기와 종류에 따라 설정해야한다.(중요!) 이런 하이퍼파라미터 값은 튜닝하려고 할 때, 하이퍼파라미터는 어떻게 설정해..
[Coursera] 6. Opitmization 🥑 Coursera의 "Improving Deep Neural Networks: Hyperparameter Tuning, Regularization and Optimization" 강좌의 내용을 배우면서 개인적으로 정리한 내용입니다. 우리가 일반적으로 사용하는 Gradient Descent은 각 Steop에 모든 Sample m에 대해서 Gradient Steps을 진행한다. 이런 Gradient Descent를 Batch Gradient Descent라고 부른다. Parameters Update Rule for l = 1, ..., L W[l] = W[l] − αdW[l] b[l] = b[l] − αdb[l]​ L은 Layer의 수, α(lpha)는 Learning Rate이다. 다른 Gradient ..
[Coursera] 5. Optimization Problem 🥑 Coursera의 "Improving Deep Neural Networks: Hyperparameter Tuning, Regularization and Optimization" 강좌의 내용을 배우면서 개인적으로 정리한 내용입니다. Normalizing Inputs 학습 속도를 높일 수 있는 방법 중 하나는 Input을 Normalization하는 것이다. 왜 Normalize를 할까? Normalize된 J 그래프와 되지 않은 J그래프를 살펴보자. Normalize 되지 않은 J그래프는 J을 업데이트할 때 많은 단계를 거쳐야 한다. 그러나 Normalize된 J 그래프를 보면 대칭적인 형상을 띄기 때문에 J를 업데이트할 때 비교적 적은 단계를 거친다. 이 두 그래프의 contour(윤곽) 그래프를 그..
[Coursera] 4. Practical Aspects of Deep Learning 🥑 Coursera의 "Improving Deep Neural Networks: Hyperparameter Tuning, Regularization and Optimization" 강좌의 내용을 배우면서 개인적으로 정리한 내용입니다. Train/Dev/Test 처음 딥러닝 모델을 구현할 때 한번에 적절한 하이퍼 파라미터 값을 찾는 것은 거의 불가능하다. 그래서 반복적인 과정을 통해 값을 수정하며 적절한 하이퍼 파라미터 값을 찾아야한다. 이 반복 과정에서 가장 중요한것은 반복 과정을 얼마나 효율적으로 하느냐이다. 우리는 Data를 Train/Dev/Test Set 총 3개의 그룹으로 분리하고 적절히 설정하면 효율적으로 수행할 수 있다. Training Set 학습 알고리즘을 계속 수행한다. Dev or C..

728x90
반응형