본문 바로가기

728x90
반응형

AI/딥러닝(Deep Learning)

(12)
[딥러닝/DL] Loss Function 일반적으로 손실함수(Loss Function)은 딥러닝에서 모델의 출력값과 사용자가 원하는 출력값의 오차를 의미한다. 이 Loss Function을 통해 모델을 원하는 방향으로 학습할 수 있다. Loss Function은 많이 사용되는 MSE, MAE, R2, Cross Entropy 같은 것들도 있고 사용자가 정의하여 커스텀 Loss Function을 만들어 사용할 수도 있다. 이 방법은 특정 모델을 학습하는 방법론에서 적용할 수 있다.  MSE(Mean Squared Error)예측한 값과 실제값 사이의 평균 제곱 오차를 정의한다. 공식이 매우 간단하고, 주로 회귀 문제에 사용된다.오차의 제곱을 평균 낸것이기 때문에 큰 오차에 대해 더 많은 패널티를 부여한다.  MAE(Mean Absolute Err..
[딥러닝/DL] Attention Attention을 알기위해서는 seq2seq model에 대해 알아야한다. seq2seq(Sequence-to-Sequence) Model 한 시퀀스를 다른 시퀀스로 변환 하는 작업을 수행하는 딥러닝 모델로 주로 NLP 분야에서 활용된다. 이 모델은 Encoder와 Decoder라는 모듈을 가지고 있다. 이 두 모듈이 협력하여 입력 시퀀스를 원하는 출력 시퀀스로 변환한다. Encoder 일반적으로 RNN, LSTM, GRU 등의 순환 신경망 구조를 사용하여 입력 시퀀스를 고정 길이의 벡터로 변환하는 역할을 수행한다. Encoder는 입력 시퀀스의 단어를 순차적으로 처리하면서 각 단계에서 hidden state를 업데이트하고, 최종적으로 전체 입력 시퀀스를 대표하는 고정 길이의 벡터를 생성한다. 임의의 ..
[딥러닝/DL] Loss Surface 신경망을 훈련한다는 것은 고차원의 Loss Function에서 파라미터를 업데이트하면서 Global Optima를 찾아가는 과정이다. 신경망의 Loss Function은 고차원 함수이기 때문에, 신경망이 어떻게 학습되고 있는지 직관적으로 알기 어렵다. 하지만, 고차원의 목적 함수를 사람이 이해할 수 있는 3차원 공간에 표현함으로써, 신경망의 훈련 과정을 더 잘 이해할 수 있고 신경망 설계에 필요한 인사이트를 얻을 수 있다. Loss Surface는 모델의 Loss Fuction이 그래프로 표현된 것이다. Loss Function은 모델을 최적화하는 데 사용된다. 따라서 Loss Surface는 모델의 성능과 최적화 과정에 매우 중요한 역할을 한다. Loss Surface 만드는 법 Loss Surfac..
[딥러닝/DL]9. LSTM과 GRU 셀 Pupbani는 저번에 만든 순환 신경망의 성능을 더 끌어 올리기 위한 방법을 찾던 중 LSTM과 GRU 셀을 알게 되었다. Pupbani는 이것들을 사용해 순환 신경망 모델을 만들어보려고 한다. LSTM 구조 LSTM(Long Short-Term Memory)는 단기 기억을 오래 기억하기 위해 고안되었다. LSTM은 구조가 복잡하므로 딘계적으로 따라가보자. 은닉상태 만들기 입력과 이전 타임스텝의 은닉 상태를 가중치에 곱한 후 활성화 함수를 통과 시켜 다음 은닉 상태를 만든다. 이 때 기본 순환층과 달리 "Sigmoid" 함수를 활성화 함수로 사용한다. 이 그림에서는 가중치 wx와 wh를 통틀어 wo(입력과 은닉상태를 가중치에 곱한 값)라고 부른다. 파란색 원은 tanh 함수, 빨간색 원은 시그모이드 함..
[딥러닝/DL]8. 순환 신경망으로 IMDB리뷰 분류하기 이전 글에서는 순환 신경망의 개념과 동작 원리를 알아봤다. 이제 이 순환 신경망을 사용해 IMDB리뷰 데이터를 분류해보자. ※ 자연어 처리(NLP,Natural Language Processing) 컴퓨터를 사용해 인간의 언어를 처리하는 분야이다. 대표적으로 음성 인식, 기계 번역, 감성 분성(IMDB리뷰 분석) 등이 있다. 훈련 데이터를 종종 말뭉치(corpus)라고 부른다. IMDB리뷰 데이터 세트 유명한 인터넷 영화 DB인 imdb.com에서 수집한 리뷰를 감상평에 따라 긍정/부정으로 분류해 놓은 데이터 셋이다. 총 50,000개의 샘플로 이루어져 있다. 훈련/테스트 세트 데이터는 각각 25,000개씩 나누어져 있다. 긍정/부정 리뷰 데이터는 각각 25,000개씩 나누어져 있다. 신경망에 텍스트를 ..

728x90
반응형