728x90
반응형

rnn 3

Transformer #1 - Attention Mechanism

0. Background ​ Attention Mechanism이 나오기 전에는 Seq2Seq Model이 주로 사용되었습니다. ​ Seq2Seq Model은 당시에는 훌륭한 Idea였지만, 치명적인 문제점을 가지고 있었습니다. ​ 그 어떤 입력값이 들어오더라도 최종적으로 출력은 고정된 길이의 Vector(Hidden State)가 나온다는 것입니다. ​ 입력 문장이 짧으면 별문제가 안되겠지만, 입력 문장이 길어질수록 그 안에 담긴 내용들, 특히 앞쪽의 단어들은 거의 제대로 표현할 수 없다는 문제가 있었습니다. ​ Attention Mechanism은 이 문제를 개선하기 위해서, Seq2Seq 구조의 각 RNN Cell들의 출력(Hidden State)도 Decoder의 입력으로 사용하자는 Idea에서 ..

Deep_Learning 2024.04.17

LSTM ( Long-Short Term Memory )

LSTM은 RNN의 특별한 한 종류로써, 긴 의존기간이 필요한 학습을 할 수 있는 능력이 있습니다. LSTM의 목적은 명확하게 Long-Term Dependency를 제거하고자 Design되었습니다. 이 Post는 아래 Link의 글을 참고하였습니다. Understanding LSTM Networks LONG SHORT-TERM MEMORY 0. LSTM의 기본 구조 위의 구조는 tanh를 Activation Function으로 가지는 RNN의 기본적인 구조입니다. 아래의 그림은 LSTM의 기본 Cell 구조를 나타내고 있습니다. LSTM도 기본적으로 RNN과 유사한 구조를 가지지만, 몇 개의 Layer가 추가되었습니다. 본격적으로 하나씩 살펴보기 전에 기호들의 정의를 살펴보도록 하겠습니다. 1. Cel..

Deep_Learning 2023.08.19

RNN( Recurrent Neural Network )

이번 Post에서는 RNN(Recurrent Neural Network)에 대해서 다루어 보도록 하겠습니다. 주된 내용은 Standford 강의자료(CS231n 강좌 )를 참고하였습니다. Sequence Data는 다음과 같은 특징을 가집니다. 음악 , 영상 , 문장 , 날씨 , 주가 등은 각각의 Data가 개별적이 아닌, 연속적인 Data(Sequence Data)라는 점입니다. 앞쪽의 Data가 뒤쪽의 Data에 영향을 준다는 의미입니다. RNN 이외의 다른 ML / DL 기법이 이런 Sequence Data를 다루려면, Sequence가 가지는 전체적인 흐름을 하나의 Data 형태로 표현해야만 합니다. 그래서, ML(Machine Learning) / NN(Neural Net) / CNN(Convo..

Deep_Learning 2023.08.19
728x90
반응형