728x90
반응형

decoder 6

Transformer #5 - Decoder Detail

0. Introduction​안녕하세요, 이번 Post에서는 Transformer의 Decoder에 대해서 자세히 알아보도록 하겠습니다.​Transformer Decoder의 각 부분을 구체적으로 하나씩 알아보도록 하겠습니다.​​​​Encoder에서 살펴본 구조도 몇몇 보이지만, Decoder는 이전의 Decoder 출력을 기반으로 현재 출력을 생성해 내는 자기 회귀적 특징으로 인해 조금씩 다른 부분이 있습니다.​Decoder에서 이런 자기 회귀적인 특징이 가장 많이 반영되어 있는 부분이 Masked Multi-Head Attention 부분이니 먼저 이 부분을 자세히 알아보도록 하겠습니다.​​​​1. Masked Multi-Head Attention​​ ​​​1.0. Shifted Right​Decod..

Deep_Learning 2024.05.23

Transformer #4 - Encoder Detail

안녕하세요, 이번 Post에서는 Transformer의 Encoder에 대해서 자세히 알아보도록 하겠습니다.​Transformer Encoder의 각 부분을 구체적으로 하나씩 알아보도록 하겠습니다.​​0. Tokenizer & Input Embedding Layer​​​​Embedding Layer에 문장 그대로 입력할 수 없기 때문에 문장을 Model이 사용할 수 있는 Vector 형태로 변환해야 합니다.​Tokenizer를 이용해 문장을 Token 단위로 나누고, 나눈 Token을 Embedding Layer에 입력하여 Model이 이해할 수 있는 Vector 형태로 만듭니다.​Transformer는 WordPiece Tokenizer를 사용하여 Token을 나누며, Transformer의 Embed..

Deep_Learning 2024.05.21

Transformer #3 - Overall

안녕하세요, MoonLight입니다.​이번 Post에서는 Transformer의 전체 구조를 개괄적으로 알아보도록 하겠습니다.​​​ ​​Transformer의 전체 구조의 위와 같습니다. 왼쪽이 Encoder의 구조이고, 오른쪽이 Decoder입니다.​​0. Encoder​먼저 Encoder의 구조에 대해서 간략하게 살펴보겠습니다.​​​0.0. Tokenizer​가장 아래쪽에 Inputs이 있습니다. Transformer에서 Input은 단어들로 이루어진 문장이 되겠죠.​이 그림에서는 생략되어 있는데, Input Embedding Layer에 문장 전체가 들어갈 수는 없기 때문에 그전에 tokenizer를 이용하여, 문장들을 Token 단위로 나눕니다.​Transformer에서는 주로 WordPiece ..

Development Tip 2024.04.29

Transformer #1 - Attention Mechanism

0. Background ​ Attention Mechanism이 나오기 전에는 Seq2Seq Model이 주로 사용되었습니다. ​ Seq2Seq Model은 당시에는 훌륭한 Idea였지만, 치명적인 문제점을 가지고 있었습니다. ​ 그 어떤 입력값이 들어오더라도 최종적으로 출력은 고정된 길이의 Vector(Hidden State)가 나온다는 것입니다. ​ 입력 문장이 짧으면 별문제가 안되겠지만, 입력 문장이 길어질수록 그 안에 담긴 내용들, 특히 앞쪽의 단어들은 거의 제대로 표현할 수 없다는 문제가 있었습니다. ​ Attention Mechanism은 이 문제를 개선하기 위해서, Seq2Seq 구조의 각 RNN Cell들의 출력(Hidden State)도 Decoder의 입력으로 사용하자는 Idea에서 ..

Deep_Learning 2024.04.17

쉽고 빠르게 익히는 실전 LLM

한빛미디어 '나는 리뷰어다' 활동을 위해서 책을 제공받아 작성된 서평입니다. ​ ​ ​ ​ ChatGPT가 세상에 나오고 LLM의 힘을 보여주면서 사람들은 NLP가 모든 것을 해결해 줄 수 있는 만능의 도구처럼 생각했습니다. ​ 하지만, 실제로 LLM을 이용한 제품이나 서비스를 구현하려고 하면 어디서부터 어떻게 시작해야 할 지 막막할 따름입니다. ​ '쉽고 빠르게 익히는 실전 LLM'은 개발자나 개발자가 아닌 모두에게 LLM의 개념뿐만 아니라, 이를 이용하여 실제로 제품화를 할 수 있도록 안내해주는 훌륭한 가이드입니다. ​ 저자의 이 분야에 대한 오랜 경험을 바탕으로 LLM의 개념에서부터 LLM을 효과적으로 사용하는 데 필요한 모든 정보를 제공합니다. ​ Transformer와 Encoder / Deco..

Book Review 2024.02.17

Sequence-to-sequence Model ( Encoder / Decoder Model )

1. Introduction Sequence-to-sequence Model은 Machine Translation , Text Summarization , Image Captioning에서 두각을 나타내는 Deep Learning Model입니다. 2014년 Google에 의해서 소개되었습니다.(논문, https://arxiv.org/pdf/1409.3215.pdf) Sequence-to-sequence Model은 Sequence Data를 Input으로 받아서, Sequence Data로 Mapping해 주는 Model입니다. ( Many-To-Many) 흔히, Encoder-Decoder Model이라고도 하는데, Sequence Data를 Encoder에서 Input Sequence Data의 정..

Deep_Learning 2023.08.19
728x90
반응형