728x90
반응형

Encoder 8

Transformer #5 - Decoder Detail

0. Introduction​안녕하세요, 이번 Post에서는 Transformer의 Decoder에 대해서 자세히 알아보도록 하겠습니다.​Transformer Decoder의 각 부분을 구체적으로 하나씩 알아보도록 하겠습니다.​​​​Encoder에서 살펴본 구조도 몇몇 보이지만, Decoder는 이전의 Decoder 출력을 기반으로 현재 출력을 생성해 내는 자기 회귀적 특징으로 인해 조금씩 다른 부분이 있습니다.​Decoder에서 이런 자기 회귀적인 특징이 가장 많이 반영되어 있는 부분이 Masked Multi-Head Attention 부분이니 먼저 이 부분을 자세히 알아보도록 하겠습니다.​​​​1. Masked Multi-Head Attention​​ ​​​1.0. Shifted Right​Decod..

Deep_Learning 2024.05.23

Transformer #4 - Encoder Detail

안녕하세요, 이번 Post에서는 Transformer의 Encoder에 대해서 자세히 알아보도록 하겠습니다.​Transformer Encoder의 각 부분을 구체적으로 하나씩 알아보도록 하겠습니다.​​0. Tokenizer & Input Embedding Layer​​​​Embedding Layer에 문장 그대로 입력할 수 없기 때문에 문장을 Model이 사용할 수 있는 Vector 형태로 변환해야 합니다.​Tokenizer를 이용해 문장을 Token 단위로 나누고, 나눈 Token을 Embedding Layer에 입력하여 Model이 이해할 수 있는 Vector 형태로 만듭니다.​Transformer는 WordPiece Tokenizer를 사용하여 Token을 나누며, Transformer의 Embed..

Deep_Learning 2024.05.21

Transformer #3 - Overall

안녕하세요, MoonLight입니다.​이번 Post에서는 Transformer의 전체 구조를 개괄적으로 알아보도록 하겠습니다.​​​ ​​Transformer의 전체 구조의 위와 같습니다. 왼쪽이 Encoder의 구조이고, 오른쪽이 Decoder입니다.​​0. Encoder​먼저 Encoder의 구조에 대해서 간략하게 살펴보겠습니다.​​​0.0. Tokenizer​가장 아래쪽에 Inputs이 있습니다. Transformer에서 Input은 단어들로 이루어진 문장이 되겠죠.​이 그림에서는 생략되어 있는데, Input Embedding Layer에 문장 전체가 들어갈 수는 없기 때문에 그전에 tokenizer를 이용하여, 문장들을 Token 단위로 나눕니다.​Transformer에서는 주로 WordPiece ..

Development Tip 2024.04.29

Transformer #2 - Self Attention

0. Introduction ​ ​ 다른 글에서 Attention Mechanism에 대해서 알아보았습니다. ​ Attention Mechanism에 대해서 자세히 알아보시려면 아래 글을 읽어보시기를 추천드립니다. https://moonlight314.tistory.com/entry/Transformer-1-Attention-Mechanism Transformer #1 - Attention Mechanism 0. Background ​ Attention Mechanism이 나오기 전에는 Seq2Seq Model이 주로 사용되었습니다. ​ Seq2Seq Model은 당시에는 훌륭한 Idea였지만, 치명적인 문제점을 가지고 있었습니다. ​ 그 어떤 입력값이 들어 moonlight314.tistory.com ..

Deep_Learning 2024.04.22

Transformer #1 - Attention Mechanism

0. Background ​ Attention Mechanism이 나오기 전에는 Seq2Seq Model이 주로 사용되었습니다. ​ Seq2Seq Model은 당시에는 훌륭한 Idea였지만, 치명적인 문제점을 가지고 있었습니다. ​ 그 어떤 입력값이 들어오더라도 최종적으로 출력은 고정된 길이의 Vector(Hidden State)가 나온다는 것입니다. ​ 입력 문장이 짧으면 별문제가 안되겠지만, 입력 문장이 길어질수록 그 안에 담긴 내용들, 특히 앞쪽의 단어들은 거의 제대로 표현할 수 없다는 문제가 있었습니다. ​ Attention Mechanism은 이 문제를 개선하기 위해서, Seq2Seq 구조의 각 RNN Cell들의 출력(Hidden State)도 Decoder의 입력으로 사용하자는 Idea에서 ..

Deep_Learning 2024.04.17

쉽고 빠르게 익히는 실전 LLM

한빛미디어 '나는 리뷰어다' 활동을 위해서 책을 제공받아 작성된 서평입니다. ​ ​ ​ ​ ChatGPT가 세상에 나오고 LLM의 힘을 보여주면서 사람들은 NLP가 모든 것을 해결해 줄 수 있는 만능의 도구처럼 생각했습니다. ​ 하지만, 실제로 LLM을 이용한 제품이나 서비스를 구현하려고 하면 어디서부터 어떻게 시작해야 할 지 막막할 따름입니다. ​ '쉽고 빠르게 익히는 실전 LLM'은 개발자나 개발자가 아닌 모두에게 LLM의 개념뿐만 아니라, 이를 이용하여 실제로 제품화를 할 수 있도록 안내해주는 훌륭한 가이드입니다. ​ 저자의 이 분야에 대한 오랜 경험을 바탕으로 LLM의 개념에서부터 LLM을 효과적으로 사용하는 데 필요한 모든 정보를 제공합니다. ​ Transformer와 Encoder / Deco..

Book Review 2024.02.17

BERT Text Classification

이번 Post에서는 BERT Model을 이용하여, Text 분류 작업을 해보도록 하겠습니다. 영화 감상평이 긍정적인지 부정적인지 분류해 놓은 Data Set을 이용할 예정입니다. 실제로 사용할 Data Set은 Large Movie Review Dataset 입니다. 0. About BERT BERT 및 기타 Transformer Encoder Architecture는 Natural Language Process의 다양한 분야에서 좋은 성능을 보여주고 있습니다. BERT or Transformer Encoder는 Natural Language Process의 다양한 분야에 사용할 수 있는 Vector Space를 계산해 줍니다. BERT(Bidirectional Encoder Representation..

Deep_Learning 2023.08.29

Sequence-to-sequence Model ( Encoder / Decoder Model )

1. Introduction Sequence-to-sequence Model은 Machine Translation , Text Summarization , Image Captioning에서 두각을 나타내는 Deep Learning Model입니다. 2014년 Google에 의해서 소개되었습니다.(논문, https://arxiv.org/pdf/1409.3215.pdf) Sequence-to-sequence Model은 Sequence Data를 Input으로 받아서, Sequence Data로 Mapping해 주는 Model입니다. ( Many-To-Many) 흔히, Encoder-Decoder Model이라고도 하는데, Sequence Data를 Encoder에서 Input Sequence Data의 정..

Deep_Learning 2023.08.19
728x90
반응형