'GPT' 태그의 글 목록

TRL (Transformer Reinforcement Learning)

안녕하세요, MoonLight입니다.이번 Post에서는 LLM을 Fine-tuning하고 Rreinforcement learning을 적용하는 데 사용되는 도구 모음인 TRL(Transformer Reinforcement Learning)에 대해서 알아보도록 하겠습니다. 1. LLM Alignment 필요성 2017년 "Attention Is All You Need"라는 논문으로 Transformer라는 구조가 세상에 나왔고, 이 Transformer 구조를 기반으로 하는 LLM들이 방대한 데이터로 비지도 학습(Unsupervised Learning) 방식으로 사전 훈련(Pre-training)되어 광범위한 세계 지식과 추론 능력을 학습하였습니다.하지만, Pre-training만으로는 LLM..

Deep_Learning 2025.06.07

Downstream in LLM

안녕하세요, MoonLight입니다.LLM 분야에서 다운스트림(Downstream)은 사전 훈련된(pre-trained) LLM을 특정 목적이나 작업에 맞게 활용하거나 적용하는 모든 후속 단계를 의미합니다. 1. LLM의 개발 과정 LLM의 개발 과정을 크게 두 단계로 나누면 업스트림 (Upstream)과정과 다운스트림(Downstream) 과정으로 나눌 수 있습니다. 1.1. 업스트림 (Upstream)사전 훈련 (Pre-training)단계라고 말할 수 있으며, 이 단계에서는 인터넷과 같은 방대한 텍스트 데이터를 사용하여 LLM을 처음부터 학습시키는 단계입니다.이 단계에서는 모델이 언어 자체의 패턴, 문법, 의미, 상식 등 광범위한 지식을 학습하게 되며, 당연하게도 매우 많은 계산 자원과 ..

Deep_Learning 2025.04.19

LoRA(Low-Rank Adaptation)

안녕하세요, MoonLight입니다.LoRA(Low-Rank Adaptation)는 LLM을 효율적으로 Fine-Tuning하기 위한 방법 중 하나입니다.마이크로소프트 연구팀이 2021년에 발표한 논문 "LoRA: Low-Rank Adaptation of Large Language Models"에서 처음 소개되었습니다.이번 Post에서는 LoRA의 핵심 Idea와 동작 방식, 장점을 자세히 설명해 드리겠습니다. 1. LoRA의 배경 OpenAI의 GPT, LLaMa 2, Claude 등과 같은 기반 Model 및 LLM은 텍스트 생성부터 언어 이해에 이르기까지 다양한 애플리케이션 분야에서 혁신적인 발전을 이루었습니다. 이러한 Model들은 방대한 양의 Parameter를 활용하여 탁월한 성능을 ..

Deep_Learning 2025.04.12

1x1 Convolution

안녕하세요, MoonLight입니다.이번 Post에서는 1x1 Convolution 연산에 대해서 알아보도록 하겠습니다.우선 일반적인 Convolution 연산에 대해서 알아본 후 이 글을 읽어주셨으면 좋겠습니다.Convolution에 대한 글은 아래 Link를 참고해 주시기 바랍니다. https://moonlight314.tistory.com/entry/CNN-Convolutional-Neural-Network CNN ( Convolutional Neural Network )CNN(Convolutional Neural Network)은 주로 Image에 사용되는 Deep Learning Architecture입니다. Image Classification, Object Detection / Segm..

Deep_Learning 2024.06.13

Transformer #5 - Decoder Detail

0. Introduction안녕하세요, 이번 Post에서는 Transformer의 Decoder에 대해서 자세히 알아보도록 하겠습니다.Transformer Decoder의 각 부분을 구체적으로 하나씩 알아보도록 하겠습니다.Encoder에서 살펴본 구조도 몇몇 보이지만, Decoder는 이전의 Decoder 출력을 기반으로 현재 출력을 생성해 내는 자기 회귀적 특징으로 인해 조금씩 다른 부분이 있습니다.Decoder에서 이런 자기 회귀적인 특징이 가장 많이 반영되어 있는 부분이 Masked Multi-Head Attention 부분이니 먼저 이 부분을 자세히 알아보도록 하겠습니다.1. Masked Multi-Head Attention 1.0. Shifted RightDecod..

Deep_Learning 2024.05.23

Transformer #4 - Encoder Detail

안녕하세요, 이번 Post에서는 Transformer의 Encoder에 대해서 자세히 알아보도록 하겠습니다.Transformer Encoder의 각 부분을 구체적으로 하나씩 알아보도록 하겠습니다.0. Tokenizer & Input Embedding LayerEmbedding Layer에 문장 그대로 입력할 수 없기 때문에 문장을 Model이 사용할 수 있는 Vector 형태로 변환해야 합니다.Tokenizer를 이용해 문장을 Token 단위로 나누고, 나눈 Token을 Embedding Layer에 입력하여 Model이 이해할 수 있는 Vector 형태로 만듭니다.Transformer는 WordPiece Tokenizer를 사용하여 Token을 나누며, Transformer의 Embed..

Deep_Learning 2024.05.21

코엑스 2024 AI EXPO KOREA

안녕하세요, MoonLight입니다.어제(5월 1일)부터 COEX에서 2024 AI EXPO KOREA가 진행되고 있습니다.작년에 이어서 올해도 여전히 생성형 AI / LLM / ChatGPT를 이용한 다양한 서비스를 제공하는 업체들이 많이 보였습니다.아직도 여전히 대세는 생성형 AI 특히, Text & Image를 융합한 서비스가 많이 등장했고,가끔씩 영상 및 음성을 이용한 서비스를 개발해서 소개하는 업체들도 많이 눈에 띄었습니다.행사는 내일까지이니 시간되시면 한 번 가보시는 것을 추천드립니다. 그 뜨거운 현장, 구경 한 번 해 보세요~ ..

Deep_Learning 2024.05.02

Transformer #3 - Overall

안녕하세요, MoonLight입니다.이번 Post에서는 Transformer의 전체 구조를 개괄적으로 알아보도록 하겠습니다. Transformer의 전체 구조의 위와 같습니다. 왼쪽이 Encoder의 구조이고, 오른쪽이 Decoder입니다.0. Encoder먼저 Encoder의 구조에 대해서 간략하게 살펴보겠습니다.0.0. Tokenizer가장 아래쪽에 Inputs이 있습니다. Transformer에서 Input은 단어들로 이루어진 문장이 되겠죠.이 그림에서는 생략되어 있는데, Input Embedding Layer에 문장 전체가 들어갈 수는 없기 때문에 그전에 tokenizer를 이용하여, 문장들을 Token 단위로 나눕니다.Transformer에서는 주로 WordPiece ..

Development Tip 2024.04.29

Transformer #2 - Self Attention

0. Introduction 다른 글에서 Attention Mechanism에 대해서 알아보았습니다. Attention Mechanism에 대해서 자세히 알아보시려면 아래 글을 읽어보시기를 추천드립니다. https://moonlight314.tistory.com/entry/Transformer-1-Attention-Mechanism Transformer #1 - Attention Mechanism 0. Background Attention Mechanism이 나오기 전에는 Seq2Seq Model이 주로 사용되었습니다. Seq2Seq Model은 당시에는 훌륭한 Idea였지만, 치명적인 문제점을 가지고 있었습니다. 그 어떤 입력값이 들어 moonlight314.tistory.com ..

Deep_Learning 2024.04.22

Transformer #1 - Attention Mechanism

0. Background Attention Mechanism이 나오기 전에는 Seq2Seq Model이 주로 사용되었습니다. Seq2Seq Model은 당시에는 훌륭한 Idea였지만, 치명적인 문제점을 가지고 있었습니다. 그 어떤 입력값이 들어오더라도 최종적으로 출력은 고정된 길이의 Vector(Hidden State)가 나온다는 것입니다. 입력 문장이 짧으면 별문제가 안되겠지만, 입력 문장이 길어질수록 그 안에 담긴 내용들, 특히 앞쪽의 단어들은 거의 제대로 표현할 수 없다는 문제가 있었습니다. Attention Mechanism은 이 문제를 개선하기 위해서, Seq2Seq 구조의 각 RNN Cell들의 출력(Hidden State)도 Decoder의 입력으로 사용하자는 Idea에서 ..

Deep_Learning 2024.04.17

GPT 14

티스토리툴바

« 2025/06 »
일	월	화	수	목	금	토
1	2	3	4	5	6	7
8	9	10	11	12	13	14
15	16	17	18	19	20	21
22	23	24	25	26	27	28
29	30