728x90
반응형

GPT 14

TRL (Transformer Reinforcement Learning)

안녕하세요, MoonLight입니다.​이번 Post에서는 LLM을 Fine-tuning하고 Rreinforcement learning을 적용하는 데 사용되는 도구 모음인 TRL(Transformer Reinforcement Learning)에 대해서 알아보도록 하겠습니다.​ 1. LLM Alignment 필요성 ​2017년 "Attention Is All You Need"라는 논문으로 Transformer라는 구조가 세상에 나왔고, 이 Transformer 구조를 기반으로 하는 LLM들이 방대한 데이터로 비지도 학습(Unsupervised Learning) 방식으로 사전 훈련(Pre-training)되어 광범위한 세계 지식과 추론 능력을 학습하였습니다.​하지만, Pre-training만으로는 LLM..

Deep_Learning 2025.06.07

Downstream in LLM

안녕하세요, MoonLight입니다.​LLM 분야에서 다운스트림(Downstream)은 사전 훈련된(pre-trained) LLM을 특정 목적이나 작업에 맞게 활용하거나 적용하는 모든 후속 단계를 의미합니다.​ 1. LLM의 개발 과정 LLM의 개발 과정을 크게 두 단계로 나누면 업스트림 (Upstream)과정과 다운스트림(Downstream) 과정으로 나눌 수 있습니다. 1.1. 업스트림 (Upstream)사전 훈련 (Pre-training)단계라고 말할 수 있으며, 이 단계에서는 인터넷과 같은 방대한 텍스트 데이터를 사용하여 LLM을 처음부터 학습시키는 단계입니다.​이 단계에서는 모델이 언어 자체의 패턴, 문법, 의미, 상식 등 광범위한 지식을 학습하게 되며, 당연하게도 매우 많은 계산 자원과 ..

Deep_Learning 2025.04.19

LoRA(Low-Rank Adaptation)

안녕하세요, MoonLight입니다.​LoRA(Low-Rank Adaptation)는 LLM을 효율적으로 Fine-Tuning하기 위한 방법 중 하나입니다.마이크로소프트 연구팀이 2021년에 발표한 논문 "LoRA: Low-Rank Adaptation of Large Language Models"에서 처음 소개되었습니다.이번 Post에서는 LoRA의 핵심 Idea와 동작 방식, 장점을 자세히 설명해 드리겠습니다.​   1. LoRA의 배경 OpenAI의 GPT, LLaMa 2, Claude 등과 같은 기반 Model 및 LLM은 텍스트 생성부터 언어 이해에 이르기까지 다양한 애플리케이션 분야에서 혁신적인 발전을 이루었습니다. ​이러한 Model들은 방대한 양의 Parameter를 활용하여 탁월한 성능을 ..

Deep_Learning 2025.04.12

1x1 Convolution

안녕하세요, MoonLight입니다.​이번 Post에서는 1x1 Convolution 연산에 대해서 알아보도록 하겠습니다.​우선 일반적인 Convolution 연산에 대해서 알아본 후 이 글을 읽어주셨으면 좋겠습니다.​Convolution에 대한 글은 아래 Link를 참고해 주시기 바랍니다. https://moonlight314.tistory.com/entry/CNN-Convolutional-Neural-Network CNN ( Convolutional Neural Network )CNN(Convolutional Neural Network)은 주로 Image에 사용되는 Deep Learning Architecture입니다. Image Classification, Object Detection / Segm..

Deep_Learning 2024.06.13

Transformer #5 - Decoder Detail

0. Introduction​안녕하세요, 이번 Post에서는 Transformer의 Decoder에 대해서 자세히 알아보도록 하겠습니다.​Transformer Decoder의 각 부분을 구체적으로 하나씩 알아보도록 하겠습니다.​​​​Encoder에서 살펴본 구조도 몇몇 보이지만, Decoder는 이전의 Decoder 출력을 기반으로 현재 출력을 생성해 내는 자기 회귀적 특징으로 인해 조금씩 다른 부분이 있습니다.​Decoder에서 이런 자기 회귀적인 특징이 가장 많이 반영되어 있는 부분이 Masked Multi-Head Attention 부분이니 먼저 이 부분을 자세히 알아보도록 하겠습니다.​​​​1. Masked Multi-Head Attention​​ ​​​1.0. Shifted Right​Decod..

Deep_Learning 2024.05.23

Transformer #4 - Encoder Detail

안녕하세요, 이번 Post에서는 Transformer의 Encoder에 대해서 자세히 알아보도록 하겠습니다.​Transformer Encoder의 각 부분을 구체적으로 하나씩 알아보도록 하겠습니다.​​0. Tokenizer & Input Embedding Layer​​​​Embedding Layer에 문장 그대로 입력할 수 없기 때문에 문장을 Model이 사용할 수 있는 Vector 형태로 변환해야 합니다.​Tokenizer를 이용해 문장을 Token 단위로 나누고, 나눈 Token을 Embedding Layer에 입력하여 Model이 이해할 수 있는 Vector 형태로 만듭니다.​Transformer는 WordPiece Tokenizer를 사용하여 Token을 나누며, Transformer의 Embed..

Deep_Learning 2024.05.21

코엑스 2024 AI EXPO KOREA

안녕하세요, MoonLight입니다.​어제(5월 1일)부터 COEX에서 2024 AI EXPO KOREA가 진행되고 있습니다.​작년에 이어서 올해도 여전히 생성형 AI / LLM / ChatGPT를 이용한 다양한 서비스를 제공하는 업체들이 많이 보였습니다.​아직도 여전히 대세는 생성형 AI 특히, Text & Image를 융합한 서비스가 많이 등장했고,​가끔씩 영상 및 음성을 이용한 서비스를 개발해서 소개하는 업체들도 많이 눈에 띄었습니다.​행사는 내일까지이니 시간되시면 한 번 가보시는 것을 추천드립니다.        ​ 그 뜨거운 현장, 구경 한 번 해 보세요~ ​​​​​​​​​​​​​​​​​​​​​​​​​​​​​​ ​​​​​​​​​​​​​​​​​​​​​​​​​​​​​​​​​​​​​​​​​​ ​​​​​..

Deep_Learning 2024.05.02

Transformer #3 - Overall

안녕하세요, MoonLight입니다.​이번 Post에서는 Transformer의 전체 구조를 개괄적으로 알아보도록 하겠습니다.​​​ ​​Transformer의 전체 구조의 위와 같습니다. 왼쪽이 Encoder의 구조이고, 오른쪽이 Decoder입니다.​​0. Encoder​먼저 Encoder의 구조에 대해서 간략하게 살펴보겠습니다.​​​0.0. Tokenizer​가장 아래쪽에 Inputs이 있습니다. Transformer에서 Input은 단어들로 이루어진 문장이 되겠죠.​이 그림에서는 생략되어 있는데, Input Embedding Layer에 문장 전체가 들어갈 수는 없기 때문에 그전에 tokenizer를 이용하여, 문장들을 Token 단위로 나눕니다.​Transformer에서는 주로 WordPiece ..

Development Tip 2024.04.29

Transformer #2 - Self Attention

0. Introduction ​ ​ 다른 글에서 Attention Mechanism에 대해서 알아보았습니다. ​ Attention Mechanism에 대해서 자세히 알아보시려면 아래 글을 읽어보시기를 추천드립니다. https://moonlight314.tistory.com/entry/Transformer-1-Attention-Mechanism Transformer #1 - Attention Mechanism 0. Background ​ Attention Mechanism이 나오기 전에는 Seq2Seq Model이 주로 사용되었습니다. ​ Seq2Seq Model은 당시에는 훌륭한 Idea였지만, 치명적인 문제점을 가지고 있었습니다. ​ 그 어떤 입력값이 들어 moonlight314.tistory.com ..

Deep_Learning 2024.04.22

Transformer #1 - Attention Mechanism

0. Background ​ Attention Mechanism이 나오기 전에는 Seq2Seq Model이 주로 사용되었습니다. ​ Seq2Seq Model은 당시에는 훌륭한 Idea였지만, 치명적인 문제점을 가지고 있었습니다. ​ 그 어떤 입력값이 들어오더라도 최종적으로 출력은 고정된 길이의 Vector(Hidden State)가 나온다는 것입니다. ​ 입력 문장이 짧으면 별문제가 안되겠지만, 입력 문장이 길어질수록 그 안에 담긴 내용들, 특히 앞쪽의 단어들은 거의 제대로 표현할 수 없다는 문제가 있었습니다. ​ Attention Mechanism은 이 문제를 개선하기 위해서, Seq2Seq 구조의 각 RNN Cell들의 출력(Hidden State)도 Decoder의 입력으로 사용하자는 Idea에서 ..

Deep_Learning 2024.04.17
728x90
반응형