728x90
반응형

GPT 13

Downstream in LLM

안녕하세요, MoonLight입니다.​LLM 분야에서 다운스트림(Downstream)은 사전 훈련된(pre-trained) LLM을 특정 목적이나 작업에 맞게 활용하거나 적용하는 모든 후속 단계를 의미합니다.​ 1. LLM의 개발 과정 LLM의 개발 과정을 크게 두 단계로 나누면 업스트림 (Upstream)과정과 다운스트림(Downstream) 과정으로 나눌 수 있습니다. 1.1. 업스트림 (Upstream)사전 훈련 (Pre-training)단계라고 말할 수 있으며, 이 단계에서는 인터넷과 같은 방대한 텍스트 데이터를 사용하여 LLM을 처음부터 학습시키는 단계입니다.​이 단계에서는 모델이 언어 자체의 패턴, 문법, 의미, 상식 등 광범위한 지식을 학습하게 되며, 당연하게도 매우 많은 계산 자원과 ..

Deep_Learning 2025.04.19

LoRA(Low-Rank Adaptation)

안녕하세요, MoonLight입니다.​LoRA(Low-Rank Adaptation)는 LLM을 효율적으로 Fine-Tuning하기 위한 방법 중 하나입니다.마이크로소프트 연구팀이 2021년에 발표한 논문 "LoRA: Low-Rank Adaptation of Large Language Models"에서 처음 소개되었습니다.이번 Post에서는 LoRA의 핵심 Idea와 동작 방식, 장점을 자세히 설명해 드리겠습니다.​   1. LoRA의 배경 OpenAI의 GPT, LLaMa 2, Claude 등과 같은 기반 Model 및 LLM은 텍스트 생성부터 언어 이해에 이르기까지 다양한 애플리케이션 분야에서 혁신적인 발전을 이루었습니다. ​이러한 Model들은 방대한 양의 Parameter를 활용하여 탁월한 성능을 ..

Deep_Learning 2025.04.12

1x1 Convolution

안녕하세요, MoonLight입니다.​이번 Post에서는 1x1 Convolution 연산에 대해서 알아보도록 하겠습니다.​우선 일반적인 Convolution 연산에 대해서 알아본 후 이 글을 읽어주셨으면 좋겠습니다.​Convolution에 대한 글은 아래 Link를 참고해 주시기 바랍니다. https://moonlight314.tistory.com/entry/CNN-Convolutional-Neural-Network CNN ( Convolutional Neural Network )CNN(Convolutional Neural Network)은 주로 Image에 사용되는 Deep Learning Architecture입니다. Image Classification, Object Detection / Segm..

Deep_Learning 2024.06.13

Transformer #5 - Decoder Detail

0. Introduction​안녕하세요, 이번 Post에서는 Transformer의 Decoder에 대해서 자세히 알아보도록 하겠습니다.​Transformer Decoder의 각 부분을 구체적으로 하나씩 알아보도록 하겠습니다.​​​​Encoder에서 살펴본 구조도 몇몇 보이지만, Decoder는 이전의 Decoder 출력을 기반으로 현재 출력을 생성해 내는 자기 회귀적 특징으로 인해 조금씩 다른 부분이 있습니다.​Decoder에서 이런 자기 회귀적인 특징이 가장 많이 반영되어 있는 부분이 Masked Multi-Head Attention 부분이니 먼저 이 부분을 자세히 알아보도록 하겠습니다.​​​​1. Masked Multi-Head Attention​​ ​​​1.0. Shifted Right​Decod..

Deep_Learning 2024.05.23

Transformer #4 - Encoder Detail

안녕하세요, 이번 Post에서는 Transformer의 Encoder에 대해서 자세히 알아보도록 하겠습니다.​Transformer Encoder의 각 부분을 구체적으로 하나씩 알아보도록 하겠습니다.​​0. Tokenizer & Input Embedding Layer​​​​Embedding Layer에 문장 그대로 입력할 수 없기 때문에 문장을 Model이 사용할 수 있는 Vector 형태로 변환해야 합니다.​Tokenizer를 이용해 문장을 Token 단위로 나누고, 나눈 Token을 Embedding Layer에 입력하여 Model이 이해할 수 있는 Vector 형태로 만듭니다.​Transformer는 WordPiece Tokenizer를 사용하여 Token을 나누며, Transformer의 Embed..

Deep_Learning 2024.05.21

코엑스 2024 AI EXPO KOREA

안녕하세요, MoonLight입니다.​어제(5월 1일)부터 COEX에서 2024 AI EXPO KOREA가 진행되고 있습니다.​작년에 이어서 올해도 여전히 생성형 AI / LLM / ChatGPT를 이용한 다양한 서비스를 제공하는 업체들이 많이 보였습니다.​아직도 여전히 대세는 생성형 AI 특히, Text & Image를 융합한 서비스가 많이 등장했고,​가끔씩 영상 및 음성을 이용한 서비스를 개발해서 소개하는 업체들도 많이 눈에 띄었습니다.​행사는 내일까지이니 시간되시면 한 번 가보시는 것을 추천드립니다.        ​ 그 뜨거운 현장, 구경 한 번 해 보세요~ ​​​​​​​​​​​​​​​​​​​​​​​​​​​​​​ ​​​​​​​​​​​​​​​​​​​​​​​​​​​​​​​​​​​​​​​​​​ ​​​​​..

Deep_Learning 2024.05.02

Transformer #3 - Overall

안녕하세요, MoonLight입니다.​이번 Post에서는 Transformer의 전체 구조를 개괄적으로 알아보도록 하겠습니다.​​​ ​​Transformer의 전체 구조의 위와 같습니다. 왼쪽이 Encoder의 구조이고, 오른쪽이 Decoder입니다.​​0. Encoder​먼저 Encoder의 구조에 대해서 간략하게 살펴보겠습니다.​​​0.0. Tokenizer​가장 아래쪽에 Inputs이 있습니다. Transformer에서 Input은 단어들로 이루어진 문장이 되겠죠.​이 그림에서는 생략되어 있는데, Input Embedding Layer에 문장 전체가 들어갈 수는 없기 때문에 그전에 tokenizer를 이용하여, 문장들을 Token 단위로 나눕니다.​Transformer에서는 주로 WordPiece ..

Development Tip 2024.04.29

Transformer #2 - Self Attention

0. Introduction ​ ​ 다른 글에서 Attention Mechanism에 대해서 알아보았습니다. ​ Attention Mechanism에 대해서 자세히 알아보시려면 아래 글을 읽어보시기를 추천드립니다. https://moonlight314.tistory.com/entry/Transformer-1-Attention-Mechanism Transformer #1 - Attention Mechanism 0. Background ​ Attention Mechanism이 나오기 전에는 Seq2Seq Model이 주로 사용되었습니다. ​ Seq2Seq Model은 당시에는 훌륭한 Idea였지만, 치명적인 문제점을 가지고 있었습니다. ​ 그 어떤 입력값이 들어 moonlight314.tistory.com ..

Deep_Learning 2024.04.22

Transformer #1 - Attention Mechanism

0. Background ​ Attention Mechanism이 나오기 전에는 Seq2Seq Model이 주로 사용되었습니다. ​ Seq2Seq Model은 당시에는 훌륭한 Idea였지만, 치명적인 문제점을 가지고 있었습니다. ​ 그 어떤 입력값이 들어오더라도 최종적으로 출력은 고정된 길이의 Vector(Hidden State)가 나온다는 것입니다. ​ 입력 문장이 짧으면 별문제가 안되겠지만, 입력 문장이 길어질수록 그 안에 담긴 내용들, 특히 앞쪽의 단어들은 거의 제대로 표현할 수 없다는 문제가 있었습니다. ​ Attention Mechanism은 이 문제를 개선하기 위해서, Seq2Seq 구조의 각 RNN Cell들의 출력(Hidden State)도 Decoder의 입력으로 사용하자는 Idea에서 ..

Deep_Learning 2024.04.17

PyTorch vs TensorFlow in 2022

PyTorch와 TensorFlow는 오늘날 가장 인기 있는 두 가지 Deep Learning Framework입니다. 각 진영에는 열렬한 지지자들이 있고, 어떤 Framework가 더 우월한가에 대해서 오랫동안 논쟁이 되어 왔습니다. PyTorch와 TensorFlow는 비교적 짧은 시간 동안 빠르게 발전하여서 논쟁이 계속되고 있습니다. TensorFlow는 산업 중심 Framework로 그리고, PyTorch는 연구 중심 Framework로 유명하지만 이러한 개념은 부분적으로 오래된 정보에서 비롯되었습니다. 어떤 Framework가 더 나은지에 대한 대화는 2022년이 되면서 더 복잡해집니다. 이제 두 Framework의 차이점을 살펴보겠습니다. 1. Practical Considerations ​ ..

Deep_Learning 2024.03.09
728x90
반응형