728x90
반응형

Deep_Learning 72

Example of DPO(Direct Preference Optimization) Trainer in TRL

안녕하세요, MoonLight입니다.​지난 Post에서는 SFT(Supervised Fine-Tuning) Trainer를 사용하는 방법에 대한 내용을 다루었습니다.https://moonlight314.tistory.com/entry/Example-of-SFTSupervised-Fine-Tuning-Trainer-in-TRL Example of SFT(Supervised Fine-Tuning) Trainer in TRL안녕하세요, MoonLight입니다.​지난 번 Post에서 LLM을 Fine-tuning하고 Rreinforcement learning을 적용하는 데 사용되는 도구 모음인 TRL(Transformer Reinforcement Learning)에 대해서 알아보았습니다.https://moonl..

Deep_Learning 2025.08.12

GPT-5

안녕하세요, MoonLight입니다.​오늘 OpenAI가 GPT-5를 공개했습니다. ​아래 Link는 Sam Altman이 GPT-5를 소개하는 영상입니다.https://www.youtube.com/live/0Uu_VJeVVfo?si=llpuPfc7TV0PsCiS 저는 최근까지 GPT-4보다는 Gemini가 더 괜찮은 거 같아서 Gemini를 쭉 써오고 있었는데, GPT-5가 얼마나 더 좋아졌고, 어떤 점이 개선 & 추가가 되었는지 한 번 알아보도록 하겠습니다.​​ 주요 기술적 변화 요약 항목 GPT-5 GPT-4 (이전 버전)모델 방식 복수의 내부 모델을 자동으로 선택 단일 모델 또는 시리즈별 분리된 체계추론 전략 요청에 따라 자동 모델 라우팅 (fast vs thinking 등) 사용자가 모델을..

Deep_Learning 2025.08.08

RAG(Retrieval-Augmented Generation)

1. 개념 및 등장배경 LLM 분야에서 관심을 받고 있는 기술 중 하나는 바로 RAG (Retrieval-Augmented Generation)입니다. ​특정 기술이 주목받는다는 것은 기존 기술의 한계를 보완하고 새로운 가능성을 제시하기 때문인데, RAG가 바로 그러한 대표적인 예라고 할 수 있습니다.​ChatGPT의 등장은 전 세계적으로 대규모 언어 모델(LLM)의 시대를 활짝 열었습니다. 초기에는 사용자들의 간단한 질문에 답변하는 수준이었지만, 모델 자체의 기능이 향상되고 다양한 기능들이 추가되면서 사용자들은 점차 전문적인 영역에 대한 심도 있는 질문들을 던지기 시작했습니다. 하지만 곧 사용자들은 LLM이 가진 몇 가지 본질적인 문제점들에 직면하게 됩니다. 1) 지식 커트오프 (Knowledge ..

Deep_Learning 2025.08.06

SFT Train에서의 Dataset의 변환에 관한 이야기

안녕하세요, MoonLight입니다.​이번 Postd에서는 지난 번 SFT Trainer 관련 Post에서 보강하는 내용입니다.https://moonlight314.tistory.com/entry/Example-of-SFTSupervised-Fine-Tuning-Trainer-in-TRL Example of SFT(Supervised Fine-Tuning) Trainer in TRL안녕하세요, MoonLight입니다.​지난 번 Post에서 LLM을 Fine-tuning하고 Rreinforcement learning을 적용하는 데 사용되는 도구 모음인 TRL(Transformer Reinforcement Learning)에 대해서 알아보았습니다.https://moonlight314.moonlight314...

Deep_Learning 2025.06.07

Example of SFT(Supervised Fine-Tuning) Trainer in TRL

안녕하세요, MoonLight입니다.​지난 번 Post에서 LLM을 Fine-tuning하고 Rreinforcement learning을 적용하는 데 사용되는 도구 모음인 TRL(Transformer Reinforcement Learning)에 대해서 알아보았습니다.https://moonlight314.tistory.com/entry/TRL-Transformer-Reinforcement-Learning TRL (Transformer Reinforcement Learning)안녕하세요, MoonLight입니다.​이번 Post에서는 LLM을 Fine-tuning하고 Rreinforcement learning을 적용하는 데 사용되는 도구 모음인 TRL(Transformer Reinforcement Learni..

Deep_Learning 2025.06.07

TRL (Transformer Reinforcement Learning)

안녕하세요, MoonLight입니다.​이번 Post에서는 LLM을 Fine-tuning하고 Rreinforcement learning을 적용하는 데 사용되는 도구 모음인 TRL(Transformer Reinforcement Learning)에 대해서 알아보도록 하겠습니다.​ 1. LLM Alignment 필요성 ​2017년 "Attention Is All You Need"라는 논문으로 Transformer라는 구조가 세상에 나왔고, 이 Transformer 구조를 기반으로 하는 LLM들이 방대한 데이터로 비지도 학습(Unsupervised Learning) 방식으로 사전 훈련(Pre-training)되어 광범위한 세계 지식과 추론 능력을 학습하였습니다.​하지만, Pre-training만으로는 LLM..

Deep_Learning 2025.06.07

Weights & Biases (wandb)

안녕하세요, MoonLight입니다.​이번 Post에서는 Weights & Biases (wandb)라는 Platform을 소개해 드리고자 합니다.​Weights & Biases (wandb)는 머신 러닝 실험 추적, 시각화, 협업 및 모델 관리를 위한 강력한 플랫폼입니다. ​​ 1. 소개 wandb는 2018년 Lukas Biewald, Chris Van Pelt, Shawn Lewis에 의해 설립된 Weights & Biases라는 회사에서 개발되었습니다. ​이들은 머신 러닝 엔지니어들이 겪는 실험 관리의 어려움을 해결하고자 이 플랫폼을 만들었다고 하네요.​wandb는 LLM(Large Language Model) 파인 튜닝과 같이 복잡하고 리소스 집약적인 머신 러닝 프로젝트뿐만 아니라, 일반적인 딥..

Deep_Learning 2025.05.13

Alignment in LLM

안녕하세요, MoonLight입니다.​LLM Fine-Tuning 관련 내용을 보다보면, 'Pre-Trained LLM을 정렬(Alignment)한다.'라는 말을 종종 보곤합니다.​이번 Post에서는 LLM에서 '정렬(Alignment)'의 의미를 한 번 알아보도록 하겠습니다.​ 1. 의미 LLM에서의 Alignment은 "LLM의 목표와 행동을 인간의 의도, 가치, 선호도와 일치시키는 과정"을 의미합니다.좀 더 풀어서 말하면, 원래 Pre-Trained LLM은 Text를 잘 생성하는 능력만 있습니다. LLM이 생성한 Text가 맞는 말인지, 문법적으로 어울리는지, 해로운 내용이나 적절치 못한 내용은 없는지 등은 알 수 없는 것입니다.Alignment는 LLM이 생성한 Text가 인간이 보기에 적절하도..

Deep_Learning 2025.05.13

Downstream in LLM

안녕하세요, MoonLight입니다.​LLM 분야에서 다운스트림(Downstream)은 사전 훈련된(pre-trained) LLM을 특정 목적이나 작업에 맞게 활용하거나 적용하는 모든 후속 단계를 의미합니다.​ 1. LLM의 개발 과정 LLM의 개발 과정을 크게 두 단계로 나누면 업스트림 (Upstream)과정과 다운스트림(Downstream) 과정으로 나눌 수 있습니다. 1.1. 업스트림 (Upstream)사전 훈련 (Pre-training)단계라고 말할 수 있으며, 이 단계에서는 인터넷과 같은 방대한 텍스트 데이터를 사용하여 LLM을 처음부터 학습시키는 단계입니다.​이 단계에서는 모델이 언어 자체의 패턴, 문법, 의미, 상식 등 광범위한 지식을 학습하게 되며, 당연하게도 매우 많은 계산 자원과 ..

Deep_Learning 2025.04.19

DeepSeek-VL : Towards Real-World Vision-Language Understanding

안녕하세요, MoonLight입니다.​DeepSeek의 다양한 Model들 중에, Multimodal Model인 DeepSeek-VL을 소개해 드리고, 간단한 사용법도 같이 알려드리고자 합니다.​ 1. DeepSeek-VL DeepSeek-VL은 Open Source Vision-Language 모델입니다. 입력으로 Image와 Text를 같이 받을 수 있는(Multimodal) Model입니다.​Logical Diagrams을 분석/작성하거나, Web Pages 작성, Formula 인식, 학술 논문 분석, 사진 분석/처리 등과 같은 Image에 대해서 다양한 작업을 할 수 있다는 의미입니다. 특징 Multimodal Input : Image와 Text를 동시에 입력받아 처리할 수 있습니다.D..

Deep_Learning 2025.04.19
728x90
반응형