'SFT' 태그의 글 목록

728x90

SFT 3

안녕하세요, MoonLight입니다.이번 Postd에서는 지난 번 SFT Trainer 관련 Post에서 보강하는 내용입니다.https://moonlight314.tistory.com/entry/Example-of-SFTSupervised-Fine-Tuning-Trainer-in-TRL Example of SFT(Supervised Fine-Tuning) Trainer in TRL안녕하세요, MoonLight입니다.지난 번 Post에서 LLM을 Fine-tuning하고 Rreinforcement learning을 적용하는 데 사용되는 도구 모음인 TRL(Transformer Reinforcement Learning)에 대해서 알아보았습니다.https://moonlight314.moonlight314...

Deep_Learning 2025.06.07

Example of SFT(Supervised Fine-Tuning) Trainer in TRL

안녕하세요, MoonLight입니다.지난 번 Post에서 LLM을 Fine-tuning하고 Rreinforcement learning을 적용하는 데 사용되는 도구 모음인 TRL(Transformer Reinforcement Learning)에 대해서 알아보았습니다.https://moonlight314.tistory.com/entry/TRL-Transformer-Reinforcement-Learning TRL (Transformer Reinforcement Learning)안녕하세요, MoonLight입니다.이번 Post에서는 LLM을 Fine-tuning하고 Rreinforcement learning을 적용하는 데 사용되는 도구 모음인 TRL(Transformer Reinforcement Learni..

Deep_Learning 2025.06.07

TRL (Transformer Reinforcement Learning)

안녕하세요, MoonLight입니다.이번 Post에서는 LLM을 Fine-tuning하고 Rreinforcement learning을 적용하는 데 사용되는 도구 모음인 TRL(Transformer Reinforcement Learning)에 대해서 알아보도록 하겠습니다. 1. LLM Alignment 필요성 2017년 "Attention Is All You Need"라는 논문으로 Transformer라는 구조가 세상에 나왔고, 이 Transformer 구조를 기반으로 하는 LLM들이 방대한 데이터로 비지도 학습(Unsupervised Learning) 방식으로 사전 훈련(Pre-training)되어 광범위한 세계 지식과 추론 능력을 학습하였습니다.하지만, Pre-training만으로는 LLM..

Deep_Learning 2025.06.07

Today :
Yesterday :

건담, 리뷰, TensorFlow, 시드, 파이썬, 코엑스, 건프라, 도색, 패널라인, 가볼만한곳, 프리덤, 버카, 결말, 사자비, 유니콘, 뉴건담, 취미, 맛집, 조립, 아이들,

728x90

일	월	화	수	목	금	토
1	2	3	4	5	6	7
8	9	10	11	12	13	14
15	16	17	18	19	20	21
22	23	24	25	26	27	28

SFT 3

티스토리툴바