안녕하세요, MoonLight입니다.
LLM Fine-Tuning 관련 내용을 보다보면, 'Pre-Trained LLM을 정렬(Alignment)한다.'라는 말을 종종 보곤합니다.
이번 Post에서는 LLM에서 '정렬(Alignment)'의 의미를 한 번 알아보도록 하겠습니다.
1. 의미
LLM에서의 Alignment은 "LLM의 목표와 행동을 인간의 의도, 가치, 선호도와 일치시키는 과정"을 의미합니다.
좀 더 풀어서 말하면, 원래 Pre-Trained LLM은 Text를 잘 생성하는 능력만 있습니다.
LLM이 생성한 Text가 맞는 말인지, 문법적으로 어울리는지, 해로운 내용이나 적절치 못한 내용은 없는지 등은 알 수 없는 것입니다.
Alignment는 LLM이 생성한 Text가 인간이 보기에 적절하도록 인간에게 Align하는 과정이라고 할 수 있습니다.
2. 필요성
초기의 LLM은 인터넷의 방대한 Text 데이터를 학습하였습니다. 이 데이터에는 유용한 정보도 많지만, 다음과 같은 문제점들도 포함되어 있습니다.
1) 유해하거나 편향된 내용
인터넷에는 차별적이거나, 폭력적이거나, 잘못된 정보들이 많습니다. LLM은 이를 그대로 학습하여 유해하거나 편향된 내용을 생성할 수 있습니다.
2) 부정확한 정보 (환각, Hallucination)
LLM은 때때로 사실이 아닌 내용을 마치 사실인 것처럼 그럴듯하게 생성할 수 있습니다.
3) 인간의 의도 불이해
사용자가 명확하게 지시해도, LLM이 그 의도를 제대로 파악하지 못하고 엉뚱하거나 도움이 되지 않는 답변을 할 수 있습니다.
4) 지시 불이행
특정 작업을 수행하라는 지시를 무시하거나, 안전상의 이유로 거부해야 할 요청(예: 불법적인 정보 요청)을 수행할 수도 있습니다.
앞서 말씀드렸듯이, 초기 LLM은 주로 "다음 단어 예측"이라는 목표로 학습되었기 때문에, 위와 같은 문제들을 해결하기 어렵습니다.
LLM이 생성하는 내용이 문법적으로나 의미적으로는 자연스러울지 몰라도, 그것이 인간에게 유용하고, 진실되고, 해롭지 않다는 보장은 없습니다.
3. 목표
Alignment는 LLM이 다음과 같은 특성을 가지도록 만드는 것을 목표로 합니다.
1) 유용성 (Helpfulness)
사용자의 질문에 정확하고 관련성 높은 답변을 제공하고, 요청된 작업을 효과적으로 수행하며, 사용자의 의도를 잘 파악하고 따르도록 합니다.
2) 정직성/진실성 (Honesty/Truthfulness)
사실에 기반한 정보를 제공하고, 모르는 내용에 대해서는 모른다고 인정하며, 정보를 지어내지 않아야 합니다.
3) 무해성 (Harmlessness)
편향적이거나, 차별적이거나, 폭력적이거나, 불법적이거나, 비윤리적인 내용을 생성하지 않고, 안전한 상호작용을 보장해야 합니다.
4. 방법
결론부터 말씀드리면, 이러한 Alignment를 LLM에 적용하기 위한 방법의 핵심은 '인간의 피드백(Human Feedback)'입니다.
인간의 피드백(Human Feedback)이 필요한 이유는 Alignment의 목표 자체가 인간 중심적인 것이 가장 큽니다.
Alignment의 목표는 LLM을 '인간의 의도, 가치, 선호도'에 맞추는 것입니다.
무엇이 '유용하고', '정직하며', '무해한지'에 대한 기준은 본질적으로 인간 사회와 문화 속에서 형성된 것이기 때문에, 이 기준을 LLM에게 가르치려면 인간의 판단과 평가가 필요합니다.
AI 스스로 이 복잡하고 미묘한 인간적 가치를 완벽하게 이해하고 내재화하기는 어렵기 때문이죠
구체적인 방법에는 다음과 같은 것들이 있습니다.
1) 지도 미세 조정 (Supervised Fine-tuning, SFT)
사람이 직접 작성하거나 선별한 고품질의 프롬프트-응답 쌍 데이터를 사용하여 LLM을 추가로 학습시킵니다. 이를 통해 모델이 바람직한 응답 형식과 스타일을 배우도록 하는 방법입니다.
2) 근접 정책 최적화(Proximal Policy Optimization,PPO)
사람이 여러 LLM 응답을 비교하고 어떤 것이 더 나은지 평가(선호도 레이블링)합니다. 이 데이터를 사용하여 어떤 응답이 좋은 응답인지를 예측하는 '보상 모델'을 만듭니다.
LLM이 보상 모델로부터 높은 점수(보상)를 받는 응답을 생성하도록 강화 학습 알고리즘을 사용하여 미세 조정하는 방식입니다.
3) 인간 피드백 기반 강화 학습 (Reinforcement Learning from Human Feedback, RLHF) / 직접 선호도 최적화 (Direct Preference Optimization, DPO)
인간이 LLM의 여러 응답 중 어떤 것이 더 나은지(선호도)를 직접 평가하고 레이블링해야 합니다.
이 인간의 선호도 데이터가 보상 모델 학습 또는 직접적인 정책 최적화의 핵심 데이터로 사용됩니다.
5. 마무리
LLM에서 Alignment는 모델의 행동을 인간의 의도, 가치, 선호도에 맞추는 과정입니다.
이는 단순히 성능을 높이는 것을 넘어, LLM을 유용하고, 정직하며, 해롭지 않게 만들기 위한 필수적인 작업입니다.
"인간 피드백과 정렬이 부족하다"는 말은 아직 LLM이 이러한 목표를 완전히 달성하지 못했고, 여전히 원치 않는 행동을 하거나 인간의 기대를 충족시키지 못하는 경우가 많다는 것을 의미합니다.
따라서 LLM 연구 및 개발에서 정렬은 매우 중요한 과제로 남아있습니다.
현재 LLM Alignment 연구는 인간의 피드백을 어떻게 더 효율적으로, 확장성 있게, 그리고 정확하게 반영할 것인가에 초점을 맞추고 있습니다.
인간의 개입을 완전히 배제하고 AI가 스스로 인간의 복잡한 가치 체계를 학습하여 정렬하는 것은 매우 어려운 과제이며, 현재로서는 어떤 형태로든 인간의 지침, 평가, 데이터 제공이 정렬 과정에 필수적이라고 할 수 있습니다.
앞으로 인간 피드백의 필요성을 줄이거나 간접적인 형태로 활용하는 더 발전된 방법이 나올 수도 있겠지만, '인간의 가치에 맞춘다'는 정렬의 본질적인 목표 때문에 인간의 역할이 완전히 사라지기는 어려울 것으로 보입니다.
'Deep_Learning' 카테고리의 다른 글
TRL (Transformer Reinforcement Learning) (6) | 2025.06.07 |
---|---|
Weights & Biases (wandb) (0) | 2025.05.13 |
Downstream in LLM (0) | 2025.04.19 |
DeepSeek-VL : Towards Real-World Vision-Language Understanding (0) | 2025.04.19 |
마누스(Manus) AI Agent 사용기 (0) | 2025.04.13 |