안녕하세요, MoonLight입니다.
오늘 OpenAI가 GPT-5를 공개했습니다.
아래 Link는 Sam Altman이 GPT-5를 소개하는 영상입니다.
https://www.youtube.com/live/0Uu_VJeVVfo?si=llpuPfc7TV0PsCiS
저는 최근까지 GPT-4보다는 Gemini가 더 괜찮은 거 같아서 Gemini를 쭉 써오고 있었는데, GPT-5가 얼마나 더 좋아졌고, 어떤 점이 개선 & 추가가 되었는지 한 번 알아보도록 하겠습니다.
주요 기술적 변화 요약
항목
|
GPT-5
|
GPT-4 (이전 버전)
|
모델 방식
|
복수의 내부 모델을 자동으로 선택
|
단일 모델 또는 시리즈별 분리된 체계
|
추론 전략
|
요청에 따라 자동 모델 라우팅 (fast vs thinking 등)
|
사용자가 모델을 선택해야 함
|
추론 깊이
|
상황에 따라 높은 수준의 Chain of Thought
|
제한적인 추론 능력
|
Context 윈도우
|
수십만~백만 토큰 (모델에 따라 다름)
|
몇만 토큰 수준
|
멀티모달 지원
|
텍스트, 이미지, 오디오, 영상
|
제한적 또는 텍스트 중심
|
감성/안전성
|
환각 감소, 심리적 해악 완화, 감정 인식
|
개선 여지 있음
|
1. 더 똑똑해지고, 더 유연하게
OpenAI는 GPT-5를 공식 공개했습니다.
GPT-5는 기존 GPT-4 기반 모델들을 하나로 통합한 “통합 지능 시스템(unified system)”으로, 빠른 응답이 필요할 때는 빠르게, 복잡한 추론이 필요할 때는 깊게 “생각”하는 능력을 갖췄습니다.
2. 자동 모델 라우팅: '생각할 것인지'가 선택적
GPT-5는 단일 모델로 구성된 것이 아니고, 내부에 gpt-5-main, gpt-5-thinking, mini, nano 등 다양한 모델을 갖추고 있으며, 실시간 라우터(routing system)가 입력된 요청의 성격에 맞춰 자동으로 판단해 가장 적절한 모델을 선택하는 방식으로 구성되어 있습니다.
이 때문에 사용자 입장에선 "어떻게 요청했는지"에 대한 고민 없이도, 스스로 판단해서 정확하고 효율적인 응답을 생성해 줍니다.
예컨대, 간단한 대화라면 빠르게 반응하는 메인 모델이 선택되고, 복잡한 논리나 코딩을 요청하면 깊은 추론력의 모델(Thinking)이 투입돼 사용자 의도에 맞춘 답변을 만들어줍니다.
기존 GPT-4,-4o,-4.1,-4.5는 물론 o-시리즈까지 하나로 통합된 이 시스템은 단순한 모델 업그레이드가 아니라, 모델 라우팅 시스템이 내장된 지능형 플랫폼으로서의 진화를 이룬다고 할 수 있습니다.
2.1. 내부 구조: 모델 라우팅과 버전 구성
GPT-5는 내부적으로 다음과 같은 버전으로 구성됩니다.
-
- gpt-5-main 및 그 소형 버전인 gpt-5-main-mini
- 더 깊은 사고와 분석에 특화된 gpt-5-thinking, thinking-mini, 그리고 초경량 thinking-nano
- ChatGPT Pro 유저에게는 병렬 연산을 통한 gpt-5-thinking-pro도 제공
이들 모델은 입력된 쿼리의 복잡성과 요구 수준에 따라 자동으로 선택되는 “라우터”에 의해 구동됩니다
2.2. 추론력과 도구 연계: 전문가 같은 사고 구조
GPT-5는 Chain-f-Thought 방식이 내재되어 있으며, 복잡한 문제에 대해서는 심층 추론을, 단순 요청에는 빠른 응답을 선택적으로 수행합니다.
특히 도구 호출(tool-calling) 구조가 크게 개선되어, 다수의 도구를 순차 및 병렬로 안정적으로 연계함으로써 실세계 작업의 종단 간(end-to-end) 자동화를 지원합니다.
또한 API에서는 verbosity 파라미터(응답 길이 제어)와 reasoning_effort 파라미터(추론 깊이 조정)가 도입되어, 개발자가 응답의 스타일과 속도를 보다 정밀하게 조절할 수 있다고 합니다.
3. 멀티모달 & 초대형 컨텍스트 윈도우
GPT-5는 텍스트뿐 아니라 이미지, 영상, 오디오까지 이해하고 생성할 수 있는 멀티모달 능력이 강화되었습니다.
이는 이전 GPT-4o의 확장으로 볼 수 있지만, Context Window가 이제 편당 수십만에서 최대 256,000 토큰(일부 보도에서는 백만 토큰까지 언급됨)에 달한다는 점은 꽤 놀랍습니다.
덕분에 긴 문서, 복잡한 코드베이스, 대규모 멀티미디어 데이터를 다룰 때 훨씬 자연스럽고 일관된 흐름을 유지할 수 있죠.
특히 MMMU (Massive Multitask Multimodal Understanding) 벤치마크에서 84.2-% 정확도를 달성하며 o3와 GPT-4o 대비 큰 폭 향상되었습니다.
내부적으로는 Transformer 기반의 통합 인코딩 구조를 사용했을 가능성이 높습니다.
예컨대 Perceiver와 유사한 구조처럼, 서로 다른 모달리티 데이터(예: 이미지 픽셀, 오디오 파형, 텍스트 토큰)를 공통의 latent bottleneck으로 압축하고, 교차주의(cross-attention)를 통해 상호 모달 간 정보를 공유합니다.
이 방식은 각기 다른 처리 파이프라인 없이 토큰 수준에서 모달리티 간 이해력을 강화할 수 있는 장점이 있습니다.
앞서 말씀드렸듯이, 컨텍스트 윈도우가 최대 256,000 토큰-일부 보도에서는 백만 토큰까지도 가능하다는 언급이 있으며, 이 긴 시퀀스까지 유지할 수 있는 메모리 구조를 갖추고 있어, 영상 프레임이나 오디오 스트림을 포함한 장기 문맥도 손쉽게 처리할 수 있습니다.
4. 향상된 추론, 코딩, 안전성
GPT-5의 Chain-of-Thought에 의해서, 복잡한 수학적·과학적 질문에도 전문가 수준의 답변을 제공합니다.
실제로 프론트/백엔드 웹사이트, 앱 생성, 정교한 디버깅까지 가능한 청정(clean) 코드 생성이 가능해졌습니다.
GPT-5는 프론트엔드 UI 생성 및 대규모 코드베이스 디버깅에서 획기적인 역량을 보여줍니다.
예시로 단일 프롬프트만으로 “Jumping Ball Runner”라는 미니 게임을 HTML 단일 파일로 작성해주고, UI의 공간 배치, 타이포그래피 감각, 디자인 선택까지 직관적으로 수행할 수 있습니다.
또한 SWE-Bench, HealthBench 등 여러 벤치마크에서 GPT-5는 GPT-4 계열을 상회하는 성능을 기록했으며, 특히 HealthBench Hard에서의 향상된 정확도는 의료 분야에서의 신뢰도를 크게 높였습니다.
5. 환각(hallucination) 감소
이것 때문에 LLM쓰기가 조금 짜증났었죠.
진짜인지 의심스러운 경우가 많고, 나중에 알고보니 거짓된 정보였다는 것을 알았을때 정말 짜증났습니다.
사실에 기반한 응답과 더 낮은 오류율을 목표로 모델이 재설계되었으며, 이로 인해 GPT-5는 hallucination(환각) 발생률이 이전 모델들보다 최대 26% 감소했으며, o3 기준으로는 65% 감소 수준까지 개선되었습니다..
여기에 Safe-Completion 훈련 방식이 도입되어, 단순 거부가 아닌 안전하면서도 유용한 응답을 제공하도록 조율되었습니다.
이 접근법은 o3 대비 보다 신중하고 유익한 응답 수준을 만들어냅니다.
6. 안전성 강화
“심리적 해악(psychological harms)”완화라는 기능을 포함, 감정 인지와 상담 수준의 상호작용까지 고려되어 있습니다.
GPT-5에서 적용된 Safe-Completion은 기존 모델의 단순 "거절(Refusal)" 방식과는 결이 다릅니다.
대신 "안전하지만 유용한 응답"을 생성하는 nuanced 대응 전략을 채택했지요.
특히 유해하거나 잠재적으로 위험한 프롬프트에 대해서도, 단순히 차단하지 않고 문맥에 맞추어 가장 도움이 되면서도 안전한 방식으로 답을 구성합니다.
이 기술은 5,000시간 이상의 레드 팀 테스트(red-teaming)을 거쳐 훈련되었으며, 환각(hallucination) 및 기만적 응답의 위험을 최대한 줄이도록 설계되었습니다.
7. 무료 접근성과 다양해진 요금 구조
GPT-5는 8월 7일 출시되어, 무료 사용자도 사용 가능하지만, 사용량에는 제한이 걸립니다.
더 높은 용량과 무제한 접근은 Pro 구독(월 $200)을 통해 제공됩니다.
또한, standard / mini / nano 등 용도·속도·비용에 맞춘 다양한 버전이 제공됩니다.
요금 모델과 배치 전략
GPT-5는 API 유저에게 다음과 같은 요금 구조를 제공합니다.
모델
|
입력 비용 ($/1M 토큰)
|
출력 비용 ($/1M 토큰)
|
Standard
|
$1.25
|
$10.00
|
Mini
|
$0.25
|
$2.00
|
Nano
|
$0.05
|
$0.40
|
이처럼 속도, 비용, 품질을 고려한 세 가지 버전이 제공되며, ChatGPT 인터페이스 및 Pro 구독을 통해 Pro 전용 모델(gpt-5-thinking, gpt-5-pro 등)도 이용할 수 있습니다.
8. 벤치마크 수치 비교
앞서 GPT-5의 뛰어난 점을 글로만 설명했는데, 수치로 확인해 보도록 하겠습니다.
GPT-5의 퍼포먼스는 여러 공개 및 내부 벤치마크에서 압도적인 결과를 보여주고 있습니다.
벤치마크
|
GPT-5 (with reasoning)
|
이전 모델 비교
|
AIME 2025 (수학 경시)
|
94.6-% 정확도
|
-
|
SWE-bench Verified (코딩 리얼-월드 이슈)
|
74.9 % (GPT-4: 52 %; o3: 69.1 %)
|
GPT-5는 o3 대비 토큰 22 % ↓, 도구 호출 45 % ↓ 효율성 개선
|
Aider Polyglot (다중 언어 코드 편집)
|
88 %
|
o3 대비 오류율 33 % 감소
|
MMMU (멀티모달 이해)
|
84.2 %
|
o3: 74.4 %, GPT-4o: 72.2 %
|
HealthBench Hard (의료 복합 대화)
|
46.2 %
|
o3: 25.5 %, GPT-4o: 31.6 %
|
GPQA Diamond (PhD 수준 과학적 추론)
|
88.4 %
|
-
|
종합적으로, GPT-5는 거의 모든 벤치마크에서 이전 모델을 20-60 % 수준으로 확실히 앞서고 있으며, 효율성과 정확성을 동시에 향상시켰습니다.
9. 마무리하며…
GPT-5는 확실히 여러가지 문제점이나 능력을 많이 향상시켰네요.
저도 이제는 다시 GPT-5로 돌아와야 할 것 같습니다.
도움이 되셨다면 좋겠네요.
감사합니다.
'Deep_Learning' 카테고리의 다른 글
Example of DPO(Direct Preference Optimization) Trainer in TRL (5) | 2025.08.12 |
---|---|
RAG(Retrieval-Augmented Generation) (8) | 2025.08.06 |
SFT Train에서의 Dataset의 변환에 관한 이야기 (9) | 2025.06.07 |
Example of SFT(Supervised Fine-Tuning) Trainer in TRL (2) | 2025.06.07 |
TRL (Transformer Reinforcement Learning) (6) | 2025.06.07 |