📌 DeepSeek-R1: 강화 학습을 활용한 대형 언어 모델의 추론 능력 향상 연구 분석
- 논문: DeepSeek-R1: Incentivizing Reasoning Capability in LLMs via Reinforcement Learning
📌 강화 학습(RL)만으로 GPT-4급 AI 모델을 만들 수 있을까?
1. 서론 (Introduction)
최근 대형 언어 모델(LLM, Large Language Model)의 발전 속도는 놀라울 정도로 빠르며, AI가 문제를 해결하는 방식도 점점 더 정교해지고 있다. 특히, 대형 언어 모델을 훈련하는 후속 학습(Post-Training) 과정에서 지도 학습(Supervised Fine-Tuning, SFT) 외에도 강화 학습(Reinforcement Learning, RL) 이 중요한 역할을 하게 되었다.
이번 논문에서 연구한 DeepSeek-R1 시리즈는 강화 학습을 활용하여 추론 능력을 향상시키는 방법을 제안한다.
이를 위해 두 가지 모델이 개발되었다.
- DeepSeek-R1-Zero: 기존 모델(DeepSeek-V3-Base)의 기본 능력을 활용한 후, RL만을 사용해 추가 학습을 진행
- DeepSeek-R1: Cold-Start 데이터(소량의 지도 학습 데이터)와 RL을 병행
이 연구의 중요한 특징 중 하나는 대형 모델에서 추론 능력을 소형 모델로 증류(Distillation)하여 작은 모델에서도 강력한 성능을 발휘하도록 한 점이다.
즉, GPT-4급 AI 모델을 SFT 없이 강화 학습만으로 만들 수 있는지 실험한 연구라고 할 수 있다.
2. 연구의 주요 기여 (Key Contributions)
이번 연구의 핵심 기여는 다음과 같다.
1️⃣ 지도 학습 없이 강화 학습(RL)으로 추론 능력 향상
- 기존 연구들은 지도 학습(SFT) 을 선행 단계로 활용했지만,
이번 연구에서는 기본적인 언어 및 이해 능력을 가진 모델을 출발점으로 삼아, 순수 RL만을 사용해 학습하는 접근법을 제안 - 강화 학습을 통해 Chain-of-Thought(CoT) 추론 능력을 자연스럽게 학습
2️⃣ DeepSeek-R1 모델 개발
- 모델 개발을 위해 두 단계의 RL 학습과 두 단계의 SFT 학습을 포함한 파이프라인을 설계
- DeepSeek-R1-Zero (순수 RL 모델) → DeepSeek-R1 (Cold-Start 데이터 추가) 과정을 거쳐 성능 개선
3️⃣ 대형 모델의 추론 능력을 소형 모델로 증류 (Distillation)
- DeepSeek-R1의 지식을 소형 모델(1.5B~70B 파라미터 크기)로 증류
- 단순한 지도 학습(SFT)만으로도 기존 대형 모델을 뛰어넘는 성능을 달성
3. 모델 개발 과정 및 학습 방법
DeepSeek-R1 연구는 크게 두 가지 모델을 중심으로 진행되었다.
각각의 학습 과정과 접근 방식을 살펴보자.
3.1. DeepSeek-R1-Zero: RL을 통한 자율 학습 모델
💡 기본적인 언어 이해 능력을 가진 모델에서 출발하여 RL로 추가 학습된 모델
📌 (1) 강화 학습 알고리즘 (RL Algorithm)
- 기존 Proximal Policy Optimization (PPO) 대신 Group Relative Policy Optimization (GRPO) 기법 사용
- GRPO는 모델이 추론하는 방식을 개선하면서도 계산량을 줄이는 효과
📌 (2) 보상 모델 (Reward Modeling)
- 정확도 보상 (Accuracy Reward): 수학 문제 정답 여부 등 명확한 기준 제공
- 형식 보상 (Format Reward): 답변의 가독성과 구조를 평가
📌 (3) 자기 진화(Self-Evolution) 과정
- 훈련이 진행될수록 모델이 점점 더 긴 Chain-of-Thought(CoT)를 생성
- 즉, 모델이 생각하는 시간을 늘리면서 점진적으로 추론 능력이 향상됨
- 이러한 현상을 연구진은 "Aha Moment(깨달음의 순간)" 라고 명명
📌 (4) 거부 샘플링 (Rejection Sampling) 활용
- RL 훈련 과정에서 특정 문제에 대한 모델의 다양한 응답을 수집하여 정확한 답변만을 선별하는 과정을 추가
- 이를 통해 학습 데이터를 지속적으로 정제하고 향상시킴
📌 (5) DeepSeek-R1-Zero의 성능
- AIME 2024에서 pass@1 성능이 15.6%에서 RL 학습을 거쳐 71.0%까지 상승했으며, 다수결(Majority Voting) 적용 시 86.7%까지 성능이 향상됨
3.2. DeepSeek-R1: Cold-Start 데이터를 활용한 향상된 모델
💡 DeepSeek-R1-Zero의 한계를 보완하기 위해 소량의 지도 학습 데이터를 추가한 모델
📌 (1) Cold-Start 데이터 활용
- 초기 학습 안정성을 높이기 위해 소량의 고품질 Chain-of-Thought 데이터 제공
- 가독성이 좋고 일관성 있는 답변을 생성하도록 학습
📌 (2) 지도 학습(SFT) 추가
- RL 훈련 후, 새로운 지도 학습 데이터를 생성하여 모델을 한 번 더 미세 조정
- 단순한 지도 학습만으로도 성능이 더욱 향상됨
📌 (3) 최종 RL 적용 및 모든 시나리오 학습
- DeepSeek-R1은 RL 학습을 거치면서 인간 친화적인 응답을 생성하도록 최적화됨
- AIME 2024에서 pass@1 79.8% 기록 → OpenAI-o1-1217과 동등한 수준
- Codeforces 알고리즘 문제 해결 능력 96.3%의 인간 참가자보다 우수
3.3. 소형 모델로의 추론 능력 증류 (Distillation)
💡 DeepSeek-R1을 소형 모델로 압축하더라도 강력한 추론 능력을 유지할 수 있을까?
DeepSeek-R1은 대형 모델로 학습한 후, 소형 모델에서도 강력한 추론 능력을 유지할 수 있도록 지식을 증류(Distillation)하는 방식을 실험했다.
이를 통해 더 적은 계산 자원으로도 효율적인 AI 모델을 만들 수 있는지 검증하였다.
📌 (1) 증류 모델 성능 분석
- DeepSeek-R1-Distill-Qwen-1.5B 모델은 GPT-4o 및 Claude-3.5-Sonnet보다 수학 벤치마크에서 뛰어난 성능을 기록
- AIME 2024에서 28.9%, MATH-500에서 83.9%
- DeepSeek-R1-Distill-Qwen-32B 모델은 OpenAI-o1-mini보다 뛰어난 성능을 기록
- AIME 2024에서 72.6%, GPQA Diamond에서 62.1% 기록
- DeepSeek-R1-Distill-Llama-70B 모델은 70B 크기의 대형 모델에서도 강력한 성능을 유지
📌 (2) RL 없이도 높은 성능을 발휘하는 이유
- DeepSeek-R1은 강력한 추론 패턴을 학습했으며, 이를 단순한 지도 학습(SFT)만으로도 소형 모델에 효과적으로 전이 가능
- 그러나 RL을 추가하면 성능이 더욱 향상될 가능성이 있으며, 이는 향후 연구 방향으로 제시됨
📌 (3) RL을 적용한 모델과 SFT 모델의 비교
- Qwen-32B 모델에 대해 RL을 적용한 DeepSeek-R1-Zero-Qwen-32B는 QwQ-32B-Preview와 유사한 성능을 보였지만,
DeepSeek-R1-Distill-Qwen-32B 모델이 RL 모델보다 더 높은 성능을 기록 - 즉, 소형 모델에서는 강화 학습 없이도 증류된 데이터를 활용하는 방식이 더욱 효과적일 수 있음을 시사
4. 실패한 시도와 한계점 (Unsuccessful Attempts & Limitations)
💡 DeepSeek-R1을 개발하는 과정에서 효과적이지 않았던 방법들도 존재했다. 연구진은 이를 공유하며 한계를 분석하였다.
4.1. 실패한 시도 (Unsuccessful Attempts)
📌 (1) 과정 기반 보상 모델 (Process Reward Model, PRM)
- PRM은 모델이 더 좋은 추론 방식을 따르도록 유도하는 접근법이지만, 여러 한계를 가짐
- 세밀한 단계 정의의 어려움: 일반적인 문제 해결 과정에서 "올바른 중간 단계"를 정하기 어려움
- 자동 주석 생성 문제: AI가 자동으로 중간 단계를 평가하는데 한계가 있으며, 수작업은 확장성이 떨어짐
- 보상 해킹(Reward Hacking): 모델이 목표를 달성하는 것이 아니라, 보상을 최대화하는 방향으로 학습할 위험
📌 (2) 몬테카를로 트리 탐색 (Monte Carlo Tree Search, MCTS)
- AlphaGo 및 AlphaZero에서 활용된 MCTS를 적용하여 테스트 시간 계산을 확장하려 했으나,
자연어 처리(NLP) 모델에서는 비효율적이었음- 탐색 공간이 너무 큼: 체스 같은 게임은 수가 제한적이지만, NLP는 무한한 가능성을 가짐
- 가치 모델(Value Model) 학습이 어려움: AI가 스스로 더 나은 답을 찾아가는 과정이 예상만큼 효과적이지 않음
- 결론적으로, MCTS는 자연어 처리 모델에서는 실질적인 성능 향상에 기여하지 못함
4.2. DeepSeek-R1의 한계점 (Limitations)
📌 (1) 일반적인 대화 능력 부족
- DeepSeek-R1은 추론 및 문제 해결에 초점을 맞춘 모델이므로,
일반적인 대화(task-oriented dialogue) 및 자연어 이해(NLU) 성능이 DeepSeek-V3보다 낮음- 예: 함수 호출(Function Calling), 멀티턴 대화(Multi-turn Conversation), 역할 연기(Role-Playing), JSON 출력 등에서 한계
📌 (2) 언어 혼합 문제 (Language Mixing)
- DeepSeek-R1은 영어와 중국어에 최적화된 모델이므로,
다른 언어를 입력할 경우 응답이 영어와 중국어가 혼합되는 문제가 발생할 수 있음- 예: 한국어 입력을 해도 영어로 답변하는 현상 발생
📌 (3) 프롬프트 민감성 (Prompt Sensitivity)
- DeepSeek-R1은 Few-shot Prompting에서 성능이 저하되는 경향이 있음
- Zero-shot Prompting(문제를 직접 입력하는 방식)에서 더 높은 성능을 발휘
- 이로 인해 프롬프트 엔지니어링(Prompt Engineering)이 중요한 모델
📌 (4) 소프트웨어 엔지니어링(SWE) 관련 성능 개선 필요
- DeepSeek-R1은 수학 및 논리 문제에서는 뛰어난 성능을 보였지만,
소프트웨어 엔지니어링(SWE) 작업에서는 DeepSeek-V3와 큰 차이를 보이지 않음 - 이유:
- SWE 관련 RL 데이터 부족
- 코딩 문제 해결을 위한 RL 학습 과정이 비효율적
- 향후, 비동기적 평가(Asynchronous Evaluation) 및 거부 샘플링(Rejection Sampling) 적용이 필요
5. 향후 연구 방향 (Future Work)
📌 (1) 일반적 대화 능력 개선
- DeepSeek-R1은 특정 문제 해결에는 뛰어나지만 멀티턴 대화 및 역할 연기 성능이 부족
- 심층적인 Chain-of-Thought (long CoT)를 활용하여 다양한 작업을 향상시키는 방법을 연구
📌 (2) 다국어 지원 확대
- 현재 DeepSeek-R1은 영어와 중국어에 최적화
- 한국어, 프랑스어, 독일어 등 다양한 언어에서도 추론 능력을 발휘하도록 확장 연구 필요
📌 (3) 프롬프트 엔지니어링 연구
- DeepSeek-R1은 Few-shot Prompting에서 성능 저하 문제 발생
- 이를 해결하기 위한 최적의 프롬프트 구조 연구 필요
📌 (4) SWE 작업에서의 RL 효율성 개선
- 현재 RL 학습이 코드 관련 작업에서 효과적이지 못했기 때문에,
비동기적 평가(Asynchronous Evaluation) 및 거부 샘플링(Rejection Sampling) 적용 연구
6. 결론 (Conclusion)
📌 (1) 지도 학습 없이도 RL만으로 강력한 AI 모델 개발 가능
📌 (2) DeepSeek-R1은 OpenAI-o1-1217과 비교할 만한 성능 달성
📌 (3) 대형 모델에서 학습한 지식을 소형 모델로 효과적으로 증류 가능
이 연구는 강화 학습만으로도 대형 언어 모델의 추론 능력을 극대화할 수 있음을 입증했다.
특히, 대형 모델에서 학습한 지식을 소형 모델로 효과적으로 증류할 수 있음을 보여주었으며, 이는 AI 모델 경량화 및 최적화에 중요한 시사점을 제공한다.
📌 DeepSeek-R1 연구가 향후 AI 모델 훈련 방식에 어떤 변화를 가져올지 기대된다! 🚀
https://youtu.be/Spy_lScjPwo?si=CoCE8bT-jw3S_RVw
논문(Paper)
DeepSeek 싸이트
DeepSeek 모델
https://github.com/deepseek-ai/DeepSeek-V3
GitHub - deepseek-ai/DeepSeek-V3
Contribute to deepseek-ai/DeepSeek-V3 development by creating an account on GitHub.
github.com
'AI 최신 동향 및 이슈' 카테고리의 다른 글
딥시크(DeepSeek)의 등장, 기술 시장의 판도를 다시 그리다(2025.1) (2) | 2025.01.28 |
---|