[논문분석] DeepSeek-R1: 강화 학습 활용한 LLM의 추론 능력 향상 연구 분석

AI 최신 동향 및 이슈

[논문분석] DeepSeek-R1: 강화 학습 활용한 LLM의 추론 능력 향상 연구 분석

꿈공장장100 2025. 1. 29. 02:13

📌 DeepSeek-R1: 강화 학습을 활용한 대형 언어 모델의 추론 능력 향상 연구 분석

- 논문: DeepSeek-R1: Incentivizing Reasoning Capability in LLMs via Reinforcement Learning

📌 강화 학습(RL)만으로 GPT-4급 AI 모델을 만들 수 있을까?

1. 서론 (Introduction)

최근 대형 언어 모델(LLM, Large Language Model)의 발전 속도는 놀라울 정도로 빠르며, AI가 문제를 해결하는 방식도 점점 더 정교해지고 있다. 특히, 대형 언어 모델을 훈련하는 후속 학습(Post-Training) 과정에서 지도 학습(Supervised Fine-Tuning, SFT) 외에도 강화 학습(Reinforcement Learning, RL) 이 중요한 역할을 하게 되었다.

이번 논문에서 연구한 DeepSeek-R1 시리즈는 강화 학습을 활용하여 추론 능력을 향상시키는 방법을 제안한다.
이를 위해 두 가지 모델이 개발되었다.

DeepSeek-R1-Zero: 기존 모델(DeepSeek-V3-Base)의 기본 능력을 활용한 후, RL만을 사용해 추가 학습을 진행
DeepSeek-R1: Cold-Start 데이터(소량의 지도 학습 데이터)와 RL을 병행

이 연구의 중요한 특징 중 하나는 대형 모델에서 추론 능력을 소형 모델로 증류(Distillation)하여 작은 모델에서도 강력한 성능을 발휘하도록 한 점이다.
즉, GPT-4급 AI 모델을 SFT 없이 강화 학습만으로 만들 수 있는지 실험한 연구라고 할 수 있다.

2. 연구의 주요 기여 (Key Contributions)

이번 연구의 핵심 기여는 다음과 같다.

1️⃣ 지도 학습 없이 강화 학습(RL)으로 추론 능력 향상

기존 연구들은 지도 학습(SFT) 을 선행 단계로 활용했지만,
이번 연구에서는 기본적인 언어 및 이해 능력을 가진 모델을 출발점으로 삼아, 순수 RL만을 사용해 학습하는 접근법을 제안
강화 학습을 통해 Chain-of-Thought(CoT) 추론 능력을 자연스럽게 학습

2️⃣ DeepSeek-R1 모델 개발

모델 개발을 위해 두 단계의 RL 학습과 두 단계의 SFT 학습을 포함한 파이프라인을 설계
DeepSeek-R1-Zero (순수 RL 모델) → DeepSeek-R1 (Cold-Start 데이터 추가) 과정을 거쳐 성능 개선

3️⃣ 대형 모델의 추론 능력을 소형 모델로 증류 (Distillation)

DeepSeek-R1의 지식을 소형 모델(1.5B~70B 파라미터 크기)로 증류
단순한 지도 학습(SFT)만으로도 기존 대형 모델을 뛰어넘는 성능을 달성

3. 모델 개발 과정 및 학습 방법

DeepSeek-R1 연구는 크게 두 가지 모델을 중심으로 진행되었다.
각각의 학습 과정과 접근 방식을 살펴보자.

3.1. DeepSeek-R1-Zero: RL을 통한 자율 학습 모델

💡 기본적인 언어 이해 능력을 가진 모델에서 출발하여 RL로 추가 학습된 모델

📌 (1) 강화 학습 알고리즘 (RL Algorithm)

기존 Proximal Policy Optimization (PPO) 대신 Group Relative Policy Optimization (GRPO) 기법 사용
GRPO는 모델이 추론하는 방식을 개선하면서도 계산량을 줄이는 효과

📌 (2) 보상 모델 (Reward Modeling)

정확도 보상 (Accuracy Reward): 수학 문제 정답 여부 등 명확한 기준 제공
형식 보상 (Format Reward): 답변의 가독성과 구조를 평가

📌 (3) 자기 진화(Self-Evolution) 과정

훈련이 진행될수록 모델이 점점 더 긴 Chain-of-Thought(CoT)를 생성
즉, 모델이 생각하는 시간을 늘리면서 점진적으로 추론 능력이 향상됨
이러한 현상을 연구진은 "Aha Moment(깨달음의 순간)" 라고 명명

📌 (4) 거부 샘플링 (Rejection Sampling) 활용

RL 훈련 과정에서 특정 문제에 대한 모델의 다양한 응답을 수집하여 정확한 답변만을 선별하는 과정을 추가
이를 통해 학습 데이터를 지속적으로 정제하고 향상시킴

📌 (5) DeepSeek-R1-Zero의 성능

AIME 2024에서 pass@1 성능이 15.6%에서 RL 학습을 거쳐 71.0%까지 상승했으며, 다수결(Majority Voting) 적용 시 86.7%까지 성능이 향상됨

3.2. DeepSeek-R1: Cold-Start 데이터를 활용한 향상된 모델

💡 DeepSeek-R1-Zero의 한계를 보완하기 위해 소량의 지도 학습 데이터를 추가한 모델

📌 (1) Cold-Start 데이터 활용

초기 학습 안정성을 높이기 위해 소량의 고품질 Chain-of-Thought 데이터 제공
가독성이 좋고 일관성 있는 답변을 생성하도록 학습

📌 (2) 지도 학습(SFT) 추가

RL 훈련 후, 새로운 지도 학습 데이터를 생성하여 모델을 한 번 더 미세 조정
단순한 지도 학습만으로도 성능이 더욱 향상됨

📌 (3) 최종 RL 적용 및 모든 시나리오 학습

DeepSeek-R1은 RL 학습을 거치면서 인간 친화적인 응답을 생성하도록 최적화됨
AIME 2024에서 pass@1 79.8% 기록 → OpenAI-o1-1217과 동등한 수준
Codeforces 알고리즘 문제 해결 능력 96.3%의 인간 참가자보다 우수

3.3. 소형 모델로의 추론 능력 증류 (Distillation)

💡 DeepSeek-R1을 소형 모델로 압축하더라도 강력한 추론 능력을 유지할 수 있을까?

DeepSeek-R1은 대형 모델로 학습한 후, 소형 모델에서도 강력한 추론 능력을 유지할 수 있도록 지식을 증류(Distillation)하는 방식을 실험했다.
이를 통해 더 적은 계산 자원으로도 효율적인 AI 모델을 만들 수 있는지 검증하였다.

📌 (1) 증류 모델 성능 분석

DeepSeek-R1-Distill-Qwen-1.5B 모델은 GPT-4o 및 Claude-3.5-Sonnet보다 수학 벤치마크에서 뛰어난 성능을 기록
- AIME 2024에서 28.9%, MATH-500에서 83.9%
DeepSeek-R1-Distill-Qwen-32B 모델은 OpenAI-o1-mini보다 뛰어난 성능을 기록
- AIME 2024에서 72.6%, GPQA Diamond에서 62.1% 기록
DeepSeek-R1-Distill-Llama-70B 모델은 70B 크기의 대형 모델에서도 강력한 성능을 유지

📌 (2) RL 없이도 높은 성능을 발휘하는 이유

DeepSeek-R1은 강력한 추론 패턴을 학습했으며, 이를 단순한 지도 학습(SFT)만으로도 소형 모델에 효과적으로 전이 가능
그러나 RL을 추가하면 성능이 더욱 향상될 가능성이 있으며, 이는 향후 연구 방향으로 제시됨

📌 (3) RL을 적용한 모델과 SFT 모델의 비교

Qwen-32B 모델에 대해 RL을 적용한 DeepSeek-R1-Zero-Qwen-32B는 QwQ-32B-Preview와 유사한 성능을 보였지만,
DeepSeek-R1-Distill-Qwen-32B 모델이 RL 모델보다 더 높은 성능을 기록
즉, 소형 모델에서는 강화 학습 없이도 증류된 데이터를 활용하는 방식이 더욱 효과적일 수 있음을 시사

4. 실패한 시도와 한계점 (Unsuccessful Attempts & Limitations)

💡 DeepSeek-R1을 개발하는 과정에서 효과적이지 않았던 방법들도 존재했다. 연구진은 이를 공유하며 한계를 분석하였다.

4.1. 실패한 시도 (Unsuccessful Attempts)

📌 (1) 과정 기반 보상 모델 (Process Reward Model, PRM)

PRM은 모델이 더 좋은 추론 방식을 따르도록 유도하는 접근법이지만, 여러 한계를 가짐
- 세밀한 단계 정의의 어려움: 일반적인 문제 해결 과정에서 "올바른 중간 단계"를 정하기 어려움
- 자동 주석 생성 문제: AI가 자동으로 중간 단계를 평가하는데 한계가 있으며, 수작업은 확장성이 떨어짐
- 보상 해킹(Reward Hacking): 모델이 목표를 달성하는 것이 아니라, 보상을 최대화하는 방향으로 학습할 위험

📌 (2) 몬테카를로 트리 탐색 (Monte Carlo Tree Search, MCTS)

AlphaGo 및 AlphaZero에서 활용된 MCTS를 적용하여 테스트 시간 계산을 확장하려 했으나,
자연어 처리(NLP) 모델에서는 비효율적이었음
- 탐색 공간이 너무 큼: 체스 같은 게임은 수가 제한적이지만, NLP는 무한한 가능성을 가짐
- 가치 모델(Value Model) 학습이 어려움: AI가 스스로 더 나은 답을 찾아가는 과정이 예상만큼 효과적이지 않음
결론적으로, MCTS는 자연어 처리 모델에서는 실질적인 성능 향상에 기여하지 못함

4.2. DeepSeek-R1의 한계점 (Limitations)

📌 (1) 일반적인 대화 능력 부족

DeepSeek-R1은 추론 및 문제 해결에 초점을 맞춘 모델이므로,
일반적인 대화(task-oriented dialogue) 및 자연어 이해(NLU) 성능이 DeepSeek-V3보다 낮음
- 예: 함수 호출(Function Calling), 멀티턴 대화(Multi-turn Conversation), 역할 연기(Role-Playing), JSON 출력 등에서 한계

📌 (2) 언어 혼합 문제 (Language Mixing)

DeepSeek-R1은 영어와 중국어에 최적화된 모델이므로,
다른 언어를 입력할 경우 응답이 영어와 중국어가 혼합되는 문제가 발생할 수 있음
- 예: 한국어 입력을 해도 영어로 답변하는 현상 발생

📌 (3) 프롬프트 민감성 (Prompt Sensitivity)

DeepSeek-R1은 Few-shot Prompting에서 성능이 저하되는 경향이 있음
- Zero-shot Prompting(문제를 직접 입력하는 방식)에서 더 높은 성능을 발휘
이로 인해 프롬프트 엔지니어링(Prompt Engineering)이 중요한 모델

📌 (4) 소프트웨어 엔지니어링(SWE) 관련 성능 개선 필요

DeepSeek-R1은 수학 및 논리 문제에서는 뛰어난 성능을 보였지만,
소프트웨어 엔지니어링(SWE) 작업에서는 DeepSeek-V3와 큰 차이를 보이지 않음
이유:
- SWE 관련 RL 데이터 부족
- 코딩 문제 해결을 위한 RL 학습 과정이 비효율적
향후, 비동기적 평가(Asynchronous Evaluation) 및 거부 샘플링(Rejection Sampling) 적용이 필요

5. 향후 연구 방향 (Future Work)

📌 (1) 일반적 대화 능력 개선

DeepSeek-R1은 특정 문제 해결에는 뛰어나지만 멀티턴 대화 및 역할 연기 성능이 부족
심층적인 Chain-of-Thought (long CoT)를 활용하여 다양한 작업을 향상시키는 방법을 연구

📌 (2) 다국어 지원 확대

현재 DeepSeek-R1은 영어와 중국어에 최적화
한국어, 프랑스어, 독일어 등 다양한 언어에서도 추론 능력을 발휘하도록 확장 연구 필요

📌 (3) 프롬프트 엔지니어링 연구

DeepSeek-R1은 Few-shot Prompting에서 성능 저하 문제 발생
이를 해결하기 위한 최적의 프롬프트 구조 연구 필요

📌 (4) SWE 작업에서의 RL 효율성 개선

현재 RL 학습이 코드 관련 작업에서 효과적이지 못했기 때문에,
비동기적 평가(Asynchronous Evaluation) 및 거부 샘플링(Rejection Sampling) 적용 연구

6. 결론 (Conclusion)

📌 (1) 지도 학습 없이도 RL만으로 강력한 AI 모델 개발 가능
📌 (2) DeepSeek-R1은 OpenAI-o1-1217과 비교할 만한 성능 달성
📌 (3) 대형 모델에서 학습한 지식을 소형 모델로 효과적으로 증류 가능

이 연구는 강화 학습만으로도 대형 언어 모델의 추론 능력을 극대화할 수 있음을 입증했다.
특히, 대형 모델에서 학습한 지식을 소형 모델로 효과적으로 증류할 수 있음을 보여주었으며, 이는 AI 모델 경량화 및 최적화에 중요한 시사점을 제공한다.

📌 DeepSeek-R1 연구가 향후 AI 모델 훈련 방식에 어떤 변화를 가져올지 기대된다! 🚀

https://youtu.be/Spy_lScjPwo?si=CoCE8bT-jw3S_RVw

논문(Paper)

DeepSeek-R1 Incentivizing Reasoning Capability in LLMs via Reinforcement Learning.pdf

1.27MB

DeepSeek 싸이트

https://www.deepseek.com/

DeepSeek 모델

https://github.com/deepseek-ai/DeepSeek-V3

GitHub - deepseek-ai/DeepSeek-V3

Contribute to deepseek-ai/DeepSeek-V3 development by creating an account on GitHub.

github.com

저작자표시 비영리 동일조건

'AI 최신 동향 및 이슈' 카테고리의 다른 글

딥시크(DeepSeek)의 등장, 기술 시장의 판도를 다시 그리다(2025.1) (2)	2025.01.28

현재글[논문분석] DeepSeek-R1: 강화 학습 활용한 LLM의 추론 능력 향상 연구 분석

Dream Factory

나만의 서재이자 꿈공장입니다. 꿈은 이루어질 때도 즐겁겠지만 꾸고 있는 동안에도 즐거운 것 같습니다.

openAI, 다국어개체명인식, gemini2.0, Python, meta, 박규서, AI회계사, 허깅페이스, IFRS17, KS회계보험계리컨설팅, ChatGPT, KS경영인공지능연구소, 보험회계, ner, plugin, 인공지능, multimodal, huggingface, K-ICS, 리스크관리,

Today :
Yesterday :

Dream Factory