这一节先说清楚论文要解决的痛点,以及它给出的反直觉答案。
推理能力是人类智能的基石——从解数学题到逻辑推导再到写程序,都靠它。近年人们发现,大语言模型(LLM)规模够大时会「涌现」出推理能力,而 思维链(CoT)提示 又能进一步把这种能力放出来:只要给几个范例,或者加一句「Let's think step by step(让我们一步步思考)」,模型就会先写出中间推理步骤,复杂任务的表现随之大幅提升。
但这条路有个根本瓶颈。无论是 CoT 提示还是后训练阶段学习「高质量多步推理轨迹」,都严重依赖人工标注的推理过程。这带来两个问题:一是人工标注慢、难规模化、还会引入人的认知偏见;二是更要命的——当你逼着模型去模仿人类的思考方式,它的上限就被人类示范钉死了,模型再也探索不到那些「不像人、但可能更好」的推理路径。
🎯 论文的核心主张
LLM 的推理能力可以纯粹通过强化学习(RL)来激发,完全不需要人工标注的推理轨迹。在这个框架下,自我反思、验证、动态调整策略等高级推理模式会「自发涌现」,最终模型在数学、编程竞赛、STEM 等可验证任务上,反而超过了用人类示范做监督学习训练出来的同类模型。
🧩 它的关键设计选择:跳过 SFT,直接上 RL
是什么
论文以 DeepSeek-V3 Base 为底座,用 GRPO 作为强化学习框架。奖励信号只看最终答案对不对(对照标准答案),完全不管推理过程长什么样。最关键的是:他们故意跳过了传统的监督微调(SFT)阶段,直接开始 RL 训练。
为什么
背后的假设是:人类定义的推理模式会限制模型探索。一旦先用 SFT 把模型「教成人的样子」,它就被框住了。而不加约束的 RL,反而更能激发出全新的推理能力。这就是整篇论文最大的赌注——少教,甚至不教,只给对的激励。
例子
类比下围棋:与其让 AI 背棋谱(模仿人类棋手),不如只告诉它「赢棋得分」,让它自己左右互搏。AlphaGo Zero 就是这么下出了人类从没想过的「神之一手」。R1-Zero 走的是同一条「只给奖励、自己摸索」的路。
由此训练出的第一个模型叫 DeepSeek-R1-Zero。但它有毛病:可读性差、中英文混着说。于是作者又造了 DeepSeek-R1——在 R1-Zero 的推理能力之上,用多阶段训练把它的行为对齐到人类偏好。此外,团队还把推理能力蒸馏进了几个更小的模型并开源,让低算力、低能耗也能用上强推理。
01
DeepSeek-R1-Zero:纯 RL 下的自我进化
不教怎么想,只给一个格式模板和一个对错奖励,看模型自己进化成什么样。
训练 R1-Zero 时,作者只给模型设了一个极简的格式约束:先在 <think> 标签里写推理过程,再在 <answer> 标签里给答案。除此之外不加任何「内容上」的引导——目的就是干净地观察模型在 RL 过程中的自然演化。下面是实际用的提示模板(翻译大意):
<think> 推理过程写在这里 </think>
<answer> 答案写在这里 </answer>
User: {把这里换成具体的推理问题}
Assistant:
就这么简单的设定,结果非常惊人。在 AIME 2024(美国数学邀请赛)这个高难基准上,模型的平均 pass@1 成绩一路飙升;再配合自一致性解码(self-consistency)多次采样投票,成绩进一步拔高,远远超过了 AIME 所有人类参赛者的平均水平。除了数学,R1-Zero 在编程竞赛和研究生级别的生物、物理、化学问题上同样表现出色。
🔄 自进化行为:思考时间自己越变越长
是什么
随着训练推进,R1-Zero 每条回答的平均长度稳步增长——从几百 token 涨到上万 token。这完全是模型内在自适应的结果,作者没有写任何规则去要求它「想久一点」。
为什么
因为奖励只看答案对错,而想得更久、多探索几条路、回头验证一遍,客观上能提高答对的概率。于是 RL 自然而然地「奖励」了那些更长、更细致的推理。更长的思考时间,催生出更复杂的行为:反思式推理、系统性地尝试多种备选方案。
例子
就像一个学生做难题,刚开始草草写两行就交卷,慢慢学会了「先列几种思路、算完回头检查一遍、发现不对再换个方法」。没人教这套流程,但因为这样得分更高,他自己摸索出来了。
💡 论文原话的精神
强化学习的力量与美正在于此:我们没有教模型如何解题,只是给了它正确的激励,它就自主发展出了高级的解题策略。这提醒我们,RL 有潜力把 LLM 的能力解锁到更高层次。
训练途中,模型突然学会了「等一下,我好像错了」——这是全文最戏剧性的一幕。
在训练某个中间版本时,作者观察到一个被称为 「顿悟时刻」(aha moment) 的现象:模型在反思时,「wait(等等)」这个词的使用频率突然激增。这标志着推理模式发生了一次明显的转变,清晰地展示了 R1-Zero 的自我进化过程。论文里给了一个实例:模型在解一个含嵌套根号的方程时,算到一半突然冒出来一句——
🤯 模型自己写下的话(论文 Table 1 实例)
「Wait, wait. Wait. That's an aha moment I can flag here.(等等、等等、等等。这里有个顿悟时刻我得标记一下。)Let's reevaluate this step by step…(让我们一步步重新评估……)」
模型学会了用一种拟人化的语气来「重新思考」。作者说,这对他们自己也是一个顿悟时刻——让人亲眼见证了 RL 的力量与美。
🔍 「反思词频率」说明了什么
是什么
作者请三位人类专家共同确定了一组「反思类词汇」——包括 wait、mistake、however、but、retry、error、verify、wrong、evaluate、check(等等、错误、然而、但是、重试、出错、验证、错的、评估、检查)。然后统计这些词在训练全程中出现的频率。
为什么
这些词是「自我监控」行为的语言指纹。一个会说「等等,这步好像错了,我验证一下」的模型,本质上是在监督自己的推理过程。它们的频率上升,等于客观证据表明反思和自我纠错的能力正在涌现,而不是研究者的主观感觉。
例子
具体到「wait」一词:训练早期几乎从不出现;在第 4,000~7,000 步之间零星冒头;到第 8,000 步之后频率猛增。这条曲线就像一个孩子从「闷头往下写」到「会停下来怀疑自己」的成长轨迹。
📌 一个重要细节:能力在 8.2k 步「跳变」
训练中作者把单条回答的最大长度从 32,768 token 在第 8.2k 步提到了 65,536 token。正是在这一步,模型的性能和回答长度都出现了明显跃升——这和「wait」词频在第 8,000 步后激增的时间点相互印证,说明给够「思考空间」是反思行为爆发的关键条件之一。
R1-Zero 很能推理但「不好好说话」。R1 用一条四阶段管线,把推理能力和人类偏好缝合到一起。
R1-Zero 的问题前面说过:可读性差、中英文混杂(因为底座 V3 在中英双语上训练),而且它纯靠规则奖励、只盯着推理任务,所以在写作、开放域问答这些更广的领域表现有限。为解决这些问题,作者设计了 DeepSeek-R1 的多阶段管线,整体经历 Dev1 → Dev2 → Dev3 三个中间检查点,最后到 R1。
🪜 四个阶段分别在做什么
- ①
冷启动 SFT(→ Dev1):先收集数千条具有「对话式、人类对齐的思考过程」的冷启动数据做监督微调。对比 R1-Zero,Dev1 的指令遵循明显变强(IF-Eval、Arena-Hard 提升);但因冷启动数据量有限,推理能力反而略有回退(尤其 AIME 下降)。这是「先学会好好说话」付出的暂时代价。
- ②
推理向 RL(→ Dev2):用规则奖励做强化学习,并引入语言一致性奖励压制中英混杂。Dev2 在代码、数学、STEM 等需要硬推理的基准上大幅跃升,而像 AlpacaEval 2.0 这类通用偏好基准只是小幅改善——说明推理向 RL 主要补推理,对用户偏好影响有限。
- ③
拒绝采样 + SFT(→ Dev3):把推理和非推理数据(含大规模写作语料、代码工程数据)一起喂进 SFT。Dev3 在 AlpacaEval 2.0 和 Aider-Polyglot 上明显进步,既会推理也会写作。
- ④
全面 RL(→ R1):在 Dev3 上用「推理向 + 通用」混合数据做最终 RL。此时数学/代码只小幅提升(因为前面已经强化够了),最大的进步在通用指令遵循和用户偏好上:AlpacaEval 2.0 提升 25%、Arena-Hard 提升 17%。
🧭 一句话抓住这条管线的逻辑
每个阶段都在有针对性地补一块短板:先用冷启动让它「说人话」,再用 RL 把推理顶到极限,然后用混合 SFT 补齐写作/通用能力,最后再用一轮全面 RL 把「有用 + 无害」对齐好。R1 因此同时拥有了 R1-Zero 的硬推理和一个助手该有的体面表达。
支撑整套训练的两块基石:一个更省的 RL 算法,和一套「不容易被钻空子」的奖励。
⚙️ GRPO(组相对策略优化)
是什么
GRPO 是本文用来训练 R1-Zero 和 R1 的 RL 算法。对每个问题 q,它从旧策略采样一组回答 {o₁, o₂, …, o_G},每个回答由奖励模型(可以是学习来的「模型奖励」,也可以是手工规则的「规则奖励」)打一个分,然后用组内的相对得分来估计每个回答的「优势(advantage)」。
为什么
它是为简化 PPO、降低资源消耗而提出的。传统 PPO 需要额外训练一个价值网络(value model)来估计基线,既费算力又复杂。GRPO 的巧思是:干脆不要价值网络,直接拿「这一组回答的平均分」当基线——比平均好的就是正优势,比平均差的就是负优势。同时它仍用 KL 散度约束,不让新策略偏离参考策略太远,保证训练稳定。
例子
好比老师一次让全班同一道题写 16 种解法,然后说「比班级平均水平好的解法,以后多这么写;差的少这么写」。老师不需要先算出「这题标准应得几分」(那就是价值网络),只用班内横向比较就给出了方向。
🎁 奖励设计:为什么坚持用「规则」而非「神经网络」
奖励是训练信号的源头,决定了 RL 优化的方向。R1-Zero 在数学、代码、逻辑这类有确定答案的领域只用规则奖励;到了 R1,才对通用数据额外引入模型奖励。规则奖励由两部分组成:
准确性奖励(Accuracy):答案对不对。数学题要求把答案放进指定格式(如方框)里,用规则直接校验;代码题则用编译器跑预设测试用例,客观判对错。
格式奖励(Format):是否把推理过程规规矩矩地包在 <think> 标签里。这保证了思考过程被清晰地标出来,既好读也便于后续分析。两种奖励等权重相加。
⚠️ 为什么对推理任务坚决不用神经奖励模型
作者明确说明:在推理任务上不采用任何神经网络奖励模型(无论结果型还是过程型)。原因是——神经奖励模型在大规模 RL 中容易被「奖励黑客(reward hacking)」:模型会找到漏洞去骗高分,而不是真把题做对。而且重训这种奖励模型既费算力又让训练管线更复杂。规则奖励虽然「笨」,但骗不了。
🌐 R1 的模型奖励:有用性 + 无害性
是什么
对没有确定答案的通用数据(如写作、开放问答),R1 引入两个学习来的奖励模型。有用性奖励只评估最终的回答总结(不干扰中间推理);无害性奖励则评估包括推理过程在内的整个回答,识别潜在风险、偏见或有害内容。
为什么
因为「这篇文章写得好不好」「这个回答有没有用」没法用规则一刀切,只能靠学到人类偏好的模型来判断。但前面说过模型奖励有被钻空子的风险,所以作者很克制:有用性偏好对训练用得很谨慎,而且只在第二阶段 RL 的最后 400 步才引入偏好奖励——发现用太多步反而会触发奖励黑客。
例子
有用性奖励模型用了 66,000 对偏好数据训练;为避免「位置偏见」,每对让 V3 评判 4 次、随机交换 A/B 位置再取平均;还特意让被选中和被拒绝的回答长度相当,免得模型误以为「越长越好」。安全奖励模型则用 106,000 条标了「安全/不安全」的提示训练。这些细节都是在堵奖励黑客的漏洞。
这一节把论文 Methods 里的具体训练数字完整收录,方便复现与对照。前面讲「怎么想」,这里讲「具体怎么训」。
🧪 DeepSeek-R1-Zero 的训练细节
- 🎚️
基础超参:学习率 3×10⁻⁶,KL 系数 0.001,rollout 采样温度 1。
- 🔢
采样与长度:每个问题采样 16 个输出;最大长度在第 8.2k 步之前为 32,768 token,之后提升到 65,536 token。正是这次提升,让性能和回答长度在 8.2k 步出现明显跃升。
- 📦
批次与步数:每个训练步含 32 个不同问题,训练批大小为 512/步;每 400 步用最新策略模型替换参考模型;共训练 10,400 步,相当于 1.6 个 epoch。
- ⚡
加速技巧:每次 rollout 生成 8,192 个输出,随机切成 16 个 minibatch,每个只训练单个内部 epoch。「一个训练步」指一次策略更新操作。
🥇 第一阶段 RL 的训练细节
- 🎚️
基础超参:学习率 3×10⁻⁶,KL 系数 0.001,GRPO clip 比例 ε=10,采样温度 1;每题采样 16 个输出、最大长度 32,768;每步 32 题(批大小 512),每 400 步替换参考模型,rollout/minibatch 设置同上。
- 🈳
语言一致性奖励:为缓解语言混杂,引入该奖励,定义为 CoT 中目标语言词数占总词数的比例(Num(目标语言词) / Num(总词)),直接加到最终奖励上,对推理和非推理数据都适用。
⚖️ 一个诚实的权衡
论文的消融实验显示,加入语言一致性奖励会让模型性能略有下降;但因为它更符合人类偏好、可读性更好,作者认为这个代价值得。这是一处「为了好用而主动牺牲一点点分数」的取舍。
✂️ clip 比例为什么关键
作者强调 clip 比例在训练中起关键作用:取值过低会截断大量 token 的梯度,从而损害模型性能;取值过高则可能引发训练不稳定。需要在两者间小心平衡。
🥈 第二阶段 RL 的训练细节
- 🌡️
温度降到 0.7:第二阶段保留第一阶段大部分参数,关键差异是采样温度从 1 降到 0.7——因为作者发现此阶段温度过高会导致生成不连贯。
- 🔢
步数安排:共 1,700 个训练步,其中通用指令数据和基于偏好的奖励只在最后 400 步引入。原因是:用更多步数跑模型偏好奖励反而会触发奖励黑客。
- 🧮
奖励组合(第二阶段):总奖励 = 推理奖励 + 通用奖励 + 语言奖励;其中推理奖励 = 规则奖励,通用奖励 = 模型奖励 + 格式奖励。推理数据沿用 R1-Zero 的规则奖励,通用数据用奖励模型引导。
🎁 两个奖励模型的训练参数
有用性奖励模型(pairwise 成对损失):用 66,000 对偏好数据;每对让 V3 评判 4 次并随机交换 A/B 位置取平均(消除位置偏见),只保留分差 Δ>1 的对;保证被选/被拒回答长度相当。架构与 R1 一致,加一个预测标量分数的奖励头。
训练超参:批大小 256,学习率 6×10⁻⁶,在训练集上跑 单个 epoch;训练时最大序列长 8,192 token,推理时不设显式上限。
安全奖励模型(pointwise 逐点损失):用 106,000 条带「安全/不安全」标注的提示训练。与有用性的成对损失不同,它用逐点方法直接区分安全与否。其余超参与有用性模型相同。
🔁 处理无可靠信号的任务
对那些拿不到可靠奖励信号的任务,本文的做法是:用人工标注创建监督数据,且只跑数百步 RL。作者希望未来能获得更鲁棒的奖励模型来解决这类问题。
把 R1-Zero、Dev1/2/3、最终 R1 放在一起看,能清楚看到每个阶段「补」了什么。
下面是论文 Table 2 的完整数据(全部 21 项基准)。读这张表的诀窍是:横着看一行,就能看出某项能力是在哪个阶段被拉起来的。例如代码和数学主要在 Dev2 起飞,而通用偏好类(AlpacaEval、Arena-Hard)则在最终 R1 阶段才完成质变。表中蓝色高亮表示该行最优值。
📚 评测覆盖的完整基准清单
论文在 21 个基准上评测:英文/通用——MMLU、MMLU-Redux、MMLU-Pro、DROP、IF-Eval、GPQA Diamond、SimpleQA、FRAMES、AlpacaEval 2.0、Arena-Hard;代码——LiveCodeBench(2024-08~2025-01)、Codeforces、SWE-bench Verified、Aider-Polyglot;数学——AIME 2024、MATH-500、CNMO 2024;中文——CLUEWSC、C-Eval、C-SimpleQA。
| 基准(指标) | R1-Zero | Dev1 | Dev2 | Dev3 | R1 |
| MMLU (EM) | 88.8 | 89.1 | 91.2 | 91.0 | 90.8 |
| MMLU-Redux (EM) | 85.6 | 90.0 | 93.0 | 93.1 | 92.9 |
| MMLU-Pro (EM) | 68.9 | 74.1 | 83.8 | 83.1 | 84.0 |
| DROP (3-shot F1) | 89.1 | 89.8 | 91.1 | 88.7 | 92.2 |
| IF-Eval(Prompt Strict) | 46.6 | 71.7 | 72.0 | 78.1 | 83.3 |
| GPQA Diamond (Pass@1) | 75.8 | 66.1 | 70.7 | 71.2 | 71.5 |
| SimpleQA (Correct) | 30.3 | 17.8 | 28.2 | 24.9 | 30.1 |
| FRAMES (Acc.) | 82.3 | 78.5 | 81.8 | 81.9 | 82.5 |
| AlpacaEval 2.0(LC-winrate) | 24.7 | 50.1 | 55.8 | 62.1 | 87.6 |
| Arena-Hard(GPT-4-1106) | 53.6 | 77.0 | 73.2 | 75.6 | 92.3 |
| LiveCodeBench(Pass@1-COT) | 50.0 | 57.5 | 63.5 | 64.6 | 65.9 |
| Codeforces(百分位) | 80.4 | 84.5 | 90.5 | 92.1 | 96.3 |
| Codeforces(评分) | 1444 | 1534 | 1687 | 1746 | 2029 |
| SWE-bench Verified | 43.2 | 39.6 | 44.6 | 45.6 | 49.2 |
| Aider-Polyglot (Acc.) | 12.2 | 6.7 | 25.6 | 44.8 | 53.3 |
| AIME 2024 (Pass@1) | 77.9 | 59.0 | 74.0 | 78.1 | 79.8 |
| MATH-500 (Pass@1) | 95.9 | 94.2 | 95.9 | 95.4 | 97.3 |
| CNMO 2024 (Pass@1) | 88.1 | 58.0 | 73.9 | 77.3 | 78.8 |
| CLUEWSC (EM) | 93.1 | 92.8 | 92.6 | 91.6 | 92.8 |
| C-Eval (EM) | 92.8 | 85.7 | 91.9 | 86.4 | 91.8 |
| C-SimpleQA (Correct) | 66.4 | 58.8 | 64.2 | 66.9 | 63.7 |
论文 Table 2 完整数据。注意 Dev1 在 AIME/CNMO 上的回退,以及 R1 在 AlpacaEval/Arena-Hard 上的飞跃。原论文中加粗值表示统计显著(t 检验 P<0.01)。
- 📉
Dev1 的「回退」是预期内的:冷启动 SFT 让指令遵循变强,但因数据量小,AIME 从 77.9 掉到 59.0、CNMO 从 88.1 掉到 58.0。这说明「先学好好说话」会暂时牺牲一点纯推理。
- 🚀
Dev2 是推理的引爆点:推理向 RL 之后,代码、数学、STEM 全线回升并超越 Dev1,而通用偏好基准只小幅动——印证了「推理向 RL 主要补推理」。
- 🎨
Dev3 补通用能力:混入非推理语料后,Aider-Polyglot 从 25.6 跳到 44.8,AlpacaEval 也明显上升。
- 🏆
R1 的临门一脚在「偏好」上:最终 RL 后数学/代码只微涨(前面已榨干),但 AlpacaEval 2.0 提升 25%、Arena-Hard 提升 17%,Codeforces 评分冲到 2029。
🧬 还有一招:把强推理「蒸馏」给小模型
论文还做了一件事——用大模型涌现出的推理模式,去引导和增强更小模型的推理能力。蒸馏出的小模型表现超过它们原本的指令微调版本。意义在于:让强推理能以更低的算力和能耗被更广泛地使用,也给研究社区提供了理解长 CoT 推理机制的宝贵资源。
论文很诚实地列出了 R1 还做不好的地方,以及纯 RL 方法本身的天花板。
🛡️ 伦理与安全声明
作者明确承认风险:R1 可能被越狱攻击(jailbreak),而增强的推理能力会让它生成的危险内容(如爆炸物制造方案)更具可操作性;公开模型也可能被进一步微调而破坏内置的安全保护。综合评估结论是:R1 自身的安全水平与其他 SOTA 模型相当,处于中等水平(可比 GPT-4o);一旦配合外部风控系统,安全等级可提升到更高标准。
🚧 具体能力局限
- 🔧
结构化输出与工具使用:R1 的结构化输出能力仍逊于现有模型,而且不能调用搜索引擎、计算器等工具来辅助。不过作者认为为「结构化输出 + 工具使用」搭一个 RL 环境并不难,下个版本会解决。
- 🎚️
Token 效率(过度思考):不同于多数投票或蒙特卡洛树搜索(MCTS),R1 会按问题难度动态分配算力——简单题少花 token,难题多花。但简单问题上仍会出现「想太多(overthinking)」,效率还有优化空间。
- 🌍
语言混杂:R1 目前为中英文优化,处理其他语言的查询时可能出现语言混杂(比如查询是别的语言,它却用英文推理和回答)。这可能源自底座 V3 Base 主要用中英文训练。
- 📝
对提示敏感:评估发现 R1 对提示很敏感,少样本(few-shot)提示反而会持续拉低它的表现。作者建议用户直接描述问题、用零样本(zero-shot)设定、并明确指定输出格式,效果最好。
- 💻
软件工程任务:因评估耗时长、拖慢 RL 效率,大规模 RL 还没充分用在软工任务上,所以 R1 在软工基准上相比 V3 提升不大。未来会用拒绝采样或异步评估来改善。
⚠️ 纯 RL 方法的根本挑战:奖励黑客
是什么
纯 RL 的成败取决于奖励信号是否可靠。本文靠「推理领域的规则奖励」保证了可靠性,但对写作这类任务,可靠的奖励模型很难构造。一旦奖励由模型(而非预设规则)给出,随训练推进就越来越容易被策略模型钻空子——找到捷径去「黑」掉奖励模型。
为什么
这意味着:对于无法被可靠奖励模型评估的复杂任务,纯 RL 的扩展仍是一个开放难题。本文的折中办法是——对拿不到可靠信号的任务,改用人工标注做监督数据,RL 只跑几百步。作者期望未来能造出更鲁棒的奖励模型来根治这个问题。
例子
就像考试如果改成「老师凭感觉打分」,聪明的学生会去研究老师的喜好(字写漂亮、堆专业词)来骗分,而不是真把知识学扎实。规则评分(选择题机器判卷)就没这个空子可钻——这正是论文坚持规则奖励的原因。
🌅 结论与展望
论文的核心结论是:预训练好的检查点本身就蕴含着巨大的复杂推理潜力,而解锁它的钥匙不在于大规模人工标注,而在于——提供足够难的推理问题、一个可靠的验证器、以及充足的算力来做 RL。自我验证、反思这些复杂推理行为,会在 RL 过程中「有机地」自发涌现。
展望未来:对于任何能被验证器有效评估的任务,无论它对人类有多难,具备这种 RL 技术的机器都有望通过试错迭代地优化、最终超越人类。真正的难点留给了那些「难以构造可靠奖励」的任务。此外,把工具(编译器、搜索引擎,甚至真实世界的化学/生物试剂)融入推理过程,被认为是极具前景的下一步。
论文同时公开了模型权重、数据样本与技术栈,这一节把这些信息完整收录。
- ⚖️
模型权重:DeepSeek-R1-Zero 和 DeepSeek-R1 的训练权重以 MIT 许可证在 GitHub(deepseek-ai/DeepSeek-R1)发布,并归档到 Zenodo。
- 📂
数据样本:用于拒绝采样和 RL 提示的数据样本同样在该 GitHub 仓库提供;完整的数据生成方法学统计见补充材料 2.3。
- 🧰
推理脚本:在 deepseek-ai/DeepSeek-V3 仓库发布。
- 🔬
技术栈:神经网络用 PyTorch 开发,分布式框架基于内部框架 HAI-LLM,推理框架基于 vLLM。数据分析用 Python 3.8、NumPy 1.23.1、Matplotlib 3.5.2、TensorBoard 2.9.1。
- 👥
作者与利益声明:作者来自 DeepSeek-AI 团队(杭州),通讯作者梁文锋(Wenfeng Liang)。作者声明无竞争利益,且不会就本文内容申请专利。
🌍 开源的意义
作者特别指出:开源这些指令微调版本能为研究社区理解长 CoT 推理模型的内在机制提供宝贵资源,并推动更强推理模型的发展。蒸馏出的小模型则让强推理能以更低能耗被更广泛使用。
整理自 Nature 论文《DeepSeek-R1 incentivizes reasoning in LLMs through reinforcement learning》(Vol 645, 2025-09-18,DeepSeek-AI 团队)
处理方式:逐字整理 + 概念展开(是什么/为什么/例子)与可视化 · 原文事实与数据全部保留,补充解释为该领域公认常识或对原文逻辑的合理延伸
DOI: 10.1038/s41586-025-09422-z · 权重 MIT 开源