免费按模板制作微网站,建设官网银行,做爰全过程网站,统计网站的代码一、摘要 本文跟大家来一起阅读DeepSeek团队发表于2025年1月的一篇论文《DeepSeek-R1: Incentivizing Reasoning Capability in LLMs via Reinforcement Learning | Papers With Code》#xff0c;新鲜的DeepSeek-R1推理模型#xff0c;作者规模属实庞大。如果你正在使用Deep…一、摘要 本文跟大家来一起阅读DeepSeek团队发表于2025年1月的一篇论文《DeepSeek-R1: Incentivizing Reasoning Capability in LLMs via Reinforcement Learning | Papers With Code》新鲜的DeepSeek-R1推理模型作者规模属实庞大。如果你正在使用DeepSeek你会发现输入框下方有个“深度思考(R1)”的功能实际上就是在使用这篇文章所提出来的DeepSeek-R1大模型。 译文 我们推出了第一代推理模型 DeepSeek-R1-Zero 和 DeepSeek-R1。DeepSeek-R1-Zero 是一个通过大规模强化学习RL训练而成的模型在初步阶段没有进行有监督的微调SFT它展示出了卓越的推理能力。通过强化学习DeepSeek-R1-Zero 自然地呈现出许多强大而有趣的推理行为。然而它也面临着一些挑战如可读性差和语言混合。为了解决这些问题并进一步提高推理性能我们推出了 DeepSeek-R1它在强化学习之前结合了多阶段训练和冷启动数据。DeepSeek-R1 在推理任务上实现了与 OpenAI-o1-1217 相当的性能。为了支持研究社区我们开源了 DeepSeek-R1-Zero、DeepSeek-R1 以及六个从 DeepSeek-R1 基于 Qwen 和 Llama 提炼出的密集模型1.5B、7B、8B、14B、32B、70B。
二、核心创新点 论文指出以往的工作严重依赖大量的有监督数据来提升模型性能而作者在这篇论文中证明了即使不使用有监督微调SFT作为冷启动通过大规模的强化学习RL也能显著提升模型的推理能力。此外加入少量冷启动数据可以进一步提升性能。论文介绍了两个推理模型一个是DeepSeek-R1-Zero这是直接将RL应用于基础模型不使用任何SFT数据的模型另一个是DeepSeek-R1该模型从一个用数千个长思维链样例微调过的checkpoint开始应用RL。
1、DeepSeek-R1-Zero训练策略
1.1 强化学习策略Group Relative Policy OptimizationGRPO 为了节省强化学习的成本作者使用了GRPO技术。该技术舍弃了通常与策略模型大小相同的critic模型取而代之的是从Group分数中来评估baseline。具体来说对于每个问题qGRPO从旧策略中采样一组输出接着通过最大化以下目标来优化策略模型 其中和是超参数是优势使用与每个组内的输出相对应的一组奖励来计算 1.2 奖励模型 奖励是训练信号的来源决定了强化学习的优化方向。为了训练DeepSeek-R1-Zero作者采用了一个基于规则的奖励系统由两种类型的奖励构成
准确率奖励准确率奖励模型评估响应是否正确。例如对于具有确定性结果的数学问题模型需要以指定格式提供最终答案。格式奖励格式奖励模型强制受训练的模型将其思考过程放在“think”和“/think”标签之间。 作者指出在开发DeepSeek-R1-Zero时不应用结果或者过程神经奖励模型是因为神经奖励模型在大规模强化学习的过程中可能会受到奖励黑客攻击。
1.3 训练模板 作者设计了一个简单的模板来引导基础模型遵循指定的指令。这个模板要求模型先生成推理过程然后给出最终答案。 2、DeepSeek-R1 在对DeepSeek-R1-Zero的训练过程中出现了两个自然的问题一个是通过加入少量高质量数据作为冷启动推理性能能否进一步提高另一个是如何训练一个用户友好的模型该模型不仅能够产生清晰连贯的思维链还能展示出强大的通用能力由此作者设计了一个用于训练DeepSeek-R1的pipeline。
2.1 冷启动 与DeepSeek-R1-Zero不同为了防止基础模型中强化学习训练的早期不稳定冷启动阶段对于DeepSeek-R1作者构建并收集少量的长思维链数据以微调模型作为初始的强化学习actor。这里作者收集了数千个冷启动数据以微调DeepSeek-V3-Base作为RL的起点。与DeepSeek-R1-Zero相比冷启动数据的优势在于
可读性DeepSeek-R1-Zero的一个关键限制是其内容通常不适合阅读。回复可能会混合多种语言或缺乏Markdown格式来突出显示给用户的答案。相比之下在为DeepSeek-R1创建冷启动数据时作者设计了一种可读的模式即在每个回复的末尾包含一个摘要并过滤掉不便于读者阅读的回复。在这里作者将输出格式定义为|特殊标记|推理过程|特殊标记|摘要其中推理过程是查询的思维链而摘要用于总结推理结果。潜力通过使用人类先验仔细设计冷启动数据的模式DeepSeek-R1-Zero的性能更好。
2.2 面向推理的强化学习 在对DeepSeek-V3-Base在冷启动数据上进行微调后作者应用与DeepSeek-R1-Zero相同的大规模强化学习训练过程。这个阶段侧重于增强模型的推理能力特别是在编码、数学、科学和逻辑推理等推理密集型任务中。 在训练过程中思维链CoT经常出现语言混合特别是当强化学习提示涉及多种语言时。为了缓解语言混合问题作者在强化学习训练期间引入了语言一致性奖励该奖励通过统计思维链中目标语言单词的比例来计算。尽管消融实验表明这种对齐会导致模型性能略有下降但作者认为这种奖励符合人类偏好使其更具可读性。最后作者将推理任务的准确性和语言一致性奖励直接相加形成最终奖励。然后在微调后的模型上应用强化学习训练直到模型在推理任务上达到收敛。
2.3 抑制采样和有监督微调 当以推理为导向的强化学习收敛时作者利用得到的checkpoint为下一轮收集有监督微调数据。与最初主要侧重于推理的冷启动数据不同这个阶段结合了来自其他领域的数据以增强模型在写作、角色扮演和其他通用任务方面的能力。具体来说按照以下方式生成数据并微调模型
推理数据作者整理了推理提示并通过从上述强化学习训练的checkpoint进行抑制采样来生成推理轨迹。在这个阶段合并了额外的数据来扩展数据集其中一些数据通过将真实结果和模型预测输入到DeepSeek-V3中进行判断来使用生成式奖励模型。最后作者收集了大约 60 万个与推理相关的训练样本。非推理数据对于非推理数据如写作、事实性问答、自我认知和翻译作者采用DeepSeek-V3 的pipeline并复用DeepSeek-V3的SFT数据集的部分内容。对于某些非推理任务作者通过提示调用DeepSeek-V3在回答问题之前生成一个潜在的思维链。然而对于更简单的查询如“你好”则在响应中不提供思维链。最后收集了总共约 20 万个与推理无关的训练样本。
2.4 通用化 为了进一步使模型与人类偏好保持一致作者还实施了一个二级强化学习阶段旨在提高模型的有用性和无害性同时改进其推理能力。具体来说使用奖励信号和多样化提示分布的组合来训练模型。对于推理数据遵循DeepSeek-R1-Zero中概述的方法该方法利用基于规则的奖励来指导数学、代码和逻辑推理领域的学习过程。对于一般数据作者采用奖励模型来捕捉复杂和微妙场景中的人类偏好。以DeepSeek-V3 pipeline为基础并采用类似的偏好对和训练提示分布。 对于有用性作者仅关注最终总结确保评估强调响应对用户的实用性和相关性同时最大限度地减少对底层推理过程的干扰。对于无害性作者评估模型的整个响应包括推理过程和总结以识别和减轻生成过程中可能出现的任何潜在风险、偏差或有害内容。最终奖励信号和多样化数据分布的整合使作者能够训练出在推理方面表现出色的模型同时优先考虑有用性和无害性。