deepseek-r1

2025-02-01 本文已影响0人 Wu杰语

deepseek-r1是深度搜索公司的开源思维链模型，可以在https://www.deepseek.com，进入 https://api-docs.deepseek.com/zh-cn/news/news250120，在这篇文章中介绍了论文连接https://github.com/deepseek-ai/DeepSeek-R1/blob/main/DeepSeek_R1.pdf。

1. DeepSeek-v3、DeepSeek-R1-Zero、DeepSeek-R1

要搞清deepseek大模型，有3个概念要先搞清楚：

DeepSeek-V3，这是一款强大的专家混合（MoE）语言模型，总参数量达 6710 亿，每个标记激活的参数量为 370 亿。
DeepSeek-R1-Zero 是通过大规模强化学习（RL）训练而成，未经过监督微调（SFT）的初步模型，展现出了卓越的推理能力。通过强化学习，DeepSeek-R1-Zero 自然地形成了众多强大且有趣的推理行为。
DeepSeek-R1，由于DeepSeek-R1-Zero存在可读性差和语言混
杂等问题。为了解决这些问题并进一步提升推理性能，DeepSeek推出了DeepSeek-R1。

DeepSeek-V3是基础大模型， DeepSeek-R1-Zero 和 DeepSeek-R1是推理模型(COT)。

2. DeepSeek-R1的性能如何

DeepSeek-R1的对比对象是OpenAI-o1-1217，OpenAI-o1-mini，这两个模型是OpenAI最先进的推理大模型，但是是闭源的。DeepSeek公布了在6个数据集上对比结果，从结果看，DeepSeek-R1和OpenAI-o1-1217相当，在DeepSeek-R1开源的基础上，DeepSeek-R1就是OpenAI-o1推理模型的平替。

image.png

3. DeepSeek训练

3.1 DeepSeek-R1-Zero

DeepSeek-R1-Zero通过强化学习算法组相对策略优化（GRPO）（Shao 等人，2024）训练推理能力，该方法舍弃了通常与策略模型大小相同的评价模型，而是从组得分中估计基准值。DeepSeek-R1-Zero通过奖励模型进行强化训练（准确性奖励和格式奖励），在无需任何监督微调数据的情况下获得强大的推理能力。

尽管 DeepSeek-R1-Zero 展现出强大的推理能力，并能自主开发出意想不到且强大的推理行为，但它也面临一些问题。例如，DeepSeek-R1-Zero 在诸如可读性差和语言混杂等方面存在挑战。

3.2 DeepSeek-R1

DeepSeek-R1是通过收集冷启动数据，在DeepSeek-V3基础上通过微调得到。所谓冷启动，就是模型初次运行时，没有足够的历史数据。DeepSeek为了收集此类数据，探索了多种方法：使用少量示例的长链推理进行提示，直接提示模型生成包含反思和验证的详细答案，收集 DeepSeek-R1-Zero 的输出并以可读格式呈现，以及通过人工标注员进行后期处理来优化结果。

为解决语言混杂的问题，DeepSeek在强化学习训练中引入了语言一致性奖励，其计算方式为 CoT 中目标语言词汇的比例。尽管消融实验表明这种对齐会导致模型性能略有下降，但这种奖励符合人类偏好，使输出更具可读性。最后，我们将推理任务的准确性与语言一致性奖励直接相加，形成最终奖励。

3.3 蒸馏(distill)

为了给像 DeepSeek-R1 这样具备推理能力的更高效的小型模型配备更强大的功能，DeepSeek直接使用 DeepSeek-R1 精选的 80 万份样本对 Qwen（Qwen，2024b）和 Llama（AI@Meta，2024）等开源模型进行了微调。研究结果表明，这种直接的知识蒸馏方法显著提升了小型模型的推理能力。这里使用的基模型包括 Qwen2.5-Math-1.5B、Qwen2.5-Math-7B、Qwen2.5-14B、Qwen2.5-32B、Llama-3.1-8B 和 Llama-3.3-70B-Instruct。我们选择 Llama-3.3 是因为其推理能力略优于 Llama-3.1。

4. DeepSeek应用

DeepSeek-R1开源模型以优异的能力比肩OpenAI-o1，必将引来更加激励的技术竞争，对于我等普通大众来讲，就是大幅度的降低了大模型的使用成本。

在短视频里有很多教程都在教授部署本地大模型，由于硬件限制，最好的办法还是直接使用商业版的DeepSeek-R1，成本已经足够低了。

英伟达、微软、AMD等国际大公司已经宣布支持DeepSeek-R1模型，并且在程序员日常工具很多已经支持DeepSeek-R1了，例如说Cursor