deepseek-r1

2025-02-01  本文已影响0人  Wu杰语

deepseek-r1是深度搜索公司的开源思维链模型,可以在https://www.deepseek.com,进入 https://api-docs.deepseek.com/zh-cn/news/news250120,在这篇文章中介绍了论文连接https://github.com/deepseek-ai/DeepSeek-R1/blob/main/DeepSeek_R1.pdf

1. DeepSeek-v3、DeepSeek-R1-Zero、DeepSeek-R1

要搞清deepseek大模型,有3个概念要先搞清楚:

DeepSeek-V3是基础大模型, DeepSeek-R1-Zero 和 DeepSeek-R1是推理模型(COT)。

2. DeepSeek-R1的性能如何

DeepSeek-R1的对比对象是OpenAI-o1-1217,OpenAI-o1-mini,这两个模型是OpenAI最先进的推理大模型,但是是闭源的。DeepSeek公布了在6个数据集上对比结果,从结果看,DeepSeek-R1和OpenAI-o1-1217相当,在DeepSeek-R1开源的基础上,DeepSeek-R1就是OpenAI-o1推理模型的平替

image.png

3. DeepSeek训练

3.1 DeepSeek-R1-Zero

DeepSeek-R1-Zero通过强化学习算法组相对策略优化(GRPO)(Shao 等人,2024)训练推理能力,该方法舍弃了通常与策略模型大小相同的评价模型,而是从组得分中估计基准值。DeepSeek-R1-Zero通过奖励模型进行强化训练(准确性奖励和格式奖励),在无需任何监督微调数据的情况下获得强大的推理能力。

尽管 DeepSeek-R1-Zero 展现出强大的推理能力,并能自主开发出意想不到且强大的推理行为,但它也面临一些问题。例如,DeepSeek-R1-Zero 在诸如可读性差和语言混杂等方面存在挑战。

3.2 DeepSeek-R1

DeepSeek-R1是通过收集冷启动数据,在DeepSeek-V3基础上通过微调得到。所谓冷启动,就是模型初次运行时,没有足够的历史数据。DeepSeek为了收集此类数据,探索了多种方法:使用少量示例的长链推理进行提示,直接提示模型生成包含反思和验证的详细答案,收集 DeepSeek-R1-Zero 的输出并以可读格式呈现,以及通过人工标注员进行后期处理来优化结果。

为解决语言混杂的问题,DeepSeek在强化学习训练中引入了语言一致性奖励,其计算方式为 CoT 中目标语言词汇的比例。尽管消融实验表明这种对齐会导致模型性能略有下降,但这种奖励符合人类偏好,使输出更具可读性。最后,我们将推理任务的准确性与语言一致性奖励直接相加,形成最终奖励。

3.3 蒸馏(distill)

为了给像 DeepSeek-R1 这样具备推理能力的更高效的小型模型配备更强大的功能,DeepSeek直接使用 DeepSeek-R1 精选的 80 万份样本对 Qwen(Qwen,2024b)和 Llama(AI@Meta,2024)等开源模型进行了微调。研究结果表明,这种直接的知识蒸馏方法显著提升了小型模型的推理能力。这里使用的基模型包括 Qwen2.5-Math-1.5B、Qwen2.5-Math-7B、Qwen2.5-14B、Qwen2.5-32B、Llama-3.1-8B 和 Llama-3.3-70B-Instruct。我们选择 Llama-3.3 是因为其推理能力略优于 Llama-3.1。

4. DeepSeek应用

DeepSeek-R1开源模型以优异的能力比肩OpenAI-o1,必将引来更加激励的技术竞争,对于我等普通大众来讲,就是大幅度的降低了大模型的使用成本。

在短视频里有很多教程都在教授部署本地大模型,由于硬件限制,最好的办法还是直接使用商业版的DeepSeek-R1,成本已经足够低了。

英伟达、微软、AMD等国际大公司已经宣布支持DeepSeek-R1模型,并且在程序员日常工具很多已经支持DeepSeek-R1了,例如说Cursor


image.png

对于行业大众来讲,快速接受AI,乘坐趋势,赋能AI+是我们需要做的事情。

上一篇 下一篇

猜你喜欢

热点阅读