Qwen3 的技术报告

2025-05-18  本文已影响0人  ndxs2008

Qwen3 的技术报告。挑一些我个人觉得有意思的点分享一下:

预训练数据量惊人:
总共用了约 36 万亿 token!来源也很多样,

三阶段预训练策略很清晰:

SFT 阶段搞了个 "Thinking Mode Fusion",挺有意思的:

蒸馏表现优异! 报告明确说蒸馏比直接 RL 效果和成本都好。Qwen3 小模型蒸馏分两步:

MoE 架构调整:

数据配比精细化:

推理冷启动数据处理很细致:

RL 阶段数据选择四原则:

奖励模型也搞了三种:规则(精确防 hacking)、模型打分(带参考答案,更灵活)、模型直接打分(基于人类偏好,无需参考答案,提参与度和帮助性)。覆盖 20+ 任务,每种都有定制打分规则。

其他零散但有意思的点:

image.png
上一篇 下一篇

猜你喜欢

热点阅读