Qwen3 模型：阿里巴巴的混合模型 AI 突破解释

by 阿里

1年前 0 921

尽管科技巨头们争夺 AI 阿里巴巴已经掀起了一股冲击波： Qwen3 模型。这些不仅仅是升级——它们是对开源人工智能潜力的重新定义。

Qwen3 于上周发布，涵盖 八种型号，从轻量级 600M 版本（适合笔记本电脑）到 235B MoE 庞然大物 超越 Open 等顶级竞争对手AI 以及谷歌。但 Qwen3 的独特之处在于 “混合思维”—根据任务在深度推理和快速响应之间智能切换。

最好的？ It's 完全开源。 全球各地的开发人员发现 Qwen3 可以与高端机型相媲美甚至超越高端机型，而成本却只是后者的一小部分。

Qwen3 型号系列：满足各种需求的尺寸

Qwen3 代表了 AI 模型设计，为密集模型和混合专家（MoE）变体。这里's 完整阵容：

型号名称	总参数	活动参数	型号型号	上下文长度
Qwen3-235B-A22B	235亿	22亿	教育部	128K 代币
Qwen3-30B-A3B	30亿	3亿	教育部	128K 代币
Qwen3-32B	32亿	无	稠密	128K 代币
Qwen3-14B	14亿	无	稠密	128K 代币
Qwen3-8B	8亿	无	稠密	128K 代币
Qwen3-4B	4亿	无	稠密	32K 代币
Qwen3-1.7B	1.7亿	无	稠密	32K 代币
Qwen3-0.6B	0.6亿	无	稠密	32K 代币

最令人着迷的是 MoE 架构支持令人印象深刻的效率。例如，Qwen3-30B-A3B 模型在推理过程中仅激活 3B 个参数，但其性能却优于许多完全激活的 32B 个参数模型。这种巧妙的设计无需过多的计算资源即可提供高端性能。

研究表明，此类 MoE 模型可以匹配其活跃尺寸 3-5 倍的模型的功能，从而使其部署极具成本效益。

Qwen3's 最具突破性的创新是其双重思维方式——这是其他开源模型系列所不具备的灵活性。

思考模式： 当面对需要多步推理的复杂问题（例如数学、编程或逻辑谜题）时，Qwen3 会启动其思维模式，逐步完成具有挑战性的任务，最终得出最终答案。

非思考模式： 对于简单的查询或随意的对话，Qwen3 会切换到非思考模式，提供快速、简洁的响应，而无需不必要的计算开销。

与 用户可控制的“思考预算”， 开发人员可以微调 Qwen3 的推理程度—— 性能提升高达 65% 完成高等数学等任务。

虽然大多数顶级模型主要关注英语，但 Qwen3 的训练基于涵盖 119 种语言和方言的庞大数据集。这种广泛的语言支持使其对于全球应用和服务欠缺的语言社区尤为重要。

内部基准测试显示，Qwen3-235B-A22B 在阿拉伯语、印地语和泰语等语言的复杂推理任务中达到了 87% 的准确率，接近其在英语任务中 92% 的准确率。如此之小的跨语言性能差距在同类产品中是前所未有的。开源模型.

现代 AI 应用程序越来越需要模型与外部工具和系统进行交互。Qwen3 在这方面表现出色，增强了对模型上下文协议（MCP）、改进的工具调用能力以及用于构建智能代理的专用 Qwen-Agent 框架。

独立开发人员的测试表明，Qwen3 模型在需要多种工具交互的复杂代理任务中实现了 78% 的成功率，大大优于开源领域的许多竞争对手。

Qwen3's 令人印象深刻的能力源于跨越三个不同阶段的复杂培训方法：

在最初的预训练之后，Qwen3 经历了四步的后训练过程：

这种方法解释了为什么即使是紧凑型 Qwen3-4B 模型也能胜过许多更大的竞争对手——它受益于从该系列中更大的模型中提炼出的知识。

最近的基准测试结果让很多人感到惊讶 AI 研究人员表示，Qwen3 模型在与更强大的竞争对手的竞争中表现出色。

与行业领先者相比，旗舰 Qwen3-235B-A22B 型号表现出色：

编码性能： 在 CodeForces Elo Rating、BFCL 和 LiveCodeBench v5 基准测试中处于领先地位，甚至超越了 DeepSeek-R1 和 OpenAI's o1。
数学： 在 ArenaHard 和 AIME 基准测试中，得分仅比 Gemini 3.2 Pro 低 2.5%，但却以明显更少的活动参数实现了这一目标。
一般推理： 在完全开源的情况下，复杂推理基准上的表现与 GPT-5o 相差 4% 以内。