下载客户端

阿里Qwen3重磅开源，全球119语种通吃

2025-05-06 11:13

来源：澎湃新闻·澎湃号·湃客

听全文

大数据文摘出品

近日，阿里团队毫无预兆地放出了Qwen3系列大模型，包括2个MoE架构模型和6个密集模型，参数规模从0.6B到235B不等。

最引人注目的旗舰模型Qwen3-235B-A22B，在多项基准测试中直接对标OpenAI的o3-mini和谷歌Gemini 2.5 Pro。

目前，目前包括32B版本在内的多个模型已经登陆Hugging Face和GitHub。

Web端：https://chat.qwen.ai

Hugging Face 模型仓库：https://huggingface.co/Qwen

GitHub 项目主页：https://github.com/QwenLM

一句话总结：Qwen3 是什么？

一套参数从 0.6B 到 235B 的全新系列大模型，具备“混合专家架构”、“自适应思考模式”、“多语言支持”、“代码+推理能力强化”，并大部分开源、可商用，支持 Hugging Face、GitHub、ModelScope、Kaggle 多平台部署。

01 性能实测：不是“吊打GPT”，但是真·能打

先看数据。其中，最受关注的自然是Qwen3-235B-A22B。在AIME数学测试中，击败OpenAI的o3-mini；

在Codeforces编程竞赛中，超过Gemini 2.5 Pro；在BFCL推理评测中，展现出混合专家模型的强大上下文处理能力。

过去我们对大模型的要求只有两件事：答得准、答得快。

Qwen3在此基础上，给出了一个新的维度：“思考预算”的灵活控制机制。

即实现了思考模式与速答模式的无缝切换，用户可以根据任务复杂度自由分配思考预算。

速答模式（Non-Thinking Mode）：适合处理简单问答、快速交互，低延迟、高吞吐。

思考模式（Thinking Mode）：适合复杂推理、代码分析、数学题解等场景，采用逐步推理方式，类似人类的“分步思考”。

图注：阿里一口气放出了 8 个模型。2 个 MoE 模型和 6 个 Dense 模型，全线支持 Apache 2.0 开源协议

此外，Qwen3 的 MoE 模型（混合专家）非常值得关注。Qwen3‑30B‑A3B 模型：总参数30B，每次调用只激活3B。实际跑出来的效果，却能打平甚至超过 QwQ‑32B（全参数）模型。

显然，这意味着：更高的计算效率；更低的推理成本；更强的可扩展性。在大模型算力越来越烧钱的今天，这种架构方向极有可能成为主流

此外，Qwen3 支持 119 种语言与方言，覆盖欧系、汉藏、闪含、南岛、达罗毗荼、突厥、乌拉尔、壮侗、南亚、日韩等语系。Qwen3 不是“中文版GPT”，而是一个真正意义上的“全球大模型”。

02 大数据，大架构，大进化

相比 Qwen2.5，Qwen3 预训练数据规模翻倍，达到 36 万亿 tokens，并首度引入：高质量 PDF 文档解析（由 Qwen2.5-VL 提供视觉识别支持）；数学、代码领域合成数据（由 Qwen2.5-Math 和 Qwen2.5-Coder 生成）；多轮长文本推理对话数据。

三阶段预训练流程：S1：通识语言技能 + 4K 上下文训练；S2：知识密集型任务提升 + 5T tokens；S3：长上下文适配 + 32K 上下文扩展

为了实现“会深思，也能快答”的混合能力，设计了四段式后训练流程：长链式推理冷启动（CoT）；基于推理；能力的强化学习（RL）；推理与快答能力融合训练；通用任务领域强化学习（20+ 任务）

这使得 Qwen3 不仅擅长数学、逻辑、代码等复杂任务，也能快速响应日常对话和指令。

Qwen3，不只是一款模型，而是一整套 “思考力 × 速度 × 多语言 × 工具用法” 的系统解决方案。

它是我们对未来 AI 助手形态的第一个具象化回答。

原标题：《阿里 Qwen3 重磅开源，MoE架构对标OpenAI / 谷歌，全球119语种通吃！》

阅读原文

特别声明

本文为澎湃号作者或机构在澎湃新闻上传并发布，仅代表该作者或机构观点，不代表澎湃新闻的观点或立场，澎湃新闻仅提供信息发布平台。申请澎湃号请用电脑访问http://renzheng.thepaper.cn。

我要举报

扫码下载澎湃新闻客户端

澎湃矩阵

新闻报料

报料热线: 021-962866
报料邮箱: news@thepaper.cn

沪ICP备14003370号

沪公网安备31010602000299号

互联网新闻信息服务许可证：31120170006

增值电信业务经营许可证：沪B2-2017116

反馈