- +1
阿里Qwen3重磅开源,全球119语种通吃

大数据文摘出品
近日,阿里团队毫无预兆地放出了Qwen3系列大模型,包括2个MoE架构模型和6个密集模型,参数规模从0.6B到235B不等。

最引人注目的旗舰模型Qwen3-235B-A22B,在多项基准测试中直接对标OpenAI的o3-mini和谷歌Gemini 2.5 Pro。
目前,目前包括32B版本在内的多个模型已经登陆Hugging Face和GitHub。
Web端:https://chat.qwen.ai
Hugging Face 模型仓库:https://huggingface.co/Qwen
GitHub 项目主页:https://github.com/QwenLM
一句话总结:Qwen3 是什么?
一套参数从 0.6B 到 235B 的全新系列大模型,具备“混合专家架构”、“自适应思考模式”、“多语言支持”、“代码+推理能力强化”,并大部分开源、可商用,支持 Hugging Face、GitHub、ModelScope、Kaggle 多平台部署。
01 性能实测:不是“吊打GPT”,但是真·能打
先看数据。其中,最受关注的自然是Qwen3-235B-A22B。在AIME数学测试中,击败OpenAI的o3-mini;

在Codeforces编程竞赛中,超过Gemini 2.5 Pro;在BFCL推理评测中,展现出混合专家模型的强大上下文处理能力。
过去我们对大模型的要求只有两件事:答得准、答得快。
Qwen3在此基础上,给出了一个新的维度:“思考预算”的灵活控制机制。
即实现了思考模式与速答模式的无缝切换,用户可以根据任务复杂度自由分配思考预算。
速答模式(Non-Thinking Mode):适合处理简单问答、快速交互,低延迟、高吞吐。
思考模式(Thinking Mode):适合复杂推理、代码分析、数学题解等场景,采用逐步推理方式,类似人类的“分步思考”。


图注:阿里一口气放出了 8 个模型。2 个 MoE 模型 和 6 个 Dense 模型,全线支持 Apache 2.0 开源协议
此外,Qwen3 的 MoE 模型(混合专家)非常值得关注。Qwen3‑30B‑A3B 模型:总参数30B,每次调用只激活3B。实际跑出来的效果,却能打平甚至超过 QwQ‑32B(全参数)模型。
显然,这意味着:更高的计算效率;更低的推理成本;更强的可扩展性。在大模型算力越来越烧钱的今天,这种架构方向极有可能成为主流
此外,Qwen3 支持 119 种语言与方言,覆盖欧系、汉藏、闪含、南岛、达罗毗荼、突厥、乌拉尔、壮侗、南亚、日韩等语系。Qwen3 不是“中文版GPT”,而是一个真正意义上的“全球大模型”。
02 大数据,大架构,大进化
相比 Qwen2.5,Qwen3 预训练数据规模翻倍,达到 36 万亿 tokens,并首度引入:高质量 PDF 文档解析(由 Qwen2.5-VL 提供视觉识别支持);数学、代码领域合成数据(由 Qwen2.5-Math 和 Qwen2.5-Coder 生成);多轮长文本推理对话数据。
三阶段预训练流程:S1:通识语言技能 + 4K 上下文训练;S2:知识密集型任务提升 + 5T tokens;S3:长上下文适配 + 32K 上下文扩展
为了实现“会深思,也能快答”的混合能力,设计了四段式后训练流程:长链式推理冷启动(CoT);基于推理;能力的强化学习(RL);推理与快答能力融合训练;通用任务领域强化学习(20+ 任务)
这使得 Qwen3 不仅擅长数学、逻辑、代码等复杂任务,也能快速响应日常对话和指令。
Qwen3,不只是一款模型,而是一整套 “思考力 × 速度 × 多语言 × 工具用法” 的系统解决方案。
它是我们对未来 AI 助手形态的第一个具象化回答。
原标题:《阿里 Qwen3 重磅开源,MoE架构对标OpenAI / 谷歌,全球119语种通吃!》
本文为澎湃号作者或机构在澎湃新闻上传并发布,仅代表该作者或机构观点,不代表澎湃新闻的观点或立场,澎湃新闻仅提供信息发布平台。申请澎湃号请用电脑访问http://renzheng.thepaper.cn。





- 报料热线: 021-962866
- 报料邮箱: news@thepaper.cn
互联网新闻信息服务许可证:31120170006
增值电信业务经营许可证:沪B2-2017116
© 2014-2026 上海东方报业有限公司




