阿里巴巴发布新一代通义千问Qwen3模型,登顶全球最强开源模型
前沿技术
沈阳软件开发编辑
发布时间:2025-04-29
浏览:975 次 近日,阿里巴巴在凌晨时段震撼发布了其最新一代通义千问Qwen3模型,这一创新成果不仅在国内首次引入了“混合推理模型”的概念,更是一举登上了全球最强开源模型的宝座,为人工智能领域树立了新的里程碑。
Qwen3模型集成了“快思考”与“慢思考”两种模式,实现了在同一模型中的高效融合。这种设计不仅大大节省了算力消耗,更为用户提供了前所未有的灵活性和便捷性。现在,无论是面对需要深入思考的复杂问题,还是追求快速响应的简单任务,Qwen3都能轻松应对,展现出卓越的性能。
阿里云此次开源了两个MoE模型的权重:Qwen3-235B-A22B和Qwen3-30B-A3B。其中,Qwen3-235B-A22B拥有超过2350亿总参数和220多亿激活参数,是全球范围内参数规模庞大的大模型之一。而Qwen3-30B-A3B则以约300亿总参数和30亿激活参数的“小巧身材”,展现了令人惊叹的性能表现。此外,阿里云还开源了六个Dense模型,涵盖了从Qwen3-0.6B到Qwen3-32B的不同参数规模,为用户提供了丰富的选择空间。
在基准测试中,Qwen3旗舰模型Qwen3-235B-A22B与DeepSeek-R1、o1、o3-mini、Grok-3和Gemini-2.5-Pro等顶级模型相比,展现出了极具竞争力的结果。特别是在STEM、编码和推理等领域,Qwen3 Dense基础模型的表现甚至超越了更大规模的Qwen2.5模型。这一突破性成果得益于模型架构的改进、训练数据的增加以及更有效的训练方法。
值得一提的是,Qwen3模型还支持多达119种语言和方言,这一广泛的多语言能力为国际应用开辟了新的可能性。无论是简体中文、繁体中文还是粤语等方言,Qwen3都能轻松识别并处理,让全球用户都能享受到这一强大模型的便捷服务。
在预训练方面,Qwen3的数据集相比前代Qwen2.5有了显著扩展。Qwen3使用的数据量几乎达到了Qwen2.5的两倍,涵盖了119种语言和方言,总量约36万亿个token。这一庞大的数据集为模型的预训练提供了坚实的基础,确保了模型在处理各种复杂任务时的准确性和稳定性。
为了构建这一庞大的数据集,阿里云不仅从网络上收集数据,还从PDF文档中提取信息,并利用Qwen2.5-VL和Qwen2.5等模型改进提取内容的质量。此外,为了增加数学和代码数据的数量,阿里云还合成了包括教科书、问答对以及代码片段等多种形式的数据,进一步丰富了数据集的内容。
Qwen3模型的发布标志着阿里巴巴在人工智能领域取得了又一重大突破。未来,随着技术的不断发展和应用的不断拓展,Qwen3有望在更多领域发挥重要作用,为人们的生活和工作带来更多便利和惊喜。现在,您可以在Qwen Chat网页版和通义App中试用Qwen3模型,亲身体验这一创新成果带来的魅力。

QQ客服:7606037