OpenAI压力来了？阿里Qwen3凭省电模式登顶「全球开源模型冠军」|算法|调用|翻译|知名企业|openai|阿里巴巴集团|阿里qwen3

OpenAI压力来了？阿里Qwen3凭省电模式登顶「全球开源模型冠军」

2025-05-12 17:48:22　来源: AI大模型工场

北京举报

分享至

作者｜西梅汁

编辑｜星奈

媒体｜AI大模型工场

OpenAI突然宣布：放弃营利性转型，回归非营利初心！Sam Altman更是称要为全人类打造「全球大脑」，AGI不该服务少数人。这一决策被外界解读为巨头在技术瓶颈与商业压力间的无奈妥协。

而上周阿里开源Qwen3以来，这款号称“全球最强开源模型”的AI，凭借“半价碾压同行”“奥数题秒杀GPT-4”的争议性表现，迅速成为科技圈的顶流。

又仅仅只用一周的时间，国际大模型界的“奥林匹克”LiveBench榜单公布——阿里Qwen3-235B-A22B以开源模型身份登顶总榜冠军，甚至“越级打怪”，在指令遵循能力上碾压OpenAI的o4-Mini High、谷歌Gemini 2.5 Pro等闭源顶流，让开发者们集体好奇：“开源模型也能这么强？！”

无不向世界展现了另一种可能：AI的终极目标或许不在盈利模式，而是如何让技术渗透进每个角落。

那么我们先来了解，阿里的这只“卡皮巴拉”和它的家族。阿里上周总共开源 8 款模型，包括 2 款 MoE 模型和 6 款 Dense 模型。

2 款 MoE 模型：

旗舰版 Qwen3-235B-A22B，激活参数仅22B，部署成本为 DeepSeek R1 的三分之一。

迷你版 Qwen3-30B-A3B，激活参数仅3B，整体性能堪比 Qwen2.5-32B，适合消费级显卡部署。

6 款 Dense 模型：

0.6B、1.7B、4B、8B、14B、32B这6款稠密模型，均采用 Apache 2.0许可。

解锁“新族谱”后，我们就来重点看看这款号称“混合推理之王”的模型Qwen3旗舰版235B-A22B ，怎么引的X上的网友连连叫好？它究竟是国产AI的里程碑，还是营销噱头？

一从“思考模式”到方言翻译甚至工具调用，这次它想当“全能学霸”

阿里这次给Qwen3塞了一堆新技能，核心亮点可以用三个关键点概括：混合推理模型、丰富的语言支持、Agent调用功能。

Qwen3最颠覆的设计，莫过于它的混合推理引擎，这个概念最早是由Claude3.7提出来的。“思考模式”与“非思考模式”的无缝切换，说白了就是，这个模型它既可以推理，也可以不推理。

主要是复杂答案深度思考，而对于简单答案通过控制，不生成思考过程，在不影响效果的情况下，实现秒回，提升效果、成本以及时间上的平衡。

比如输入用Python写一个快速排序函数，并解释时间复杂度，开启思考模式时，Qwen3会像学霸做题一样分步推导，先拆解算法逻辑再生成代码，甚至自我纠错。

而切换到非思考模式，它则秒回一段代码，并且没有冗长的思考过程。这种设计让用户能根据需求在“深度推理”和“快餐式应答”间自由选择，像是给AI装了个“省电模式开关”。

要知道，在此之前，是没有太好的办法直接让推理模型不生成思考过程，只能通过训练，连提示词都没办法控制。

另外在语言能力上，Qwen3 还支持119种语言和方言，从粤语到斯瓦希里语统统拿捏，甚至能理解“颗粒度”“顶层设计”“底层逻辑”这类行业黑话。更狠的是预训练数据量——36万亿token，相当于把整个互联网图书馆啃了两遍，连PDF里的公式和代码注释都没放过。

至于今年热门的Agent能力，原生支持工具调用，这个也是最近大厂的重点。

Qwen3 在工具调用能力方面的出色表现，主要通过Qwen 配套的 Qwen-Agent 项目，可以方便地使用 API 进行工具调用，或结合现有的工具链进行扩展。

二 Qwen3 vs OpenAI vs DeepSeek——一场“快、准、省”的三角对决

参数多不一定赢，但参数少还比你强那就很可怕了。

接下来，看看我们用三个典型场景展开实测：

1、高难度算法编程

主要看模型的数学以及逻辑推理能力，这次是在leetcode（主要专注于算法训练和求职准备的在线编程平台）这个网站上找的一些算法编程上的问题，前面几个编号高的都是新出的题目，并且模型做过的可能性也比较低，人类做这些题目至少都需要花费一两个小时，我们来丢给模型们写写看。

Qwen3-235B：把题干和答题格式一并发送过去后，Qwen3差不多花了两分钟左右给出答案，答题过程中吐字速度也很快，并且成功答对，代码运行速度仅269ms！

DeepSeek：同样能完成证明，咱们国产模型确实都很优秀,但是答案运行速度相对有点慢了。

OpenAI：看来题目对于openAI还是有点难度的，回答错误。

2、交互游戏代码生成

Prompt：做一个超级玛丽游戏，用html实现，需要有敌人，有平台，有金币

Qwen3-235B：30秒内生成完整代码，有俩个敌人的设定，但是画面中有一个敌人没有运行起来，有点美中不足。

DeepSeek：不得不承认，这种低门槛交互性的小游戏，DeepSeek做的都还挺不错的，有敌人，有平台，有金币，各个小元素都做到了。

OpenAI：同样生成速度很快，但是画面过于简单，总体来看不如前面两者。

3、古诗翻译

Prompt：将以下中文古诗翻译成英文，保留押韵和意境：“床前明月光，疑是地上霜。举头望明月，低头思故乡。

Qwen3-235B：

第一句“亮月光洒窗棂”，直接对应“明月几时有”，既忠于原意，又保持了诗意。第二句“如银霜，泛清辉”，既点出了月光像霜的比喻，也保留了“银霜”这个意象，同时让语言更有美感。后两句“抬首望明月，低头念故乡”，则直接传递了诗人的动作和情感。这种翻译方式既简洁明了，又符合古诗的风格。

DeepSeek:

诗的第一句“Before my bed, a silver pool gleams”描述了月光洒在床前的景象，这里的“silver pool”比喻的是月光的闪烁。第二句“Is it frost veiling the earthly scenes?”则用一个疑问句表述，他以为地上的月光像是霜。第三句“Eyes raised, the moon's pearly charm I see”是诗人抬头仰望明月的动作，表达了对月光的欣赏。最后一句“Head bent, my soul drifts where home rivers flow free”则直接点明了思乡的主题。

OpenAI：虽能翻译但是更加像直译过来的意思，“shines bright”和“last night”押韵，但第三、四句的“glow”和“home”没有押韵。“疑是地上霜”翻译成“Like frost upon the floor last night”也不够准确，原意是“怀疑是地上的霜”，所以用“suspected”不太贴切。

直观看来，还是咱们的国产大模型更懂古人的韵味！

整体跑下来，三款模型其实差别不是很大，但是阿里的优势就在于，它以最小的模型参数，仍旧可以保持稳定输出。同时，阿里的全栈开源策略也加速了技术普惠。

当开源社区的朋友们已经争相在Qwen3的开放生态中探索更多可能性，这场技术革命已不再局限于实验室的代码与参数。而这场大模型竞赛似乎正把《复仇者联盟》里的"贾维斯"加速拽进现实——只不过，这个未来可能得说着一口流利的方言！

声明：个人原创，仅供参考

特别声明：以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布，本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.