腾讯新AI模型上线6天夺全球第一，超越GPT-4，彻底打破海外垄断！|调用|编程|刘炽平|网络信息|知名企业|gpt-4

腾讯新AI模型上线6天夺全球第一，超越GPT-4，彻底打破海外垄断！

分享至

国产AI这回真的翻身了！腾讯新模型上线6天拿下全球第一，工具调用能力吊打Claude和GPT-4o，干掉海外垄断，以后编程写稿办公全都能用上

4月29日这天，OpenRouter最新发布的全球大模型API调用量排行榜上，腾讯混元Hy3 preview的名字第一次挂在了总榜第一的位置上。围观的开发者愣了好几秒才反应过来，这是真的。总榜第一名，把Claude 3.5和GPT-4o踩在底下，而且只用了6天时间——从4月23日发布到登顶，满打满算，一个礼拜都不到。

一、这个“全球第一”到底有多真？

很多人听到“榜单第一”第一反应就是“又刷榜了吧”。但OpenRouter这个榜单和那些学术评测不一样。

OpenRouter是全球规模最大的大模型API分发平台，接入的模型超过300个，所有数据都来自全球开发者真实的API调用记录。简单说，这不是谁自己编个题目、找个实验室测出来的排名，而是全球开发者“用脚投票”投出来的——调用量越高，说明真实场景里用得越猛。

Hy3 preview不仅拿下了总榜第一，还在分场景的调用量排行榜里把“工具调用”干到了全球第一，“编程”干到了全球第二。工具调用这个能力指标，以前是谁的地盘？GPT-4o和Claude 3.5稳稳坐庄。这次直接换了名字。

有人可能会问，既然讲真实调用量，那是不是便宜的模型调用量自然就高？有这个因素，但光便宜什么用都没有。开发者选择API模型只盯着价格看吗？当然不是，价格很重要，但模型能不能干活才是底线。一个模型如果连基本的任务都接不住，再便宜也没人调用。所以这个榜单本质上是一场“性价比+能力”的双重验证，价格往下压了40%，能力往上顶到了全球第一，这才是它登顶的真正原因。

二、什么是“工具调用”？这才是大模型能不能干活的分水岭

翻看各种报道，都提到了“工具调用能力”这个词。但大多数普通人看到这里也就划过去了——这个词太技术了，不懂什么意思没关系，换个说法你就明白了。

以前的AI，就是你问一句，它答一句。你说“帮我查一下明天北京的天气”，它给你回一段话，你自己看，看完自己打开浏览器去订机票。工具调用能力的意思是：你给AI下达任务之后，它自己决定需要什么工具——打开浏览器的网页、核实行程、读取笔记本记事本同步日程、调出浏览器数据库查航班、调用天气API接口——把这一整套活儿全部干完。

腾讯混元内部的定位很清楚：Hy3 preview被定义为混元大模型从“读万卷书”走向“行万里路”的开端。翻译成人话就是：以前你考了不少试，现在你得真的出门办事了。这句话特别值得琢磨——很多模型的所谓“能力”就是会考试，但你真让它干点实际的活儿，它就原形毕露。这次Hy3 preview踩中的就是这个问题本身。

三、姚顺雨是谁？腾讯AI为什么突然支棱起来了

要说清楚这次突破，绕不开一个人：姚顺雨。

1998年出生，清华大学姚班出身，普林斯顿大学计算机科学博士，毕业后去了OpenAI，参与开发了Operator和Deep Research这两个明星产品。去年底腾讯重金把他挖来当首席AI科学家，外媒说年薪过亿，腾讯后来辟谣，但不管真实数字是多少，这大概是国内大厂最年轻的AI一号位。

关键是，姚顺雨入职后干的第一件事不是发论文、不是PPT汇报，而是把混元团队的情况摸了一遍。摸完之后他发现问题很严重——混元之前的评测体系出了大问题。团队为了榜单好看，把打榜用的数据直接塞进训练集，导致数据被污染，模型在真实场景里一用就露馅。腾讯总裁刘炽平在年会上也说过一句很重的话：以前的混元像高中生背题应考，成绩单好看，但一上考场就不行。

所以姚顺雨一上来就定了一个基调：不要盯着榜单做事。这句话从一个大模型团队的负责人嘴里说出来，本身就很有意思。他不让团队刷榜，不让团队盯着公开评测集的数字打转，而是自建了50多个内部评测基准来检验模型的真实能力。

与此同时，他给混元定了三条原则：能力体系化、评测真实性、性价比追求。听起来像套话，但实际执行起来非常狠。Hy3 preview采用MoE架构，总参数2950亿，但激活参数只有210亿——简单说就是参数很大但不全部跑起来，所以成本和速度都有优势。个人版套餐最低28元每月，推理效率比上一代提升了40%。这就是为什么它能在OpenRouter上调用量暴增。

在姚顺雨主导下，腾讯的组织架构也一并调整了。2026年3月，成立10年的腾讯AI Lab正式撤销，核心研发人员全部并入混元团队，归姚顺雨统一调度。一个10年的老牌研究机构说撤就撤，在腾讯这种大厂不是什么轻松的决定，但效果也很直接——所有AI力量收拢到一根线上，拧成一股绳。

四、6天登顶背后，藏着腾讯一个“借命”的故事

很多人不知道，一年前的混元大模型根本坐不上腾讯生态的主桌。自家的核心业务用AI能力的时候，甚至绕开混元自己找别家方案。

2025年春节后，DeepSeek R1爆火，腾讯做了一个极其务实但也极其扎心的决定：让元宝全面接入DeepSeek-R1。效果立竿见影，元宝日活在一个月内暴涨了超过20倍。从产品角度看，这是大胜利。但从AI团队的角度看，这事不是滋味——你是腾讯自己的大模型团队，结果用户跑过来用的是别人家的东西。

刘炽平在年会上复盘时说，腾讯的AI开发像产品里没有产品经理，研发团队没人把控方向，很多工作做了等于白做。这就是姚顺雨接手的烂摊子。

他的做法很简单：承认问题，然后彻底重来。从2026年1月底启动训练到4月23日发布，不到三个月。这次不是修修补补，是基础设施层面的全链路重建。预训练和强化学习的基础设施重新搭建，评测体系自建50多个基准，组织架构推到重来，AI Lab全部并入混元。做完这一切之后，Hy3 preview正式上线。

这才有了6天后OpenRouter榜单上的表现。

五、“工具调用第一”对普通人意味着什么？

说这么多，可能还是有人觉得“跟我有什么关系”。实际上关系很大。

腾讯已经在自家生态里批量上线Hy3 preview。元宝、QQ、QQ浏览器、腾讯文档、微信公众号、和平精英、腾讯新闻……日常能想到的腾讯产品基本全都在陆续接入或已经接入。你在元宝上问的问题、在腾讯文档里整理的文件、在QQ里查的东西，背后跑的已经是这个刚拿全球第一的模型了。

更值得关注的是腾讯在AI应用层的密集布子。姚顺雨入职后，腾讯连续推出了WorkBuddy等AI智能体产品。WorkBuddy不是替代程序员或者替代设计师的噱头产品，它的设计很有腾讯特色——给学生整理笔记做PPT，给职场人写周报写纪要，给创作者挖热点生成大纲，给普通用户清理电脑文件、手机远程访问本地文件。花旗的研报说得很直白，WorkBuddy的推出可能标志着中国AI代理市场正式进入拐点阶段。

把所有这些串起来看，链条就清晰了：底层是Hy3 preview这种真正有工具调用能力的模型撑住地基，中间层是姚顺雨主导的“实用主义”路线和三条能力原则，顶层是WorkBuddy、CodeBuddy、QClaw这些直接面向普通用户的产品。这套打法不像有些厂商那样喊口号“颠覆世界”，而是非常腾讯式的做法——先把基础设施修好了，再把你每天用的产品一个个升级，你甚至可能都感知不到变化，但体验确实在变。

六、反超的意义在于，中国AI终于有人“干活”了

这次Hy3 preview登顶，不只是腾讯一家的欢呼。

在OpenRouter榜单上，前9名中有4家中国企业。另外像小米的MiMo-V2-Pro，以30%的市占率拿下了周榜第一。中国模型在全球API调用总量上已经连续五周超过美国。这是一个结构性的变化。

回到工具调用这件事本身。为什么说它是大模型的核心实力？因为AI从“能聊天”到“能干活”，中间隔着整个工具生态。你问GPT-4o“帮我订张机票”，它给你列出几家航空公司的官网，你自己去点。但一个有工具调用能力的大模型，它自己打开浏览器搜索筛选价格对比时刻表，最后给你一个完整的方案。这就是60分和90分的区别。

姚顺雨此前在公开发言中说过一句话：企业更愿意为能将任务准确率从60%提升到90%的模型付费。这句话点出了AI产业化的本质。不是参数多炸裂、不是论文多光鲜，而是你的模型在真实场景里能不能办成事。

Hy3 preview在OpenRouter上拿了工具调用第一，编程第二，总榜第一。六天。从一个“模型不够用，自家业务跑去用别人家方案”的窘境，到全球开发者真金白银砸调用量投出来的榜首。这中间的转折，不是因为钱的多少，而是一个28岁的年轻人重新确立了“什么才是对的方向”。

姚顺雨在Hy3 preview发布当天发了一条消息："We are just getting started."

这次起跑，才算真正踩到了点上。

特别声明：以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布，本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.