国产AI这回真的翻身了!腾讯新模型上线6天拿下全球第一,工具调用能力吊打Claude和GPT-4o,干掉海外垄断,以后编程写稿办公全都能用上
4月29日这天,OpenRouter最新发布的全球大模型API调用量排行榜上,腾讯混元Hy3 preview的名字第一次挂在了总榜第一的位置上。围观的开发者愣了好几秒才反应过来,这是真的。总榜第一名,把Claude 3.5和GPT-4o踩在底下,而且只用了6天时间——从4月23日发布到登顶,满打满算,一个礼拜都不到。
![]()
一、这个“全球第一”到底有多真?
很多人听到“榜单第一”第一反应就是“又刷榜了吧”。但OpenRouter这个榜单和那些学术评测不一样。
OpenRouter是全球规模最大的大模型API分发平台,接入的模型超过300个,所有数据都来自全球开发者真实的API调用记录。简单说,这不是谁自己编个题目、找个实验室测出来的排名,而是全球开发者“用脚投票”投出来的——调用量越高,说明真实场景里用得越猛。
Hy3 preview不仅拿下了总榜第一,还在分场景的调用量排行榜里把“工具调用”干到了全球第一,“编程”干到了全球第二。工具调用这个能力指标,以前是谁的地盘?GPT-4o和Claude 3.5稳稳坐庄。这次直接换了名字。
有人可能会问,既然讲真实调用量,那是不是便宜的模型调用量自然就高?有这个因素,但光便宜什么用都没有。开发者选择API模型只盯着价格看吗?当然不是,价格很重要,但模型能不能干活才是底线。一个模型如果连基本的任务都接不住,再便宜也没人调用。所以这个榜单本质上是一场“性价比+能力”的双重验证,价格往下压了40%,能力往上顶到了全球第一,这才是它登顶的真正原因。
二、什么是“工具调用”?这才是大模型能不能干活的分水岭
翻看各种报道,都提到了“工具调用能力”这个词。但大多数普通人看到这里也就划过去了——这个词太技术了,不懂什么意思没关系,换个说法你就明白了。
以前的AI,就是你问一句,它答一句。你说“帮我查一下明天北京的天气”,它给你回一段话,你自己看,看完自己打开浏览器去订机票。工具调用能力的意思是:你给AI下达任务之后,它自己决定需要什么工具——打开浏览器的网页、核实行程、读取笔记本记事本同步日程、调出浏览器数据库查航班、调用天气API接口——把这一整套活儿全部干完。
腾讯混元内部的定位很清楚:Hy3 preview被定义为混元大模型从“读万卷书”走向“行万里路”的开端。翻译成人话就是:以前你考了不少试,现在你得真的出门办事了。这句话特别值得琢磨——很多模型的所谓“能力”就是会考试,但你真让它干点实际的活儿,它就原形毕露。这次Hy3 preview踩中的就是这个问题本身。
三、姚顺雨是谁?腾讯AI为什么突然支棱起来了
要说清楚这次突破,绕不开一个人:姚顺雨。
1998年出生,清华大学姚班出身,普林斯顿大学计算机科学博士,毕业后去了OpenAI,参与开发了Operator和Deep Research这两个明星产品。去年底腾讯重金把他挖来当首席AI科学家,外媒说年薪过亿,腾讯后来辟谣,但不管真实数字是多少,这大概是国内大厂最年轻的AI一号位。
关键是,姚顺雨入职后干的第一件事不是发论文、不是PPT汇报,而是把混元团队的情况摸了一遍。摸完之后他发现问题很严重——混元之前的评测体系出了大问题。团队为了榜单好看,把打榜用的数据直接塞进训练集,导致数据被污染,模型在真实场景里一用就露馅。腾讯总裁刘炽平在年会上也说过一句很重的话:以前的混元像高中生背题应考,成绩单好看,但一上考场就不行。
所以姚顺雨一上来就定了一个基调:不要盯着榜单做事。这句话从一个大模型团队的负责人嘴里说出来,本身就很有意思。他不让团队刷榜,不让团队盯着公开评测集的数字打转,而是自建了50多个内部评测基准来检验模型的真实能力。
与此同时,他给混元定了三条原则:能力体系化、评测真实性、性价比追求。听起来像套话,但实际执行起来非常狠。Hy3 preview采用MoE架构,总参数2950亿,但激活参数只有210亿——简单说就是参数很大但不全部跑起来,所以成本和速度都有优势。个人版套餐最低28元每月,推理效率比上一代提升了40%。这就是为什么它能在OpenRouter上调用量暴增。
在姚顺雨主导下,腾讯的组织架构也一并调整了。2026年3月,成立10年的腾讯AI Lab正式撤销,核心研发人员全部并入混元团队,归姚顺雨统一调度。一个10年的老牌研究机构说撤就撤,在腾讯这种大厂不是什么轻松的决定,但效果也很直接——所有AI力量收拢到一根线上,拧成一股绳。
四、6天登顶背后,藏着腾讯一个“借命”的故事
很多人不知道,一年前的混元大模型根本坐不上腾讯生态的主桌。自家的核心业务用AI能力的时候,甚至绕开混元自己找别家方案。
2025年春节后,DeepSeek R1爆火,腾讯做了一个极其务实但也极其扎心的决定:让元宝全面接入DeepSeek-R1。效果立竿见影,元宝日活在一个月内暴涨了超过20倍。从产品角度看,这是大胜利。但从AI团队的角度看,这事不是滋味——你是腾讯自己的大模型团队,结果用户跑过来用的是别人家的东西。
刘炽平在年会上复盘时说,腾讯的AI开发像产品里没有产品经理,研发团队没人把控方向,很多工作做了等于白做。这就是姚顺雨接手的烂摊子。
他的做法很简单:承认问题,然后彻底重来。从2026年1月底启动训练到4月23日发布,不到三个月。这次不是修修补补,是基础设施层面的全链路重建。预训练和强化学习的基础设施重新搭建,评测体系自建50多个基准,组织架构推到重来,AI Lab全部并入混元。做完这一切之后,Hy3 preview正式上线。
这才有了6天后OpenRouter榜单上的表现。
五、“工具调用第一”对普通人意味着什么?
说这么多,可能还是有人觉得“跟我有什么关系”。实际上关系很大。
腾讯已经在自家生态里批量上线Hy3 preview。元宝、QQ、QQ浏览器、腾讯文档、微信公众号、和平精英、腾讯新闻……日常能想到的腾讯产品基本全都在陆续接入或已经接入。你在元宝上问的问题、在腾讯文档里整理的文件、在QQ里查的东西,背后跑的已经是这个刚拿全球第一的模型了。
更值得关注的是腾讯在AI应用层的密集布子。姚顺雨入职后,腾讯连续推出了WorkBuddy等AI智能体产品。WorkBuddy不是替代程序员或者替代设计师的噱头产品,它的设计很有腾讯特色——给学生整理笔记做PPT,给职场人写周报写纪要,给创作者挖热点生成大纲,给普通用户清理电脑文件、手机远程访问本地文件。花旗的研报说得很直白,WorkBuddy的推出可能标志着中国AI代理市场正式进入拐点阶段。
把所有这些串起来看,链条就清晰了:底层是Hy3 preview这种真正有工具调用能力的模型撑住地基,中间层是姚顺雨主导的“实用主义”路线和三条能力原则,顶层是WorkBuddy、CodeBuddy、QClaw这些直接面向普通用户的产品。这套打法不像有些厂商那样喊口号“颠覆世界”,而是非常腾讯式的做法——先把基础设施修好了,再把你每天用的产品一个个升级,你甚至可能都感知不到变化,但体验确实在变。
六、反超的意义在于,中国AI终于有人“干活”了
这次Hy3 preview登顶,不只是腾讯一家的欢呼。
在OpenRouter榜单上,前9名中有4家中国企业。另外像小米的MiMo-V2-Pro,以30%的市占率拿下了周榜第一。中国模型在全球API调用总量上已经连续五周超过美国。这是一个结构性的变化。
回到工具调用这件事本身。为什么说它是大模型的核心实力?因为AI从“能聊天”到“能干活”,中间隔着整个工具生态。你问GPT-4o“帮我订张机票”,它给你列出几家航空公司的官网,你自己去点。但一个有工具调用能力的大模型,它自己打开浏览器搜索筛选价格对比时刻表,最后给你一个完整的方案。这就是60分和90分的区别。
姚顺雨此前在公开发言中说过一句话:企业更愿意为能将任务准确率从60%提升到90%的模型付费。这句话点出了AI产业化的本质。不是参数多炸裂、不是论文多光鲜,而是你的模型在真实场景里能不能办成事。
Hy3 preview在OpenRouter上拿了工具调用第一,编程第二,总榜第一。六天。从一个“模型不够用,自家业务跑去用别人家方案”的窘境,到全球开发者真金白银砸调用量投出来的榜首。这中间的转折,不是因为钱的多少,而是一个28岁的年轻人重新确立了“什么才是对的方向”。
姚顺雨在Hy3 preview发布当天发了一条消息:"We are just getting started."
这次起跑,才算真正踩到了点上。
特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.