网易首页 > 网易号 > 正文 申请入驻

腾讯新AI模型上线6天夺全球第一,超越GPT-4,彻底打破海外垄断!

0
分享至

国产AI这回真的翻身了!腾讯新模型上线6天拿下全球第一,工具调用能力吊打Claude和GPT-4o,干掉海外垄断,以后编程写稿办公全都能用上

4月29日这天,OpenRouter最新发布的全球大模型API调用量排行榜上,腾讯混元Hy3 preview的名字第一次挂在了总榜第一的位置上。围观的开发者愣了好几秒才反应过来,这是真的。总榜第一名,把Claude 3.5和GPT-4o踩在底下,而且只用了6天时间——从4月23日发布到登顶,满打满算,一个礼拜都不到。


一、这个“全球第一”到底有多真?

很多人听到“榜单第一”第一反应就是“又刷榜了吧”。但OpenRouter这个榜单和那些学术评测不一样。

OpenRouter是全球规模最大的大模型API分发平台,接入的模型超过300个,所有数据都来自全球开发者真实的API调用记录。简单说,这不是谁自己编个题目、找个实验室测出来的排名,而是全球开发者“用脚投票”投出来的——调用量越高,说明真实场景里用得越猛。

Hy3 preview不仅拿下了总榜第一,还在分场景的调用量排行榜里把“工具调用”干到了全球第一,“编程”干到了全球第二。工具调用这个能力指标,以前是谁的地盘?GPT-4o和Claude 3.5稳稳坐庄。这次直接换了名字。

有人可能会问,既然讲真实调用量,那是不是便宜的模型调用量自然就高?有这个因素,但光便宜什么用都没有。开发者选择API模型只盯着价格看吗?当然不是,价格很重要,但模型能不能干活才是底线。一个模型如果连基本的任务都接不住,再便宜也没人调用。所以这个榜单本质上是一场“性价比+能力”的双重验证,价格往下压了40%,能力往上顶到了全球第一,这才是它登顶的真正原因。

二、什么是“工具调用”?这才是大模型能不能干活的分水岭

翻看各种报道,都提到了“工具调用能力”这个词。但大多数普通人看到这里也就划过去了——这个词太技术了,不懂什么意思没关系,换个说法你就明白了。

以前的AI,就是你问一句,它答一句。你说“帮我查一下明天北京的天气”,它给你回一段话,你自己看,看完自己打开浏览器去订机票。工具调用能力的意思是:你给AI下达任务之后,它自己决定需要什么工具——打开浏览器的网页、核实行程、读取笔记本记事本同步日程、调出浏览器数据库查航班、调用天气API接口——把这一整套活儿全部干完。

腾讯混元内部的定位很清楚:Hy3 preview被定义为混元大模型从“读万卷书”走向“行万里路”的开端。翻译成人话就是:以前你考了不少试,现在你得真的出门办事了。这句话特别值得琢磨——很多模型的所谓“能力”就是会考试,但你真让它干点实际的活儿,它就原形毕露。这次Hy3 preview踩中的就是这个问题本身。

三、姚顺雨是谁?腾讯AI为什么突然支棱起来了

要说清楚这次突破,绕不开一个人:姚顺雨。

1998年出生,清华大学姚班出身,普林斯顿大学计算机科学博士,毕业后去了OpenAI,参与开发了Operator和Deep Research这两个明星产品。去年底腾讯重金把他挖来当首席AI科学家,外媒说年薪过亿,腾讯后来辟谣,但不管真实数字是多少,这大概是国内大厂最年轻的AI一号位。

关键是,姚顺雨入职后干的第一件事不是发论文、不是PPT汇报,而是把混元团队的情况摸了一遍。摸完之后他发现问题很严重——混元之前的评测体系出了大问题。团队为了榜单好看,把打榜用的数据直接塞进训练集,导致数据被污染,模型在真实场景里一用就露馅。腾讯总裁刘炽平在年会上也说过一句很重的话:以前的混元像高中生背题应考,成绩单好看,但一上考场就不行。

所以姚顺雨一上来就定了一个基调:不要盯着榜单做事。这句话从一个大模型团队的负责人嘴里说出来,本身就很有意思。他不让团队刷榜,不让团队盯着公开评测集的数字打转,而是自建了50多个内部评测基准来检验模型的真实能力。

与此同时,他给混元定了三条原则:能力体系化、评测真实性、性价比追求。听起来像套话,但实际执行起来非常狠。Hy3 preview采用MoE架构,总参数2950亿,但激活参数只有210亿——简单说就是参数很大但不全部跑起来,所以成本和速度都有优势。个人版套餐最低28元每月,推理效率比上一代提升了40%。这就是为什么它能在OpenRouter上调用量暴增。

在姚顺雨主导下,腾讯的组织架构也一并调整了。2026年3月,成立10年的腾讯AI Lab正式撤销,核心研发人员全部并入混元团队,归姚顺雨统一调度。一个10年的老牌研究机构说撤就撤,在腾讯这种大厂不是什么轻松的决定,但效果也很直接——所有AI力量收拢到一根线上,拧成一股绳。

四、6天登顶背后,藏着腾讯一个“借命”的故事

很多人不知道,一年前的混元大模型根本坐不上腾讯生态的主桌。自家的核心业务用AI能力的时候,甚至绕开混元自己找别家方案。

2025年春节后,DeepSeek R1爆火,腾讯做了一个极其务实但也极其扎心的决定:让元宝全面接入DeepSeek-R1。效果立竿见影,元宝日活在一个月内暴涨了超过20倍。从产品角度看,这是大胜利。但从AI团队的角度看,这事不是滋味——你是腾讯自己的大模型团队,结果用户跑过来用的是别人家的东西。

刘炽平在年会上复盘时说,腾讯的AI开发像产品里没有产品经理,研发团队没人把控方向,很多工作做了等于白做。这就是姚顺雨接手的烂摊子。

他的做法很简单:承认问题,然后彻底重来。从2026年1月底启动训练到4月23日发布,不到三个月。这次不是修修补补,是基础设施层面的全链路重建。预训练和强化学习的基础设施重新搭建,评测体系自建50多个基准,组织架构推到重来,AI Lab全部并入混元。做完这一切之后,Hy3 preview正式上线。

这才有了6天后OpenRouter榜单上的表现。

五、“工具调用第一”对普通人意味着什么?

说这么多,可能还是有人觉得“跟我有什么关系”。实际上关系很大。

腾讯已经在自家生态里批量上线Hy3 preview。元宝、QQ、QQ浏览器、腾讯文档、微信公众号、和平精英、腾讯新闻……日常能想到的腾讯产品基本全都在陆续接入或已经接入。你在元宝上问的问题、在腾讯文档里整理的文件、在QQ里查的东西,背后跑的已经是这个刚拿全球第一的模型了。

更值得关注的是腾讯在AI应用层的密集布子。姚顺雨入职后,腾讯连续推出了WorkBuddy等AI智能体产品。WorkBuddy不是替代程序员或者替代设计师的噱头产品,它的设计很有腾讯特色——给学生整理笔记做PPT,给职场人写周报写纪要,给创作者挖热点生成大纲,给普通用户清理电脑文件、手机远程访问本地文件。花旗的研报说得很直白,WorkBuddy的推出可能标志着中国AI代理市场正式进入拐点阶段。

把所有这些串起来看,链条就清晰了:底层是Hy3 preview这种真正有工具调用能力的模型撑住地基,中间层是姚顺雨主导的“实用主义”路线和三条能力原则,顶层是WorkBuddy、CodeBuddy、QClaw这些直接面向普通用户的产品。这套打法不像有些厂商那样喊口号“颠覆世界”,而是非常腾讯式的做法——先把基础设施修好了,再把你每天用的产品一个个升级,你甚至可能都感知不到变化,但体验确实在变。

六、反超的意义在于,中国AI终于有人“干活”了

这次Hy3 preview登顶,不只是腾讯一家的欢呼。

在OpenRouter榜单上,前9名中有4家中国企业。另外像小米的MiMo-V2-Pro,以30%的市占率拿下了周榜第一。中国模型在全球API调用总量上已经连续五周超过美国。这是一个结构性的变化。

回到工具调用这件事本身。为什么说它是大模型的核心实力?因为AI从“能聊天”到“能干活”,中间隔着整个工具生态。你问GPT-4o“帮我订张机票”,它给你列出几家航空公司的官网,你自己去点。但一个有工具调用能力的大模型,它自己打开浏览器搜索筛选价格对比时刻表,最后给你一个完整的方案。这就是60分和90分的区别。

姚顺雨此前在公开发言中说过一句话:企业更愿意为能将任务准确率从60%提升到90%的模型付费。这句话点出了AI产业化的本质。不是参数多炸裂、不是论文多光鲜,而是你的模型在真实场景里能不能办成事。

Hy3 preview在OpenRouter上拿了工具调用第一,编程第二,总榜第一。六天。从一个“模型不够用,自家业务跑去用别人家方案”的窘境,到全球开发者真金白银砸调用量投出来的榜首。这中间的转折,不是因为钱的多少,而是一个28岁的年轻人重新确立了“什么才是对的方向”。

姚顺雨在Hy3 preview发布当天发了一条消息:"We are just getting started."

这次起跑,才算真正踩到了点上。

特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相关推荐
热点推荐
小刀又要奉子成婚了

小刀又要奉子成婚了

毒舌扒姨太
2026-05-05 22:31:14
快讯!台湾美丽电子报董事长吴子嘉发言了!

快讯!台湾美丽电子报董事长吴子嘉发言了!

故事终将光明磊落
2026-05-06 10:36:07
吴宜泽仅有3个代言在手,夺冠后商业价值飙涨,收入或将突破3000万

吴宜泽仅有3个代言在手,夺冠后商业价值飙涨,收入或将突破3000万

体坛最前线66
2026-05-06 15:37:10
黄仁勋彻底破防:中国不应获得英伟达的最先进芯片,美国应保持AI领先地位!网友:狐狸尾巴终究是藏不住了

黄仁勋彻底破防:中国不应获得英伟达的最先进芯片,美国应保持AI领先地位!网友:狐狸尾巴终究是藏不住了

大白聊IT
2026-05-06 08:05:27
大众威然这次豁出去了!给出 12.29 万优惠,网友:夯爆了

大众威然这次豁出去了!给出 12.29 万优惠,网友:夯爆了

汽车网评
2026-05-05 23:10:28
谢娜演唱会半个娱乐圈都挽救不了 ,被网友吐槽像大型幼儿园汇演!

谢娜演唱会半个娱乐圈都挽救不了 ,被网友吐槽像大型幼儿园汇演!

动物奇奇怪怪
2026-05-06 02:20:24
美军不宣而战闯海峡,伊朗导弹密集发射,特朗普逼着北约选边站

美军不宣而战闯海峡,伊朗导弹密集发射,特朗普逼着北约选边站

万物知识圈
2026-05-06 14:39:45
吕后刚死吕家就被屠尽?毛泽东点破:没把握的权力,终是取死之道

吕后刚死吕家就被屠尽?毛泽东点破:没把握的权力,终是取死之道

掠影后有感
2026-04-30 09:29:54
荷兰光刻机巨头:中国人太聪明了,封锁中国活不下去的是西方企业

荷兰光刻机巨头:中国人太聪明了,封锁中国活不下去的是西方企业

慕名而来只为你
2026-05-06 13:13:31
女生主动起来有多黏人?网友:这些女的太开放了

女生主动起来有多黏人?网友:这些女的太开放了

带你感受人间冷暖
2026-01-27 00:20:06
骑士101-111不敌活塞,0-1!一战看清了5个现实:米哈季后赛太拉

骑士101-111不敌活塞,0-1!一战看清了5个现实:米哈季后赛太拉

毒舌NBA
2026-05-06 09:49:54
“窒息时刻”:9700万桶原油撑爆储罐,特朗普“不战而屈人之兵”

“窒息时刻”:9700万桶原油撑爆储罐,特朗普“不战而屈人之兵”

民间胡扯老哥
2026-05-05 06:43:13
闻泰科技等20余股将被实施ST

闻泰科技等20余股将被实施ST

财闻
2026-05-06 08:37:45
5中4!奇兵干趴湖人!雷霆又一笔血赚交易

5中4!奇兵干趴湖人!雷霆又一笔血赚交易

篮球实战宝典
2026-05-06 13:08:41
接到陌生电话先问这3个字!骗子听到马上挂断,记得转告身边人

接到陌生电话先问这3个字!骗子听到马上挂断,记得转告身边人

小谈食刻美食
2026-04-25 09:47:09
【人物】“00后”冠军吴宜泽:一个中国斯诺克家庭为他押上了一切

【人物】“00后”冠军吴宜泽:一个中国斯诺克家庭为他押上了一切

界面新闻
2026-05-05 11:06:08
工龄决定退休金!20—40年差距对照表——算清养老账,退休不吃亏

工龄决定退休金!20—40年差距对照表——算清养老账,退休不吃亏

匹夫来搞笑
2026-05-06 09:57:42
得不偿失!内马尔终于送上把柄,巴西队难以征召,安切洛蒂笑了

得不偿失!内马尔终于送上把柄,巴西队难以征召,安切洛蒂笑了

祥谈体育
2026-05-06 15:45:58
湖人G1输18分,却有3个亮点,一策略可以继续用,一人可以给战术

湖人G1输18分,却有3个亮点,一策略可以继续用,一人可以给战术

体坛大辣椒
2026-05-06 11:22:05
泽连斯基谴责俄罗斯的5月9日停火“极其虚伪”,誓言作出回应

泽连斯基谴责俄罗斯的5月9日停火“极其虚伪”,誓言作出回应

山河路口
2026-05-05 21:08:22
2026-05-06 16:11:00
侃故事的阿庆
侃故事的阿庆
几分钟看完一部影视剧,诙谐幽默的娓娓道来
513文章数 8377关注度
往期回顾 全部

科技要闻

“马斯克不懂AI”:OpenAI当庭戳老底

头条要闻

世界杯FIFA给中国开出天价版权费 电视转播谈判陷僵局

头条要闻

世界杯FIFA给中国开出天价版权费 电视转播谈判陷僵局

体育要闻

活塞1比0骑士:坎宁安不再是一个人了

娱乐要闻

神仙友谊!杨紫连续10年为张一山庆生

财经要闻

人形机器人七小龙:谁真能卖 谁在讲故事?

汽车要闻

领克10/领克10+ 无论能源形式 领克都要快乐

态度原创

房产
亲子
艺术
公开课
军事航空

房产要闻

五一楼市彻底明牌!塔尖人群都在重仓凯旋新世界

亲子要闻

总结了一些锻炼“大脑前额叶”的小方法,孩子真的越来越聪明了!

艺术要闻

震撼!康斯坦丁摄影作品里的性感曲线让人惊艳!

公开课

李玫瑾:为什么性格比能力更重要?

军事要闻

实施不到48小时 特朗普紧急喊停"霍尔木兹自由计划"

无障碍浏览 进入关怀版