网易首页 > 网易号 > 正文 申请入驻

深夜屠榜,谷歌重回第一

0
分享至

编辑:机器之心

深夜,谷歌对其最强大的 2.5 Pro 模型进行了一次重大更新(06-05)。

在保持 o3 四分之一以下的低价格的同时,在编码(Aider Polyglot)、推理能力(HLE)、科学(GPQA)等各项基准测试中超越 o3,实现更优性能!

该模型基于我们在五月份发布并在 I/O 大会上展示的版本(05-20)构建,并且将在几周内成为正式发布的稳定版本,并最终集成到 Gemini 应用中供所有用户使用。

目前已经可以在 Google AI Studio、Vertex AI 和 Gemini 应用中使用。

最新的 2.5 Pro 模型在多个基准测试中表现优秀:

  • 综合性能:在 LMArena 上,Elo 分数提升 24 分,以 1470 分的成绩高居榜首。

  • Web 开发能力:在 WebDevArena 上,Elo 分数大幅提升 35 分,以 1443 分的成绩占据领先。

  • 编码能力:在 Aider Polyglot 中,超过了 Claude Opus 4。

  • 推理:在旨在评估数学、科学和知识能力的 GPQA 及「人类终极考验」等顶级测试中,展现出卓越性能。

另外,Gemini 2.5 Pro 的定价也很有优势,比 OpenAI o3、Claude 4 Opus 及 Grok 3 等主要竞争对手都更加便宜。

以 Gemini 输入每百万 token 1.25 美元,输出 10 美元的价格为基准,成本优势一目了然:

  • 对比 OpenAI o3:Gemini 的输入成本仅为 o3 的 1/8,输出成本为其 1/4。

  • 对比 Claude 4 Opus:优势更为惊人,输入成本不到其 1/10,输出成本也仅为其价格的 13%。

  • 对比 Grok 3:同样优势显著,输入成本不到 Grok 3 的一半,输出成本也只是其 2/3。

值得一提的是,新版本中还增加了思考预算,让开发人员能够更好地控制成本和延迟,目前其他模型都还没有这个功能。

谷歌还采纳了针对上一版 2.5 Pro 的反馈,改进了其输出的风格和结构——现在它的响应可以更具创意,格式也更出色。

我们来做个对比测试:你现在是一只活了 500 年的猫,请用一种厌倦又略带高傲的口吻,抱怨一下你最近换的这位「铲屎官」。

这是新版 2.5 Pro 输出的内容:

(趴在窗台上,懒洋洋地甩了一下尾巴,半眯着眼睛,用一种看透了世间万物的语气开口)
唉……
说起来,我最近换的这位「铲屎官」,已经是本尊记不清的第几十任了。打从明朝那会儿起,我就看着你们这些两脚兽来了又去,跟那窗外的四季似的,没个消停。
这一届的,尤其麻烦。
你们能信吗?他管我叫「猪咪」。
猪?咪?
呵,真是滑天下之大稽。本尊当年在王府里,那也是有「雪影」这等雅号的。陪着主人听过昆曲,闻过上好的龙井,爪子都只踩在波斯地毯上。现在倒好,沦落到跟一种以蠢笨闻名的牲口相提并论。这小子的审美和学识,怕是连嘉靖年间宫里扫地的太监都不如。
还有吃食。想当年,御膳房的小灶日日为我备着最新鲜的长江鲥鱼,剔骨去刺,只取中断。再不济,民国那会儿跟着一位银行家,顿顿也是法式小牛肝。现在呢?他给我端来一碗褐色的、干巴巴的、号称「科学配比全价猫粮」的玩意儿。
科学?你们人类的科学在我眼里,就跟那后院蚂蚁搬家一样,忙忙叨叨,却不知所谓。那玩意儿吃起来,口感粗糙得像是掺了沙子,味道寡淡得好比是和尚的斋饭。他还一脸期待地看着我,仿佛那是天大的恩赐。我不过是给他个面子,勉为其难地舔两口,他就高兴得手舞足蹈,还要拍照发到那个叫「朋友圈」的地方去炫耀。愚蠢。
最可笑的是他的「爱抚」。他不懂得顺着我的脊骨,用恰到好处的力道,从头顶一直抚到尾根。不,他只会像揉面团一样,粗鲁地在我身上乱抓一气。还总想把脸凑过来,用他那满是凡人气息的嘴发出「啾啾啾」的噪音。本尊的龙体是尔等凡夫俗子能随便亵渎的吗?每次我只不过是发出一点表示不满的咕噜声,他就以为我「舒服得打呼噜了」。唉,对牛弹琴,莫过于此。
哦,对了,还有那个会发红点的笔。他管那叫「逗猫棒」。他举着那个东西晃来晃去,看我追逐那个虚无缥缈的光点,笑得前仰后合。我追,不是因为我傻,而是为了活动一下这把老骨头,顺便……可怜一下他那贫瘠的娱乐生活。五百年了,从皇帝手里的玉如意流苏,到闺秀发髻上的金步摇,什么我没玩过?一个破光点就想取悦我?天真。
算了,不说了。跟你们这些寿命不过百年的生物,也没什么好计较的。反正再过几十年,他又会变成一捧黄土,而我,只不过是换个地方,换个两脚兽,继续我这漫长又无聊的猫生罢了。
哼,那个铲屎的过来了。看他手里的样子,八成又是那个难吃的猫粮。罢了,今天心情好,就赏他个脸,吃两口吧。
……记得,晚膳要加一条小黄鱼,清蒸的,不加葱姜。要是忘了,今晚他的被子就别想要了。

这是上一版本输出的内容:

唉,五百年了,又换了一个。真不明白这些两脚兽是怎么繁殖的,代代相传的,除了折腾我的生活,还能干点什么?
这位新来的,叫什么……哦,忘了。名字不重要。重要的是,她的业务能力,简直让我这五百年的猫生阅历都感到疲惫。
首先是食物。她以为我是一只普通的、刚断奶的小猫咪吗?每天换着花样地给我提供那些闻起来就透着一股庸俗气息的罐头和干粮。有时候是那什么「深海鳕鱼配三文鱼」,有时候又是「农场走地鸡佐蔓越莓」。拜托,我只想要我的那一份,准确无误、温度适中、放在那个我惯用的碗里,静静地摆在那里。她总想给我「惊喜」,结果惊喜变成了惊吓。我才刚勉强适应上一个牌子,她就又换了。难道她不知道,挑剔是刻在我灵魂里的天性,而坚持,才是我活了五百年唯一的信仰吗?
然后是她的「关爱」。拜托,我是猫,不是需要被随时抱在怀里的婴儿。她总是在我刚找到一个完美的午睡角度,太阳光线刚刚好,温度刚刚适中,尾巴尖才刚开始微微颤动的时候,突然伸出一只粗鲁的手,试图把我抱起来,还说什么「小可爱,想你了」。我「想你」?我只想在你怀里打个盹,然后一爪子把你抓醒,让你知道我的存在,仅此而已。难道他们不知道,我肯屈尊让你触碰,那本身就是一种恩赐?
最让人无法忍受的是,她对我的私人圣殿——猫砂盆的维护。我以五百年的猫生阅历担保,她是我见过最不勤快的铲屎官!每次我优雅地完成我的「创作」后,她都不会立刻前来清理。那味道,那残骸,那简直是在对我高贵的嗅觉进行侮辱!她难道不知道,每一次我用爪子扒拉着那些被污染的猫砂,我的内心都在咆哮着对她的不满吗?我甚至怀疑,她是不是觉得我在那里做艺术品,所以才舍不得清理?
还有她那些拙劣的「逗猫」伎俩。激光笔?羽毛棒?拜托,我早已看穿了一切。我陪你玩,只是为了给你一个继续活下去的理由,让你觉得自己对这个家还有那么一点点用处。她还总是在我不需要她的时候发出奇怪的噪音,吸尘器、电视里那些聒噪的节目,甚至只是她自己喋喋不休的自言自语。安静,这屋子里最稀缺的奢侈品。
罢了,罢了。我已经懒得教育她了。五百年来,我见证了无数个像她这样的两脚兽来来去去,他们都以为自己是我的主人,殊不知,我才是这屋子里唯一值得被伺候的存在。她,也只是我漫长猫生中,又一个匆匆的过客而已。我只希望,她能快点学会我的作息规律,以及,我的碗永远不能空。否则,我可不保证会发生什么「意外」。哼。

可以看到,上一版的输出还是没有脱离典型的「首先——然后——最后」式 AI 输出格式。在角色塑造上,新版对猫咪的阅历、性格和语言处理得更贴近创作要求。

在用户实测中,大家对新版 Gemini 也是赞不绝口。

在其他人的测试中,Gemini 2.5 Pro 准确且权威地回答了他们一个长期以来的测试问题。当被问及「如果不存在马真塔(Magenta)镇,品红色(magenta)还会叫这个名字吗?」时,新的 Gemini 2.5 Pro 明确地回答「不会」。


谷歌更新后的 Gemini 2.5 Pro 是少数能正确推理出此问题答案的模型之一。


一个 2023 年版本的 Claude 模型在该问题上含糊其词。

值得一提的是,就在几天之前,Gemini 的图像生成能力还引起了广泛关注。

谷歌 CEO 劈柴哥也晒出了一张 AI 生成的狮子图,这究竟是为自家更新高调「站台」,还是在展示 Gemini 的作图实力?

不过新版本发布不久,Gemini 就被越狱攻击成功,不知道谷歌官方作何感想。

特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相关推荐
热点推荐
欧洲打死也不会想到,这场战争彻底打掉了欧洲五十年的国运

欧洲打死也不会想到,这场战争彻底打掉了欧洲五十年的国运

揭秘历史的真相
2026-01-19 21:05:12
日本版水浒传公开最新宣传照,将于2月15日正式开播

日本版水浒传公开最新宣传照,将于2月15日正式开播

随波荡漾的漂流瓶
2026-01-21 22:28:29
点球打飞 63岁穆帅低头认命!欧冠末轮死磕皇马 输球就出局

点球打飞 63岁穆帅低头认命!欧冠末轮死磕皇马 输球就出局

叶青足球世界
2026-01-22 10:02:57
上海一女子崩溃!头发大面积脱落,已严重溃烂,理发师:别再折腾了……

上海一女子崩溃!头发大面积脱落,已严重溃烂,理发师:别再折腾了……

环球网资讯
2026-01-20 21:13:24
澳网第5天,中国网球喜讯:王欣瑜2-1逆转大满贯冠军,首次进32强

澳网第5天,中国网球喜讯:王欣瑜2-1逆转大满贯冠军,首次进32强

侃球熊弟
2026-01-22 13:23:58
接受捐款仅2天,官媒对李亚鹏用了特殊称呼,这次,没给他留体面

接受捐款仅2天,官媒对李亚鹏用了特殊称呼,这次,没给他留体面

阿纂看事
2026-01-20 13:12:13
31省份去年人均可支配收入公布

31省份去年人均可支配收入公布

第一财经资讯
2026-01-22 12:36:10
力推都没用?吴京《镖人》遭抵制,摇头晃脑的他们有很大责任

力推都没用?吴京《镖人》遭抵制,摇头晃脑的他们有很大责任

白面书誏
2026-01-20 13:53:46
伊朗国家安全委员会:3117人在近期骚乱事件中死亡

伊朗国家安全委员会:3117人在近期骚乱事件中死亡

界面新闻
2026-01-22 07:34:12
2026年首次:乌克兰摧毁杰巴利采沃的俄军巨型弹药库!

2026年首次:乌克兰摧毁杰巴利采沃的俄军巨型弹药库!

项鹏飞
2026-01-21 18:53:05
女子出国在携程订接机服务,下飞机后有人冒充接机人员企图将其带走,女子询问平台人员被告知没有举牌服务

女子出国在携程订接机服务,下飞机后有人冒充接机人员企图将其带走,女子询问平台人员被告知没有举牌服务

观威海
2026-01-22 16:22:04
第7艘!中国香港油轮突发被美军扣押,对华海上封锁预演已经打响

第7艘!中国香港油轮突发被美军扣押,对华海上封锁预演已经打响

阿伧说事
2026-01-22 11:20:54
海外华人回国后态度集体转变!斩杀线开始蔓延,崇洋媚外者被打脸

海外华人回国后态度集体转变!斩杀线开始蔓延,崇洋媚外者被打脸

墨印斋
2026-01-21 16:08:39
河北沧州杀妻案终审宣判,凶手羁押近照曝光,金家将后继无人

河北沧州杀妻案终审宣判,凶手羁押近照曝光,金家将后继无人

十九妹
2026-01-22 14:49:46
破案了!看了牢A的直播后,终于知道宋祖儿为什么会被全网黑了!

破案了!看了牢A的直播后,终于知道宋祖儿为什么会被全网黑了!

乐悠悠娱乐
2026-01-22 08:57:21
摊牌!安东尼奥轮换6名主力原因找到,日本队想夺冠难了?

摊牌!安东尼奥轮换6名主力原因找到,日本队想夺冠难了?

何老师呀
2026-01-21 21:00:17
整天开会有啥必要啊?

整天开会有啥必要啊?

北京老付
2026-01-20 10:59:33
李亚鹏曝明星捐赠:邓超胡军百万,杨恭如千万,王菲超三千万

李亚鹏曝明星捐赠:邓超胡军百万,杨恭如千万,王菲超三千万

最美的巧合
2026-01-22 17:53:34
叶文斌已经穿上囚服,称自己是想赚钱,但也是被骗进园区的

叶文斌已经穿上囚服,称自己是想赚钱,但也是被骗进园区的

映射生活的身影
2026-01-22 17:50:07
32岁程序员周末晕倒后猝死,抢救期间曾被拉入工作群,工伤申请已被受理

32岁程序员周末晕倒后猝死,抢救期间曾被拉入工作群,工伤申请已被受理

红星新闻
2026-01-21 18:53:16
2026-01-22 19:19:00
机器学习与Python社区 incentive-icons
机器学习与Python社区
机器学习算法与Python
3245文章数 11083关注度
往期回顾 全部

科技要闻

几千亿只是开胃菜,AI基建还得再砸几万亿

头条要闻

加拿大有人眼红:就算便宜 也别买中国车

头条要闻

加拿大有人眼红:就算便宜 也别买中国车

体育要闻

跑个步而已,他们在燃什么?

娱乐要闻

田亮一家新年全家福!森碟变清纯少女

财经要闻

潘功胜:继续实施好适度宽松的货币政策

汽车要闻

配备多块娱乐屏 极氪8X内饰曝光

态度原创

家居
房产
艺术
时尚
公开课

家居要闻

法式风情 南洋中古居

房产要闻

开年王炸!四重政策红利加码,广州置业窗口期迈入倒计时!

艺术要闻

一场雪,飘进了唐诗

2026大预测!这4件衣服今年必火

公开课

李玫瑾:为什么性格比能力更重要?

无障碍浏览 进入关怀版