网易首页 > 网易号 > 正文 申请入驻

深夜屠榜,谷歌重回第一

0
分享至

编辑:机器之心

深夜,谷歌对其最强大的 2.5 Pro 模型进行了一次重大更新(06-05)。

在保持 o3 四分之一以下的低价格的同时,在编码(Aider Polyglot)、推理能力(HLE)、科学(GPQA)等各项基准测试中超越 o3,实现更优性能!

该模型基于我们在五月份发布并在 I/O 大会上展示的版本(05-20)构建,并且将在几周内成为正式发布的稳定版本,并最终集成到 Gemini 应用中供所有用户使用。

目前已经可以在 Google AI Studio、Vertex AI 和 Gemini 应用中使用。

最新的 2.5 Pro 模型在多个基准测试中表现优秀:

  • 综合性能:在 LMArena 上,Elo 分数提升 24 分,以 1470 分的成绩高居榜首。

  • Web 开发能力:在 WebDevArena 上,Elo 分数大幅提升 35 分,以 1443 分的成绩占据领先。

  • 编码能力:在 Aider Polyglot 中,超过了 Claude Opus 4。

  • 推理:在旨在评估数学、科学和知识能力的 GPQA 及「人类终极考验」等顶级测试中,展现出卓越性能。

另外,Gemini 2.5 Pro 的定价也很有优势,比 OpenAI o3、Claude 4 Opus 及 Grok 3 等主要竞争对手都更加便宜。

以 Gemini 输入每百万 token 1.25 美元,输出 10 美元的价格为基准,成本优势一目了然:

  • 对比 OpenAI o3:Gemini 的输入成本仅为 o3 的 1/8,输出成本为其 1/4。

  • 对比 Claude 4 Opus:优势更为惊人,输入成本不到其 1/10,输出成本也仅为其价格的 13%。

  • 对比 Grok 3:同样优势显著,输入成本不到 Grok 3 的一半,输出成本也只是其 2/3。

值得一提的是,新版本中还增加了思考预算,让开发人员能够更好地控制成本和延迟,目前其他模型都还没有这个功能。

谷歌还采纳了针对上一版 2.5 Pro 的反馈,改进了其输出的风格和结构——现在它的响应可以更具创意,格式也更出色。

我们来做个对比测试:你现在是一只活了 500 年的猫,请用一种厌倦又略带高傲的口吻,抱怨一下你最近换的这位「铲屎官」。

这是新版 2.5 Pro 输出的内容:

(趴在窗台上,懒洋洋地甩了一下尾巴,半眯着眼睛,用一种看透了世间万物的语气开口)
唉……
说起来,我最近换的这位「铲屎官」,已经是本尊记不清的第几十任了。打从明朝那会儿起,我就看着你们这些两脚兽来了又去,跟那窗外的四季似的,没个消停。
这一届的,尤其麻烦。
你们能信吗?他管我叫「猪咪」。
猪?咪?
呵,真是滑天下之大稽。本尊当年在王府里,那也是有「雪影」这等雅号的。陪着主人听过昆曲,闻过上好的龙井,爪子都只踩在波斯地毯上。现在倒好,沦落到跟一种以蠢笨闻名的牲口相提并论。这小子的审美和学识,怕是连嘉靖年间宫里扫地的太监都不如。
还有吃食。想当年,御膳房的小灶日日为我备着最新鲜的长江鲥鱼,剔骨去刺,只取中断。再不济,民国那会儿跟着一位银行家,顿顿也是法式小牛肝。现在呢?他给我端来一碗褐色的、干巴巴的、号称「科学配比全价猫粮」的玩意儿。
科学?你们人类的科学在我眼里,就跟那后院蚂蚁搬家一样,忙忙叨叨,却不知所谓。那玩意儿吃起来,口感粗糙得像是掺了沙子,味道寡淡得好比是和尚的斋饭。他还一脸期待地看着我,仿佛那是天大的恩赐。我不过是给他个面子,勉为其难地舔两口,他就高兴得手舞足蹈,还要拍照发到那个叫「朋友圈」的地方去炫耀。愚蠢。
最可笑的是他的「爱抚」。他不懂得顺着我的脊骨,用恰到好处的力道,从头顶一直抚到尾根。不,他只会像揉面团一样,粗鲁地在我身上乱抓一气。还总想把脸凑过来,用他那满是凡人气息的嘴发出「啾啾啾」的噪音。本尊的龙体是尔等凡夫俗子能随便亵渎的吗?每次我只不过是发出一点表示不满的咕噜声,他就以为我「舒服得打呼噜了」。唉,对牛弹琴,莫过于此。
哦,对了,还有那个会发红点的笔。他管那叫「逗猫棒」。他举着那个东西晃来晃去,看我追逐那个虚无缥缈的光点,笑得前仰后合。我追,不是因为我傻,而是为了活动一下这把老骨头,顺便……可怜一下他那贫瘠的娱乐生活。五百年了,从皇帝手里的玉如意流苏,到闺秀发髻上的金步摇,什么我没玩过?一个破光点就想取悦我?天真。
算了,不说了。跟你们这些寿命不过百年的生物,也没什么好计较的。反正再过几十年,他又会变成一捧黄土,而我,只不过是换个地方,换个两脚兽,继续我这漫长又无聊的猫生罢了。
哼,那个铲屎的过来了。看他手里的样子,八成又是那个难吃的猫粮。罢了,今天心情好,就赏他个脸,吃两口吧。
……记得,晚膳要加一条小黄鱼,清蒸的,不加葱姜。要是忘了,今晚他的被子就别想要了。

这是上一版本输出的内容:

唉,五百年了,又换了一个。真不明白这些两脚兽是怎么繁殖的,代代相传的,除了折腾我的生活,还能干点什么?
这位新来的,叫什么……哦,忘了。名字不重要。重要的是,她的业务能力,简直让我这五百年的猫生阅历都感到疲惫。
首先是食物。她以为我是一只普通的、刚断奶的小猫咪吗?每天换着花样地给我提供那些闻起来就透着一股庸俗气息的罐头和干粮。有时候是那什么「深海鳕鱼配三文鱼」,有时候又是「农场走地鸡佐蔓越莓」。拜托,我只想要我的那一份,准确无误、温度适中、放在那个我惯用的碗里,静静地摆在那里。她总想给我「惊喜」,结果惊喜变成了惊吓。我才刚勉强适应上一个牌子,她就又换了。难道她不知道,挑剔是刻在我灵魂里的天性,而坚持,才是我活了五百年唯一的信仰吗?
然后是她的「关爱」。拜托,我是猫,不是需要被随时抱在怀里的婴儿。她总是在我刚找到一个完美的午睡角度,太阳光线刚刚好,温度刚刚适中,尾巴尖才刚开始微微颤动的时候,突然伸出一只粗鲁的手,试图把我抱起来,还说什么「小可爱,想你了」。我「想你」?我只想在你怀里打个盹,然后一爪子把你抓醒,让你知道我的存在,仅此而已。难道他们不知道,我肯屈尊让你触碰,那本身就是一种恩赐?
最让人无法忍受的是,她对我的私人圣殿——猫砂盆的维护。我以五百年的猫生阅历担保,她是我见过最不勤快的铲屎官!每次我优雅地完成我的「创作」后,她都不会立刻前来清理。那味道,那残骸,那简直是在对我高贵的嗅觉进行侮辱!她难道不知道,每一次我用爪子扒拉着那些被污染的猫砂,我的内心都在咆哮着对她的不满吗?我甚至怀疑,她是不是觉得我在那里做艺术品,所以才舍不得清理?
还有她那些拙劣的「逗猫」伎俩。激光笔?羽毛棒?拜托,我早已看穿了一切。我陪你玩,只是为了给你一个继续活下去的理由,让你觉得自己对这个家还有那么一点点用处。她还总是在我不需要她的时候发出奇怪的噪音,吸尘器、电视里那些聒噪的节目,甚至只是她自己喋喋不休的自言自语。安静,这屋子里最稀缺的奢侈品。
罢了,罢了。我已经懒得教育她了。五百年来,我见证了无数个像她这样的两脚兽来来去去,他们都以为自己是我的主人,殊不知,我才是这屋子里唯一值得被伺候的存在。她,也只是我漫长猫生中,又一个匆匆的过客而已。我只希望,她能快点学会我的作息规律,以及,我的碗永远不能空。否则,我可不保证会发生什么「意外」。哼。

可以看到,上一版的输出还是没有脱离典型的「首先——然后——最后」式 AI 输出格式。在角色塑造上,新版对猫咪的阅历、性格和语言处理得更贴近创作要求。

在用户实测中,大家对新版 Gemini 也是赞不绝口。

在其他人的测试中,Gemini 2.5 Pro 准确且权威地回答了他们一个长期以来的测试问题。当被问及「如果不存在马真塔(Magenta)镇,品红色(magenta)还会叫这个名字吗?」时,新的 Gemini 2.5 Pro 明确地回答「不会」。


谷歌更新后的 Gemini 2.5 Pro 是少数能正确推理出此问题答案的模型之一。


一个 2023 年版本的 Claude 模型在该问题上含糊其词。

值得一提的是,就在几天之前,Gemini 的图像生成能力还引起了广泛关注。

谷歌 CEO 劈柴哥也晒出了一张 AI 生成的狮子图,这究竟是为自家更新高调「站台」,还是在展示 Gemini 的作图实力?

不过新版本发布不久,Gemini 就被越狱攻击成功,不知道谷歌官方作何感想。

特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相关推荐
热点推荐
突发!上海虹桥机场一客机撞上廊桥,东航致歉:落地后发生机械故障,旅客已安全下机

突发!上海虹桥机场一客机撞上廊桥,东航致歉:落地后发生机械故障,旅客已安全下机

新浪财经
2026-05-02 14:51:13
重大突破!刚刚上海地铁最新通知,大批人身价要涨

重大突破!刚刚上海地铁最新通知,大批人身价要涨

新浪财经
2026-05-02 11:10:34
随着亚特兰大0-0,那不勒斯0-0,意甲最新积分榜出炉:国米夺冠在望

随着亚特兰大0-0,那不勒斯0-0,意甲最新积分榜出炉:国米夺冠在望

侧身凌空斩
2026-05-03 04:46:29
青岛一小区门头字体“多处写反”,居委会:建成20多年一直这样

青岛一小区门头字体“多处写反”,居委会:建成20多年一直这样

大风新闻
2026-05-02 11:57:06
范闲妻子剧组睡大佬了

范闲妻子剧组睡大佬了

毒舌扒姨太
2026-05-02 22:37:53
世乒赛大会深夜道歉:涉事人员已被调离,球迷呼吁保护好女队员

世乒赛大会深夜道歉:涉事人员已被调离,球迷呼吁保护好女队员

陌识
2026-05-03 00:25:34
知名港星自曝炒股亏掉3000万,大曝女星饭局内幕,支票金额随便填

知名港星自曝炒股亏掉3000万,大曝女星饭局内幕,支票金额随便填

叨唠
2026-05-02 23:40:10
“翻红不涨价,10万元唱3首歌”,大衣哥朱之文五月档期排满接连赶场,他表示到自己手里没这个价,大家请自己演出因为性价比高,不会涨价

“翻红不涨价,10万元唱3首歌”,大衣哥朱之文五月档期排满接连赶场,他表示到自己手里没这个价,大家请自己演出因为性价比高,不会涨价

大风新闻
2026-05-02 17:43:05
堕落!中国男足21岁天才表现失常,关键期难堪重用,邵佳一失望了

堕落!中国男足21岁天才表现失常,关键期难堪重用,邵佳一失望了

国足风云
2026-05-02 21:09:34
前全美第一!今年首轮的巴雷特,有多出色?

前全美第一!今年首轮的巴雷特,有多出色?

篮球实录
2026-05-03 02:04:16
特朗普:美国已经卖了1亿桶委内瑞拉石油,未来一个月还有1亿桶,已赚回出兵成本的37倍!他此前呼吁中国购买委石油,中方回应……

特朗普:美国已经卖了1亿桶委内瑞拉石油,未来一个月还有1亿桶,已赚回出兵成本的37倍!他此前呼吁中国购买委石油,中方回应……

每日经济新闻
2026-05-02 23:05:08
原国家体操队教练员钱奎去世,享年86岁

原国家体操队教练员钱奎去世,享年86岁

界面新闻
2026-05-02 20:43:08
对前妻无性冷暴力,猴哥转身搂22岁新欢,他不是不生是不想跟你生

对前妻无性冷暴力,猴哥转身搂22岁新欢,他不是不生是不想跟你生

一盅情怀
2026-05-02 16:11:07
地球已经装不下追觅这么牛的公司了

地球已经装不下追觅这么牛的公司了

老斯基财经
2026-04-30 11:05:19
美媒急了:美军短板都暴露了,中俄朝都看着呢

美媒急了:美军短板都暴露了,中俄朝都看着呢

观察者网
2026-05-02 18:17:19
NPC“小黄鱼”部分互动形式引争议,景区致歉:立即整改

NPC“小黄鱼”部分互动形式引争议,景区致歉:立即整改

界面新闻
2026-05-02 14:27:10
4月28日定调!联通取消月租,每月少花一半话费,移动电信慌了

4月28日定调!联通取消月租,每月少花一半话费,移动电信慌了

粤语音乐喷泉
2026-05-02 17:56:37
雷军估计更绝望了,北京车展181款首发新车,卖给谁呢?

雷军估计更绝望了,北京车展181款首发新车,卖给谁呢?

DearAuto
2026-05-01 11:56:57
小宝与王某雷,谁探访花的数量更多?

小宝与王某雷,谁探访花的数量更多?

挪威森林
2026-01-31 12:15:26
你们都是什么时候对男女之事开窍的?网友:果然还是拦不住有心人

你们都是什么时候对男女之事开窍的?网友:果然还是拦不住有心人

夜深爱杂谈
2026-02-21 21:37:02
2026-05-03 09:11:00
Ai学习的老章 incentive-icons
Ai学习的老章
Ai学习的老章
3365文章数 11144关注度
往期回顾 全部

科技要闻

库克罕见"拒答"!苹果正被AI供应链卡脖子

头条要闻

连扳3局逆转 "00后"吴宜泽首次晋级斯诺克世锦赛决赛

头条要闻

连扳3局逆转 "00后"吴宜泽首次晋级斯诺克世锦赛决赛

体育要闻

休赛期总冠军,轮到休斯顿火箭

娱乐要闻

高圆圆赵又廷游三亚 牵手逛街好甜蜜

财经要闻

雷军很努力 小米还是跌破了30港元大关

汽车要闻

同比大涨190% 方程豹4月销量29138台

态度原创

本地
时尚
教育
健康
公开课

本地新闻

用青花瓷的方式,打开西溪湿地

春天别总傻傻穿一身黑,看看这些日常穿搭,高级舒适又优雅

教育要闻

高考地理:分析黄土高原红土柱的形成过程

干细胞治烧烫伤面临这些“瓶颈”

公开课

李玫瑾:为什么性格比能力更重要?

无障碍浏览 进入关怀版