网易首页 > 网易号 > 正文 申请入驻

新版Gemini 2.5 pro屠榜!谷歌又把o3、Claude 4和DeepSeek-R1甩在身后了

0
分享至

智东西6月6日消息,谷歌今日突袭推出Gemini 2.5 pro的重磅更新版本Gemini 2.5 Pro Preview 06-05 Thinking,该版本在推理能力、科学以及编程能力测试中超越OpenAI o3、DeepSeek R1和Claude Opus 4,其中编程能力更是领跑Aider Polyglot等高难度编程基准测试。

价格方面,06-05版本沿用了先前版本的价格策略,即每百万token输入(无缓存)1.25美元(约合人民币9元),输出10美元(约合人民币72元)。

谷歌CEO桑达尔·皮查伊(Sundar Pichai)在海外社交媒体X上亲自官宣:“我们最新的Gemini 2.5 Pro更新现已发布预览版……我们听取了您的反馈,并对回答的风格和结构进行了改进。您可以在Al Studio、Vertex Al平台和Gemini app中进行试用。正式版即将推出!”

一、性能全面屠榜,Gemini以1443分登顶WebDevArena榜单

在5月年度I/O开发者大会上,谷歌宣布已对Gemini 2.5 Pro进行静默升级。谷歌DeepMind首席执行官戴米斯·哈萨比斯(Demis Hassabis)当时评价I/O版本是公司迄今最佳编程模型。

而此次名为“Gemini 2.5 Pro Preview 06-05 Thinking”的新预览版在05-06版本之上进行的更新,测试表现更优,谷歌在博客中评价该版本为“我们迄今为止最有智慧的模型”。谷歌还透露说,新版本“具备企业级应用成熟度”,将于两周后作为稳定版面世。

Gemini 2.5 Pro Preview 06-05 Thinking在基准测试中全面屠榜,文本、视觉、网页开发、编程、数学、创意、多轮对话、指令跟随及长查询类别等能力上均拔得头筹。

▲综合榜单(来源:LMArena)

有网友在用Emoji表情标出了06-05版本的表现对比,可以看出其在测试数学能力的AIME 2025、测试代码生成的LiveCodeBench上并未超过o3和o4-mini,视觉推理的MMMU榜单上也未超过o3,仍有进步空间。

且在价格上,06-05版本与榜单中的其他模型相比较为实惠,但仍远高于DeepSeek R1。

从细分榜单来看,LMArena文本基准测试中,06-05版本的Elo分数较05-06版提升24分,以1470分保持榜首。WebDevArena测试中,其Elo分数以1443分领先,较此前提升了35分。06-05版本也领跑Aider Polyglot等高难度编程基准测试,超越DeepSeek R1等一众大模型。

▲WebDevArena榜单(来源:LMArena)

在HLE(Humanity’s Last Exam,人类终极测试)中,06-05版本的成绩为21.6%,几乎是Claude 4 Opus的2倍,GPQA测试的成绩也同样占据榜首。这两个测试是评估数学、科学、知识及推理能力的超高难度测试,06-05版本的亮眼成绩足以说明它的实力。

▲HLE榜单(来源:Humanity’s Last Exam官网)

即刻起,开发者们可以从谷歌AI Studio和Vertex AI平台接入Gemini API体验最新版本,谷歌还在这两个平台上新增了“思考预算”功能,优化成本与延迟控制。同时,新版本也将在Gemini应用上逐步推出。

二、Gemini新版被玩出花了

06-05版本一经推出就有许多开发者和用户进行体验尝鲜。

首先是图像生成方面,皮查伊自己用Gemini生成了一张狮子的特写照片,图片十分生动:

卡通动画风也是不在话下:

编程方面:Android studio提示Gemini 2.5 Pro Preview 06-05 Thinking创建一个用户个人资料图片,要求包含:Android Jetpack Compose 代码,能够生成类似该用户个人资料图片的代码以及导入语句、Material3和代码文档,结果十分惊艳:


有网友要求06-05版本编写一个Python程序,模拟随机车流量单行道上的交通信号灯运作过程:

还有网友要求06-05版本编写一个“3D球体”代码来展示它的能力,结果它仅凭一句指令就生成了这个交互式粒子系统,让网友直呼“这不可能是真的!”


结语:大模型进入快迭代时代

此前,DeepSeek和OpenAI的推理模型曾主导行业关注焦点,智东西不久之前曾报道DeepSeek-R1-0528开源,其性能接近OpenAI在4月中旬发布的o4 mini和o3模型高版本。谷歌此番更新更是迎头赶上,全面屠榜,基准测试结果超越DeepSeek R1和OpenAI的o3、o3-mini和o4-mini。

Gemini 2.5 Pro初代版本于3月发布时,Venture Beat的马特·马歇尔(Matt Marshall)就称其为“最被低估的智能模型”。这一评价很快得到验证,凭借2.5 Pro及其两个升级版本的快速迭代,谷歌不仅大幅提升了模型的多模态理解、长文本推理和代码生成能力,更在大语言模型性能基准测试中多次超越竞品。

如今大模型的迭代周期越来越短,基准测试榜单的头把交椅也时常易主。AI较量的白热化提醒我们,大模型从一开始的大爆发时代已经进入快迭代时代。

来源:谷歌Blog、X、LMArena、Humanity’s Last Exam以及Venture Beat

特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相关推荐
热点推荐
我送表姑10斤腊肉,她回赠一袋橘子,半个月后她打来电话:我亏了

我送表姑10斤腊肉,她回赠一袋橘子,半个月后她打来电话:我亏了

船长与船1
2026-01-18 10:43:49
A股明天周四剧本已出!晚间突传一重大消息,明天要来大动作吗?

A股明天周四剧本已出!晚间突传一重大消息,明天要来大动作吗?

股市皆大事
2026-01-21 16:47:10
回顾“91女神”琪琪:五官出众,却因天真让自己“受伤”

回顾“91女神”琪琪:五官出众,却因天真让自己“受伤”

就一点
2025-11-22 10:36:39
维特根斯坦十个封神金句,仅用5个字就终结了所有哲学问题

维特根斯坦十个封神金句,仅用5个字就终结了所有哲学问题

职场生成法则
2026-01-19 22:22:11
为什么全国人民都在拒接电话?连10086打来也是瞄一眼就挂掉了!

为什么全国人民都在拒接电话?连10086打来也是瞄一眼就挂掉了!

今朝牛马
2026-01-08 16:05:10
21分大胜仍不满意,媒体人怒批广东队,强调一点不理想,盛赞一人

21分大胜仍不满意,媒体人怒批广东队,强调一点不理想,盛赞一人

萌兰聊个球
2026-01-21 22:05:19
震惊!东莞人这么有钱的吗?

震惊!东莞人这么有钱的吗?

东莞好生活
2026-01-21 16:46:09
四川两名省管干部同日被官宣落马!

四川两名省管干部同日被官宣落马!

中国青年报
2026-01-21 21:00:26
李湘风波再发酵!家境被扒底朝天,父母身份曝光,原来何炅没说错

李湘风波再发酵!家境被扒底朝天,父母身份曝光,原来何炅没说错

素衣读史
2026-01-21 13:57:53
2年前,我朋友非得说黄金涨价,当时400一克,他买了60万黄金

2年前,我朋友非得说黄金涨价,当时400一克,他买了60万黄金

千秋文化
2026-01-21 21:08:57
华裔政治家族,却遭特朗普清洗!特朗普如何扳倒“赵家人”?

华裔政治家族,却遭特朗普清洗!特朗普如何扳倒“赵家人”?

观察者海风
2026-01-20 15:14:58
288元可买1000克铜条!金银创新高后,“投资铜条”火了 ,有商家表示:铜条若要变现,只能走废品回收站渠道

288元可买1000克铜条!金银创新高后,“投资铜条”火了 ,有商家表示:铜条若要变现,只能走废品回收站渠道

每日经济新闻
2026-01-21 11:07:16
马斯克发文送别,xAI华人联创、Grok主架构师杨格因病退出

马斯克发文送别,xAI华人联创、Grok主架构师杨格因病退出

智东西
2026-01-21 18:38:26
60岁再婚大妈哭道:退休金17000,过年连双新鞋子都买不起

60岁再婚大妈哭道:退休金17000,过年连双新鞋子都买不起

惟来
2026-01-20 15:58:20
石楼已有多人接个电话钱就被转走

石楼已有多人接个电话钱就被转走

黄河新闻网吕梁频道
2026-01-21 09:39:02
河北孟村杀妻案二审后续,刘家人拿到满意的结果

河北孟村杀妻案二审后续,刘家人拿到满意的结果

九方鱼论
2026-01-21 05:51:44
30年营养谎言被戳穿:为什么医生们突然改口让你吃肉?

30年营养谎言被戳穿:为什么医生们突然改口让你吃肉?

富贵说
2026-01-18 20:36:47
乙肝重磅新药来了!有望半年实现临床治愈

乙肝重磅新药来了!有望半年实现临床治愈

医学界
2026-01-19 19:33:13
最新一期新秀榜:克尼佩尔反超状元位列第一 马刺小将杀进前十

最新一期新秀榜:克尼佩尔反超状元位列第一 马刺小将杀进前十

惊奇侃球
2026-01-22 01:13:12
小县城的消费究竟能有多高?网友:越小的地方东西越贵,这是真的

小县城的消费究竟能有多高?网友:越小的地方东西越贵,这是真的

解读热点事件
2026-01-19 00:05:09
2026-01-22 02:55:00
智东西 incentive-icons
智东西
聚焦智能变革,服务产业升级。
11101文章数 116943关注度
往期回顾 全部

数码要闻

索尼发布首款耳挂式开放耳机LinkBuds Clip Open 支持“安静模式”

头条要闻

特朗普称“美国拥有无人知晓的武器” 克宫回应

头条要闻

特朗普称“美国拥有无人知晓的武器” 克宫回应

体育要闻

只会防守反击?不好意思,我们要踢决赛了

娱乐要闻

首位捐款的明星 苗圃现身嫣然医院捐款

财经要闻

丹麦打响第一枪 欧洲用资本保卫格陵兰岛

科技要闻

给机器人做仿真训练 这家创企年营收破亿

汽车要闻

2026款上汽大众朗逸正式上市 售价12.09万起

态度原创

健康
手机
家居
教育
艺术

打工人年终总结!健康通关=赢麻了

手机要闻

iPhone越贵越好卖!iPhone18没有单打孔

家居要闻

褪去浮华 触达松弛与欣喜

教育要闻

来上课了——非谓语动词的难点:独立主格现象第1段

艺术要闻

你绝对想不到,他的油画美得如此惊人!

无障碍浏览 进入关怀版