网易首页 > 网易号 > 正文 申请入驻

谷歌新模型2.5 Pro霸榜AI竞技场,开发者评价两极分化

0
分享至

北京时间6月6日,谷歌推出升级预览版大模型Gemini 2.5 Pro(0605),并表示这会在几周后成为正式的稳定版本,适用于企业级应用。

Gemini 2.5 Pro是谷歌旗舰模型系列,在前三个月公布了几个预览版,此前也一直在大模型竞技场LMArena排名第一,这一次更新的版本各方面的分数都超过了此前的版本,继续排在榜一。

不过,第一财经也询问了一些开发者,他们认为,不能完全相信榜单,要看实际体验和绝大多数开发者的选择,此前Gemini的模型表现各有优劣,开发者评价两极分化,目前刚出来大家或许要用一用才能有更客观的评价。

根据谷歌官方博客,最新2.5 Pro 在多项AI性能基准测试中取得了更高的分数,在 LMArena上Elo分数(衡量模型相对技能水平的评分)提升了24分,目前以1470分的成绩保持领先。

具体领域上,谷歌称,最新模型在代码方面继续表现出色,在 Aider Polyglot 等高难度编程基准测试中保持领先。此外,它在 GPQA(研究生级别的问答测试)中的成绩超过了OpenAI的o3、Claude 4以及DeepSeek-R1的最新版。在“人类的最后考试(HLE) ” 中成绩达到21.6%,比OpenAI的o3多出 1.3个百分点。

在谷歌模型发布后,业界知名的测评方大模型竞技场 (lmarena.ai)发布了一份新的榜单,显示2.5 Pro新版在总分和所有子榜单位列第一,包括文本、视觉、数学、创意等。

不过,“高分低能”的产品此前也有过,不乏开发者对这个榜单存疑。例如,从编程体验上来说,Anthropic的Claude系列模型是公认较为好用的基座模型,此次在榜单的成绩并不突出。有海外网友表示,2.5 Pro新版的表现确实很好,但是不如Claude 4 Opus。

有行业人士认为,这一问题或许是榜单评测问题,只是让AI完成基础的任务,但对Agent的能力评测有限,但从实际应用过程中,Claude模型在Agent方面做了专门优化,可以在大规模、系统化、长时间的编程任务中表现出色,和行业拉开距离。而谷歌在Agent方向还没怎么发力。

一位开发者用C++编程语言较多,他对记者表示,Claude比Gemini强太多,“任何Claude和o3无法解决的问题,Gemini从没有一个能解决;但反之,Gemini 写不对的,往往Claude能写对。”

上述开发者认为,Gemini擅长的是长上下文和多模态,而Claude前端更优,目前看可能还是这一格局。

不过,另一位用Python和typescript编程语言的开发者体验并不相同,最近一个月,他无论在工作场景还是Cursor场景都全面转为了Gemini 2.5 pro,发现代码写得比Claude 3.7好,生成的网页更漂亮,写出来的文案也更好。

目前看起来,在不同的生产场景和个性化工作中,各个模型的体验和口碑并不相同。

大模型竞争进入下半场,模型基础能力差距逐渐缩小,模型之间的较量正在从单纯的跑分转向更复杂的维度,模型的真正价值,越来越取决于在特定场景下的表现能否赢得开发者的投票。

不过,除开能力,使用成本也是开发者较为看重的一个因素,目前来看,Gemini比OpenAI的 o3、Claude 4 Opus和Grok 3都要更有性价比,但仍然是国内DeepSeek的R1最便宜。

Gemini 2.5 pro的输入价格1.25美元,输出为10 美元/百万Tokens。而o3在输入和输出价格方面则高至10美元和40美元每百万Tokens ,Claude 4 Opus价格更高。针对此次更新,谷歌表示新模型引入了“思考预算”功能,能让开发者更好地控制成本和延迟。

榜单分数是起点,真正的较量,在无数开发者和企业的工作和落地中展开。谁能更好地解决核心问题,谁就能赢得竞争的主动权。

特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相关推荐
热点推荐
一部《悬案》打破偏见,41岁的岳云鹏再次让人刮目相看!

一部《悬案》打破偏见,41岁的岳云鹏再次让人刮目相看!

电和影
2026-07-05 23:38:16
上访要开“进京证”!睡前消息爆了啊!

上访要开“进京证”!睡前消息爆了啊!

红色少女主播
2026-07-05 23:16:14
出狱飞美8年,74岁当总经理,原鄂州书记的简历太"干净"了!

出狱飞美8年,74岁当总经理,原鄂州书记的简历太"干净"了!

靓仔情感
2026-07-05 21:24:35
炸锅!梅德韦杰夫首次公开承认俄罗斯面临七大麻烦?

炸锅!梅德韦杰夫首次公开承认俄罗斯面临七大麻烦?

说历史的老牢
2026-07-05 23:28:05
嫁法国老头真相大白后,41岁李宇春近况曝光,一点都不感到意外

嫁法国老头真相大白后,41岁李宇春近况曝光,一点都不感到意外

李侽在北漂
2026-06-28 18:23:13
世预赛!中国男篮VS中国台北,3好消息1坏消息,庞峥麟有机会

世预赛!中国男篮VS中国台北,3好消息1坏消息,庞峥麟有机会

林子说事
2026-07-05 15:35:53
太尴尬了!一员工因到点下班,领导在全员群公开辱骂,反遭怒怼

太尴尬了!一员工因到点下班,领导在全员群公开辱骂,反遭怒怼

火山詩话
2026-07-04 08:11:30
历史惊人相似:中国房地产或重演2015年轨迹

历史惊人相似:中国房地产或重演2015年轨迹

无月可归辛
2026-05-26 02:25:43
哭声响彻德黑兰,数百万群众高呼“美国去死”,特朗普直言没想到

哭声响彻德黑兰,数百万群众高呼“美国去死”,特朗普直言没想到

混沌录
2026-07-05 23:55:31
140家巨头抱团推新稳定币,Circle两天暴跌22%,但先别急着跑

140家巨头抱团推新稳定币,Circle两天暴跌22%,但先别急着跑

固件更新中
2026-07-05 00:15:50
手背藏着长寿信号!有这4种表现,说明身体底子好,快自查

手背藏着长寿信号!有这4种表现,说明身体底子好,快自查

芹姐说生活
2026-07-05 21:46:18
你的公积金是什么段位?

你的公积金是什么段位?

职场资深秘书
2026-07-05 18:32:16
当年在电子厂里吃馒头啃咸菜的杨超越,她自己都没想到会成为明星

当年在电子厂里吃馒头啃咸菜的杨超越,她自己都没想到会成为明星

兵哥观世界
2026-06-24 19:54:43
贾玲巴黎周“一脸男相”!不爱笑也没梨涡眼神犀利,梳大背头好酷

贾玲巴黎周“一脸男相”!不爱笑也没梨涡眼神犀利,梳大背头好酷

轩逸阿II
2026-01-20 07:54:29
安慰落榜儿子半天,他突然抬头:妈,我考上的是国防科技大学

安慰落榜儿子半天,他突然抬头:妈,我考上的是国防科技大学

音乐时光的娱乐
2026-07-05 19:29:35
最好的教育就是激发孩子的内驱力,方法超简单,一看就会

最好的教育就是激发孩子的内驱力,方法超简单,一看就会

婷妈alan
2026-07-04 07:40:11
河北怀孕女子相亲外卖员开价18.8万:以后很难怀孕,这孩子必须生

河北怀孕女子相亲外卖员开价18.8万:以后很难怀孕,这孩子必须生

捣蛋窝
2026-06-22 07:36:30
黎笋长子:父亲下定决心对华开战前确认三件事,缺其一便不会打仗

黎笋长子:父亲下定决心对华开战前确认三件事,缺其一便不会打仗

唠叨说历史
2026-06-18 16:19:19
男孩被国防科大录取,读了4年后,国防科大:什么时候录取过你啊

男孩被国防科大录取,读了4年后,国防科大:什么时候录取过你啊

黄家湖的忧伤
2025-08-14 17:18:18
网上卖的很火,实则都是智商税的“家居废物”!希望你没买过

网上卖的很火,实则都是智商税的“家居废物”!希望你没买过

甜茶极简记
2026-07-04 13:08:12
2026-07-06 01:55:00
第一财经资讯 incentive-icons
第一财经资讯
第一财经官方账号
258254文章数 622907关注度
往期回顾 全部

科技要闻

华为:逻辑折叠将大幅提升麒麟CPU核心频率

头条要闻

医院给老人一次拔12颗牙种10颗 官方:将顶格行政处罚

头条要闻

医院给老人一次拔12颗牙种10颗 官方:将顶格行政处罚

体育要闻

姆巴佩点走巴拉圭:巴黎三代左锋传承

娱乐要闻

霉霉婚礼照片泄露 有四人违规

财经要闻

揭秘跨境“对敲”换汇黑产

汽车要闻

方程豹钛9内饰曝光 用上了长联屏设计/下半年上市

态度原创

教育
艺术
时尚
手机
本地

教育要闻

630分以上518人!江宁、高淳、溧水区三区2026年中考分段表出炉!

艺术要闻

伊朗超高层方案惊艳世界,曾获国际大奖!

3年赚46亿,杨幂喊出一个安徽富豪

手机要闻

2026下半年换机方向定了:大屏手机要火,华米OV耀聚齐了

本地新闻

国内足球之旅?这座小城给你高分答案

无障碍浏览 进入关怀版