网易首页 > 网易科技 > 网易科技 > 正文

AI编程王者易主:谷歌Gemini 2.5 Pro I/O版力压Claude 3.7 Sonnet

0
分享至

5月7日消息,AI编程领域迎来了新的王者:谷歌DeepMind人工智能研究部门周二发布了全新升级的Gemini 2.5 Pro “I/O”版,这是其今年3月推出、大受欢迎的多模态大语言模型Gemini 2.5 Pro的最新版本。DeepMind首席执行官德米斯·哈萨比斯(Demis Hassabis)在社交媒体上表示,这是“我们构建过的最佳编程模型!”

谷歌公布的初步基准测试结果印证了这一说法。数据显示,自2022年底ChatGPT正式掀起生成式人工智能热潮以来,谷歌首次在关键编程基准测试中超越所有其他模型,跃居榜首。

此次更新的模型版本编号为“gemini-2.5-pro-preview-05-06”,已取代之前的03-25版本,并已面向Google AI Studio的独立开发者、Vertex AI云平台的企业用户,以及Gemini移动应用的个人用户全面开放。谷歌在官方博文中表示,该模型还驱动Gemini移动应用中的Canvas等多项功能。

新版本为Gemini 95等应用的功能开发提供支持,其模型可自动匹配跨组件的视觉风格。该版本还支持将YouTube视频转化为全功能学习应用等复杂工作流,并能创建高度样式化的组件——如响应式视频播放器或动画听写界面——几乎无需手动编写CSS代码。

作为专有模型,企业需付费并通过谷歌的网络服务访问。不过本次更新未调整价格与调用限制:当前Gemini 2.5 Pro用户将自动升级至新版本,定价仍为每百万tokens输入/输出分别1.25/10美元(支持20万tokens的上下文长度),相较Claude 3.7 Sonnet的3/15美元定价具有优势。

谷歌选择在年度I/O开发者大会(5月20-21日于山景城及线上举行)前夕推出更新,官方表示这是对开发者社区关于Gemini在实际代码生成和界面设计中实用性的强烈反馈的回应。Gemini API与Google AI Studio高级产品经理洛根·基尔帕特里克(Logan Kilpatrick)在开发者博客中确认,本次更新有效回应了开发者关于函数调用的关键反馈,在减少错误和提升触发可靠性方面取得显著改进。

在人类评分员的网页应用生成任务中排名第一

在第三方评估标准WebDev Arena排行榜中,Gemini 2.5 Pro Preview(05-06)在生成美观且实用的网页应用方面获得了最高人类评分,成功超越Anthropic的Claude 3.7 Sonnet,跃居第一。

新版本模型得分为1499.95,显著高于Sonnet 3.7的1377.10。前代Gemini 2.5 Pro(03-25)以1278.96分位列第三,I/O版相比之下提升了221分。

正如AI领域资深用户“Lisan al Gaib”在X上指出的,即使是OpenAI新发布的GPT-4o(“o3”)都未能动摇Sonnet 3.7的地位,足见Gemini此次跃升的突破性。

这一性能跃升体现在生成内容的可靠性、美观性与实用性等方面的全面提升。

获得开发者广泛好评

Gemini 2.5 Pro Preview(05-06)迅速获得开发者社群广泛好评,多位行业领袖称其可靠性和生产场景应用表现远超以往:

人工智能初创公司Cognition联合创始人塞拉斯·阿尔贝蒂(Silas Alberti)指出,Gemini 2.5 Pro是首个成功完成复杂后端路由系统重构的AI模型,展现出类似资深开发者的判断与决策能力。

AI编程平台Cursor首席执行官迈克尔·特鲁尔(Michael Truell)称,内部测试显示工具调用失败率明显下降,过去这一问题饱受诟病。他认为用户将在真实开发环境中明显感受到新版本效能提升。Cursor已将Gemini 2.5 Pro集成进其编程智能体中,显示出开发者已将其视为智能开发工作流中的组件。

云端协同开发平台Replit总裁米歇尔·卡塔斯塔(Michele Catasta)认为,Gemini 2.5 Pro是在模型性能与响应速度之间实现最佳平衡的前沿模型。他的评价暗示,Replit正在考虑将该模型纳入自身工具体系中,特别是在需要响应速度与稳定性的任务场景中。

AI教育者兼BlueShell私有AI聊天机器人创始人保罗·库弗特(Paul Couvert)表示:“Gemini 2.5 Pro的代码与用户界面生成能力令人惊艳。”

AI艺术工具EverArt首席执行官彼得罗·斯基拉诺(Pietro Schirano)称,Gemini 2.5 Pro I/O版能够根据单个提示词生成互动模拟,如近期社交媒体流行的“1只大猩猩对战100名人类”迷因。

X用户“RameshR”(@rezmeram)还展示了该模型在不到一分钟内生成的一款互动式俄罗斯方块风格游戏,并配有音效,他在帖文中写道:“休闲游戏行业已经完了!!”

这些正面的行业认可增强了DeepMind关于模型实际性能提升的说法,也可能进一步推动其在开发者平台中的广泛应用。

单个提示即可生成完整应用程序

此次更新的亮点之一是:用户可通过简单提示生成完整的互动网页应用或模拟程序,这完美契合DeepMind简化原型设计与开发流程的愿景。

Gemini应用内的演示显示,用户可以将视觉模式或主题提示直接转化为可用代码,大幅降低设计导向开发团队的技术门槛,为尝试新想法的团队提供高效工具。

尽管谷歌尚未公开Gemini 2.5 Pro的底层架构与内部改动,但其重点显然是提供更快、更直观的开发体验。

通过强化代码生成能力与多模态输入整合,Gemini 2.5 Pro不再是实验型产品,而成为应对实际开发挑战的强大工具。此次提前发布也表明,谷歌DeepMind有意在I/O大会前积极响应开发者需求,并持续保持发展势头。(小小)

延伸阅读
相关推荐
热点推荐
从无视陈梦握手,到2次投诉后辈蒯曼,国乒某名将的风评越来越差

从无视陈梦握手,到2次投诉后辈蒯曼,国乒某名将的风评越来越差

谭颞爱搞笑
2025-12-30 21:35:03
小伙从上海徒步1400公里回老家过年,36天瘦27斤,血脂都恢复正常了

小伙从上海徒步1400公里回老家过年,36天瘦27斤,血脂都恢复正常了

扬子晚报
2026-02-09 22:03:09
来不成中国?特朗普定下4条新规则,百亿订单要黄,岛内没钱付账

来不成中国?特朗普定下4条新规则,百亿订单要黄,岛内没钱付账

深蓝的航迹
2026-02-09 12:58:13
“瑶一瑶小肉包”粉丝跌破2000万

“瑶一瑶小肉包”粉丝跌破2000万

黄河新闻网吕梁频道
2026-02-09 11:46:15
上海小南国全部关门?仅剩两家“中谷小南国”,店员:我们是酒店,和餐饮小南国不是一家

上海小南国全部关门?仅剩两家“中谷小南国”,店员:我们是酒店,和餐饮小南国不是一家

随申Hi
2026-02-09 17:05:12
U17国足狂胜亚洲杯二档强队!引越媒关注,印尼队主帅承认路很长

U17国足狂胜亚洲杯二档强队!引越媒关注,印尼队主帅承认路很长

足球大腕
2026-02-09 11:39:40
超雄真的有那么可怕吗?网友的分享,一看一个不吱声

超雄真的有那么可怕吗?网友的分享,一看一个不吱声

另子维爱读史
2026-02-01 20:30:29
英国上将揭露,当年“香港”回归真相:谁敢抗衡中国解放军?

英国上将揭露,当年“香港”回归真相:谁敢抗衡中国解放军?

终于在眼泪中明白
2026-02-07 08:36:49
辛芷蕾方开撕微博风波升级!娃娃被偷再添实锤,杨幂大粉帮倒忙!

辛芷蕾方开撕微博风波升级!娃娃被偷再添实锤,杨幂大粉帮倒忙!

古希腊掌管月桂的神
2026-02-09 15:13:16
东京落雪,高市大胜

东京落雪,高市大胜

非典型佛教徒
2026-02-09 04:08:29
和吴奇隆离婚16年后,嫁给外国老公的马雅舒,最终还是自食苦果

和吴奇隆离婚16年后,嫁给外国老公的马雅舒,最终还是自食苦果

无处不风景love
2026-02-07 22:42:05
擒贼先擒王,美方发现不对劲,中方反制巴拿马后,枪口对准了美国

擒贼先擒王,美方发现不对劲,中方反制巴拿马后,枪口对准了美国

元宝课堂
2026-02-09 11:10:46
如果身上一旦有这些特征,说明你修行很高!

如果身上一旦有这些特征,说明你修行很高!

金沛的国学笔记
2025-12-26 16:08:40
拜仁“最差引援”终离队!租借回归土耳其,25岁的他没啥机会了

拜仁“最差引援”终离队!租借回归土耳其,25岁的他没啥机会了

里芃芃体育
2026-02-09 05:00:13
这届年轻人,正在山姆实现“营养品自由”

这届年轻人,正在山姆实现“营养品自由”

酷玩实验室
2026-02-09 19:22:12
20年前,张冕为护胡歌离世,胡歌许诺赡养其父母,如今他做到了吗

20年前,张冕为护胡歌离世,胡歌许诺赡养其父母,如今他做到了吗

青橘罐头
2026-02-06 11:39:34
25岁林妙可惊艳蜕变:丰腴之美,自信如花?

25岁林妙可惊艳蜕变:丰腴之美,自信如花?

娱乐领航家
2026-01-16 22:00:03
范元甄:曾是红极一时的“延安四美”,却因“太聪明”输掉了一生

范元甄:曾是红极一时的“延安四美”,却因“太聪明”输掉了一生

干史人
2026-02-02 08:33:29
张本智和2比4输给王楚钦,张本智和砸拍,日媒哀叹:差得太远了

张本智和2比4输给王楚钦,张本智和砸拍,日媒哀叹:差得太远了

北纬的咖啡豆
2026-02-09 19:27:31
他是游泳世界冠军,娶杭州美女主持,如今儿女双全,还成了大老板

他是游泳世界冠军,娶杭州美女主持,如今儿女双全,还成了大老板

科学发掘
2026-02-09 16:21:34
2026-02-10 05:08:49

科技要闻

实测|字节新模型带着音效和复杂运镜杀疯了

头条要闻

人民日报评"南博事件":无论涉及到什么人 绝不放任

头条要闻

人民日报评"南博事件":无论涉及到什么人 绝不放任

体育要闻

不会打篮球,如何入选詹娜前男友第一阵容

娱乐要闻

央视电影活动名场面!明星站位太讲究

财经要闻

沪深北交易所优化再融资 释放3个信号

汽车要闻

长安将搭钠电池 好比汽车要装柴油机?

态度原创

本地
游戏
房产
健康
公开课

本地新闻

围观了北京第一届黑色羽绒服大赛,我笑疯了

推出“黑命贵”DLC后,《我的世界》被骂“洗脑儿童”"/> 主站 商城 论坛 自运营 登录 注册 推出“黑命贵”DLC后,《我的世界》被骂“洗脑儿童” ...

房产要闻

海南又一千亿级赛道出现,京东、华润、中石化等巨头率先杀入!

转头就晕的耳石症,能开车上班吗?

公开课

李玫瑾:为什么性格比能力更重要?

无障碍浏览 进入关怀版
×