网易首页 > 网易号 > 正文 申请入驻

谷歌地表最强模型深夜来袭!Gemini 2.5 Pro发布即屠榜,代码推理杀疯了

0
分享至

新智元报道

编辑:Aeneas 好困

【新智元导读】Gemini 2.5 Pro,刚刚深夜上线了!这个「思考」模型专为复杂任务打造,推理能力强大,一经诞生就横扫各大榜单、拿下各类TOP 1,还创下了历史上最大分数飞跃纪录。

就在刚刚,谷歌的全新模型Gemini 2.5 Pro,果然深夜上线了!

Gemini 2.5 Pro是一个「思考」模型,能够在回应前先进行思考推理,从而提升性能,并改善准确性。

谷歌称,它是世界上最强大的模型,具备统一的推理能力,以及用户所喜爱的Gemini的所有功能(长上下文、工具等)。

它在多个基准测试中达到了SOTA水平,并且以显著的优势在LMArena上排名第一。

现在,Gemini 2.5 Pro已经登顶了Arena排行榜的第一位,而且创下了历史最大分数飞跃,比Grok-3/GPT-4.5整整高出了40分!

在代号「nebula」的测试中,它也横扫所有类别夺得第一,并且独揽数学、创意写作、指令遵循、长查询和多轮对话五大领域的冠军!

在困难提示词和编程两大领域,它与Grok-3/GPT-4.5拿到了并列冠军,而且在所有其他比拼中都以微弱优势胜出,成功问鼎榜首!

此外,Gemini 2.5 Pro还成功登顶了视觉竞技场(Vision Arena)排行榜榜首!

在网页开发领域,它也同样大放异彩,成功斩获网页开发竞技场(WebDev Arena)亚军宝座!

它是首个实力媲美 Claude 3.5 Sonnet 的模型,相比之前版本的Gemini更是实现了质的飞跃。

这一次,谷歌的模型又展现出巨大的飞跃,OpenAI、Anthropic、DeepSeek等竞争对手,在多久时间内会赶上?

目前,Gemini 2.5 Pro已在Google AI Studio和Gemini应用中,向Gemini Advanced用户开放,并将很快在Vertex AI上推出。

而它的定价方案,会在未来几周内公布,用户可以在更高使用配额下,将模型应用于大规模生产环境。

网友实测后发现,它果然实力惊人,在所有模型中效果拔群,第一次尝试就只用几秒解决了一道难题。

Gemini 2.5 Pro上线!

谷歌表示,在AI领域,系统的「推理」能力不仅仅指分类和预测,而是指系统分析信息、得出逻辑结论、融入上下文和细微差别,以及做出明智决策的能力。

长期以来,谷歌一直在探索通过强化学习和思维链提示词等技术,让AI更智能、更具推理能力的方法。

正是在此基础上,他们在2月推出了第一个思考模型,Gemini 2.0 Flash Thinking。

而今天,通过Gemini 2.5,他们结合了显著增强的基础模型和改进的后期训练,让模型达到了新的性能水平。


推理和代码能力大幅提升

Gemini 2.5 Pro展现出了强大的推理和代码能力,在常见的编程、数学和科学基准测试中均处于领先地位。

另外,在各类需要高级推理能力的基准测试中,它都达到了SOTA水平。

无需使用测试阶段会增加计算成本的技术(如多数投票法),2.5 Pro就能在GPQA和 AIME 2025等数学和科学基准评测中表现卓越。

而且,在不使用任何外部工具的条件下,它就在挑战人类知识和推理能力的极限前沿「人类最后的考试」中取得了18.8%的准确率,达到业界领先。

在编程能力上,Gemini 2.5相比2.0版本也实现了质的飞跃,而这,仅仅是个开始。

2.5 Pro在创建视觉精美的网页应用和AI智能体代码应用方面都表现卓越,在代码转换和编辑领域中,也同样实力出色。

在智能体代码评估的行业标准测试SWE-Bench Verified上,Gemini 2.5 Pro靠使用自定义智能体配置,就获得了63.8%的优异成绩。

以下这波demo,就展示了Gemini 2.5 Pro如何运用强大推理,仅通过一行提示词,就能生成可执行代码,来创建完整的动画和游戏。

在下面这个demo中,仅仅根据下面这行prompt,它就生成了一段p5js的交互式动画,展示了「宇宙鱼」的场景,并且还显示了鱼们都在想什么。

它还根据以下prompt,生成了一个无限的恐龙跑酷游戏。

按照要求,它生成了像素化的恐龙图像和有趣的游戏背景。

随后,Gemini 2.5 Pro还通过编程实现了分形可视化。

它创建出了精细分形图案的模拟程序,展现出了神奇的曼德布洛特集合。

此外,它还能构建一个交互式气泡图,直观展示出了每个大陆的经济与健康指标随时间的变化。

或者用一段交互式的Javascript动画,展示了旋转六边形内多彩的人工生命群体,并且按要求做成了「超新星星云」的感觉。

另外,它还能开发粒子系统模拟,给出了一个HTML文件,创造出了反射星云的沉浸式交互模拟场景。


原生多模态和超长上下文

Gemini 2.5继承并发扬了Gemini 模型的优势——原生多模态能力和超长上下文长度。

自己发布之初,2.5 Pro就支持100万token的上下文窗口(而200万token也即将推出!),性能显著超越了前代模型。

这能让它理解海量数据集,并处理来自多种信息源的复杂问题,包括文本、音频、图像、视频,甚至完整的代码仓库。

最后,既然谷歌已经掏出了地表最强模型,接下来,就让我们坐等OpenAI的反应了。

参考资料:

https://blog.google/technology/google-deepmind/gemini-model-thinking-updates-march-2025/#gemini-2-5-thinking

https://deepmind.google/technologies/gemini/pro/

https://x.com/lmarena_ai/status/1904581128746656099

特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相关推荐
热点推荐
刚刚,见证历史!市值突破1000万亿

刚刚,见证历史!市值突破1000万亿

中国基金报
2026-05-04 12:35:32
中国向联合国发出警告:东京有提取武器级钚能力,足以制造约5500枚核弹头!任由其右翼势力推动发展强力进攻性武器,必将再次为祸国际社会

中国向联合国发出警告:东京有提取武器级钚能力,足以制造约5500枚核弹头!任由其右翼势力推动发展强力进攻性武器,必将再次为祸国际社会

大风新闻
2026-05-04 14:05:05
黄仁勋称英伟达中国市场份额已降为零,美国出口管制效果适得其反

黄仁勋称英伟达中国市场份额已降为零,美国出口管制效果适得其反

中国能源网
2026-05-04 11:52:08
杨鸣:辽宁队未来的重点是引援和梯队搭建,下赛季已是生存问题

杨鸣:辽宁队未来的重点是引援和梯队搭建,下赛季已是生存问题

懂球帝
2026-05-04 00:33:17
国乒男团为何输给瑞典?林诗栋连输2局,刘国正一针见血指出问题

国乒男团为何输给瑞典?林诗栋连输2局,刘国正一针见血指出问题

体育大学僧
2026-05-03 23:23:59
厅级干部已经成为了高危职业

厅级干部已经成为了高危职业

风向观察
2026-05-04 14:17:07
中国小学生参加海参崴(符拉迪沃斯托克)“胜利日”阅兵式!

中国小学生参加海参崴(符拉迪沃斯托克)“胜利日”阅兵式!

项鹏飞
2026-05-04 17:31:10
1946年,张灵甫拿下两淮,看到缴获的华中野战军军装后,叹气:唉

1946年,张灵甫拿下两淮,看到缴获的华中野战军军装后,叹气:唉

浩渺青史
2026-05-03 17:36:15
豆包宣布即将收费,最高一年使用费 5088 元

豆包宣布即将收费,最高一年使用费 5088 元

XCiOS俱乐部
2026-05-04 16:45:10
5A 景区扛不住了!无序扩张后,年轻人已经彻底“祛魅”

5A 景区扛不住了!无序扩张后,年轻人已经彻底“祛魅”

爆角追踪
2026-05-04 13:09:11
后背发凉!新司机被父亲要求80时速占快车道,称他人有本事飞过去

后背发凉!新司机被父亲要求80时速占快车道,称他人有本事飞过去

火山詩话
2026-05-04 13:02:18
2000艘船成“人质”:“自由计划”撞上“管理法”,美伊摊牌霍尔木兹

2000艘船成“人质”:“自由计划”撞上“管理法”,美伊摊牌霍尔木兹

上观新闻
2026-05-04 14:45:04
男子五一带朋友回家喝酒,不顾妻子隐私,当场大打出手,丢尽脸面

男子五一带朋友回家喝酒,不顾妻子隐私,当场大打出手,丢尽脸面

观察鉴娱
2026-05-04 10:09:18
足坛最大实锤!凯塔亲口承认,当年睡了伊卡尔迪的老婆旺达?

足坛最大实锤!凯塔亲口承认,当年睡了伊卡尔迪的老婆旺达?

罗氏八卦
2026-05-04 18:05:03
最高5088元/年!豆包真敢啊

最高5088元/年!豆包真敢啊

罗超频道
2026-05-04 15:39:06
莫氏鸡煲上线汤料包5分钟售罄4000多份,累计卖出4万多份,总销售额破160万元,记者实测:1分钟抢到两包

莫氏鸡煲上线汤料包5分钟售罄4000多份,累计卖出4万多份,总销售额破160万元,记者实测:1分钟抢到两包

极目新闻
2026-05-04 09:46:46
四年食品学位,毕业后同宿舍四人竟无一人在食品行业!江南大学的真实现状

四年食品学位,毕业后同宿舍四人竟无一人在食品行业!江南大学的真实现状

户外阿毽
2026-04-27 08:31:47
国足终于立功了,一把砍掉国际足联10个亿

国足终于立功了,一把砍掉国际足联10个亿

刘哥谈体育
2026-05-03 16:55:56
昆明酒店劫持案细节披露:歹徒连续射击,反恐队员防弹衣连中两枪,“我明显感觉已中枪”

昆明酒店劫持案细节披露:歹徒连续射击,反恐队员防弹衣连中两枪,“我明显感觉已中枪”

南方都市报
2026-05-04 15:50:16
日本咸鱼系陪酒女每周只上2天班,月入30万!不追星、不去牛郎店,唯一爱好是存钱…

日本咸鱼系陪酒女每周只上2天班,月入30万!不追星、不去牛郎店,唯一爱好是存钱…

东京新青年
2026-05-03 18:05:36
2026-05-04 19:35:00
新智元 incentive-icons
新智元
AI产业主平台领航智能+时代
15130文章数 66835关注度
往期回顾 全部

科技要闻

OpenAI“复活”了QQ宠物,网友直接玩疯

头条要闻

伊朗:美军舰试图进入霍尔木兹海峡 伊朗发射两枚导弹

头条要闻

伊朗:美军舰试图进入霍尔木兹海峡 伊朗发射两枚导弹

体育要闻

骑士破猛龙:加雷特·阿伦的活力

娱乐要闻

张敬轩还是站上了英皇25周年舞台

财经要闻

魔幻的韩国股市,父母给婴儿开户买股票

汽车要闻

同比大涨190% 方程豹4月销量29138台

态度原创

房产
家居
亲子
旅游
军事航空

房产要闻

五一楼市彻底明牌!塔尖人群都在重仓凯旋新世界

家居要闻

灵动实用 生活艺术场

亲子要闻

4岁女儿说她钱都花没了,奶奶立马拿出钱给她,隔辈就是亲啊

旅游要闻

“五一”周边游、微度假走热,北京等地成假日消费核心聚集地|聚焦假日经济

军事要闻

特朗普回绝伊朗新方案

无障碍浏览 进入关怀版