网易首页 > 网易号 > 正文 申请入驻

谷歌史上最强推理模型全面屠榜!击败DeepSeek断层第一,“人类最后考试”暴碾OpenAI,免费可用

0
分享至


智东西
作者 陈骏达
编辑 心缘

智东西3月26日报道,今天,谷歌发布了Gemini 2.5思考模型家族的第一个成员——Gemini 2.5 Pro实验版本。这一模型在多项基准测试中全面超越OpenAI o3-mini,Claude 3.7 Sonnet、Grok-3和DeepSeek-R1,一经亮相便在大模型竞技场获得1443分,凭借39分的大幅优势,获得断层第一


不过,谷歌并未放出Gemini 2.5 Pro与OpenAI o1、OpenAI o1-Pro和OpenAI o3等模型在基准测试中的对比。此外,在智能体编程评估基准SWE-bench verified上,其得分要低于Claude 3.7 Sonnet

Gemini 2.5 Pro除了在衡量人类偏好的大模型竞技场领先之外,还在常见的编程、数学和科学基准测试中处于领先地位,包括Humanity’s Last Exam(人类最后考试)这一难度超高的基准测试,与OpenAI o3-mini相比,其得分提升了近5%,提升比例达34%。这款模型现已支持100万tokens上下文窗口,并将很快拓展至200万tokens。

目前,Gemini 2.5 Pro已上线面向开发者的谷歌AI Studio平台,并很快会在谷歌的在线AI开发平台Vertex AI上线。普通用户若要体验这款新模型,需要具备Gemini Advanced订阅账号。

未来几周,谷歌还将推出模型的定价,允许用户使用具有更高速率的2.5 Pro进行大规模商用。

博客地址:https://blog.google/technology/google-deepmind/gemini-model-thinking-updates-march-2025/#gemini-2-5-pro

体验链接:https://aistudio.google.com/app/prompts/new_chat?model=gemini-2.5-pro-exp-03-25

一、谷歌大秀新模型编程能力,一句话生成互动式图表

Gemini 2.5 Pro发布后,谷歌DeepMind在其YouTube账号上发布了多个演示视频,主要展现了其编程能力与其他领域能力的结合。

例如,Gemini 2.5 Pro可以根据用户提出的简单指令,在p5.js中探索曼德博集合。这要求大模型具备较好的数学、编程和可视化能力。最终,较好的可视化效果应包括清晰的边缘、平滑的颜色过渡等。

Gemini 2.5 Pro还能根据提示词,创建互动式的图表。下方案例中,它便将过去几十年的人均GDP数据与健康数据结合,在一张图表内呈现了数百个国家过去几十年的变化,从而揭示财富与健康之间的关系。

对于一些更为日常的任务,如游戏开发,Gemini 2.5 Pro也能在指定特定编程语言的情况下,给出兼具审美和可玩性的游戏。下方的这一恐龙小游戏与Chrome内自带的游戏画风颇为接近。

二、获得多项SOTA成绩,将支持200万tokens长上下文

谷歌称,Gemini 2.5 Pro在一系列需要高级推理能力的基准测试中获得了最佳表现,包括GPQA和AIME 2025。参与测试时,Gemini 2.5 Pro没有使用多数投票等token消耗量巨大的测试时计算技巧。


Gemini 2.5 Pro在Humanity’s Last Exam中获得了18.8%的最佳得分,且并未调用工具。这一测试集由数百位人类专家设计,包含了人类最前沿深奥的知识和推理。

高级编程能力方面,Gemini 2.5 Pro在2.0版本的基础上实现了较大提升,新模型擅长创建美观的Web应用和智能体编程方面表现突出,同时擅长代码转换与编辑任务。

在行业标准的智能体编程评估基准SWE-bench verified上,Gemini 2.5 Pro采用定制智能体配置取得了63.8%的得分,不过这一得分仍然低于Claude 3.7 Sonnet。

与Gemini模型家族的其他成员一样,Gemini 2.5 Pro具备原生多模态处理能力和超长上下文窗口。目前,其支持100万tokens的上下文窗口,并很快将升级至200万tokens,让该模型能够解析海量数据集,处理来自文本、音频、图像、视频乃至完整代码库等多元信息源的复杂问题。

结语:编程成为AI玩家角力新前线

本次Gemini 2.5 Pro的发布,与昨日DeepSeek-V3新版本的发布相隔不到30个小时。与DeepSeek-V3一样,谷歌也选择提升了Gemini在编程、审美、数学等方面的能力,并将其作为模型的亮点重点展示,放出的6个演示视频均为AI编程相关。

AI编程能力的提升,既能给普通用户带来直观的感知变化,也有望在生产场景中带来明显的效益提升。这一领域或将在未来很长一段时间内,成为大模型厂商们竞相角力的方向。

特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相关推荐
热点推荐
当你接触的人越多,就会发现:凡是内心强大、不内耗、能接纳不同的人,都有一个共性,那就是杜绝了这两种人性的通病

当你接触的人越多,就会发现:凡是内心强大、不内耗、能接纳不同的人,都有一个共性,那就是杜绝了这两种人性的通病

心理观察局
2026-06-16 07:16:41
大陆已经在做解放台湾的战争准备了,最明显信号是对美态度变了。

大陆已经在做解放台湾的战争准备了,最明显信号是对美态度变了。

阿七说史
2026-06-25 15:26:56
德布劳内:我很清楚,我再也不会是9年前的那个德布劳内了

德布劳内:我很清楚,我再也不会是9年前的那个德布劳内了

懂球帝
2026-06-27 22:04:24
挪威为何1-4惨败法国?赛后哈兰德毫不客气说出原因,说得很实在

挪威为何1-4惨败法国?赛后哈兰德毫不客气说出原因,说得很实在

慢歌轻步谣
2026-06-27 09:07:22
乌拉圭2分小组第3!韩媒:韩国利好!拯救韩国的剧本或许真要上演

乌拉圭2分小组第3!韩媒:韩国利好!拯救韩国的剧本或许真要上演

砚底沉香
2026-06-27 09:32:06
四川男子被骗园区后续!姐姐赴泰挖出猛料,多方勾结,根本防不住

四川男子被骗园区后续!姐姐赴泰挖出猛料,多方勾结,根本防不住

辉哥说动漫
2026-06-27 15:39:30
32强最后4席:世界杯疯狂一夜,梅西修身养息,C罗抢分争第一

32强最后4席:世界杯疯狂一夜,梅西修身养息,C罗抢分争第一

郭夷包工头
2026-06-28 00:09:06
惨烈,亏损超40%,章建平割肉江淮汽车!葛卫东亏了4个多亿...

惨烈,亏损超40%,章建平割肉江淮汽车!葛卫东亏了4个多亿...

金石随笔
2026-06-28 00:18:52
3轮2分!世界杯双冠王小组出局,主帅队长内讧,阿根廷成最大赢家

3轮2分!世界杯双冠王小组出局,主帅队长内讧,阿根廷成最大赢家

球场没跑道
2026-06-27 11:34:27
很多单位不光绩效停发,有些连工资都发不出来了

很多单位不光绩效停发,有些连工资都发不出来了

细说职场
2026-06-27 15:39:33
葡萄牙将落位32强:面临2选1抉择!大概率避开阿根廷,更好进决赛

葡萄牙将落位32强:面临2选1抉择!大概率避开阿根廷,更好进决赛

小火箭爱体育
2026-06-27 14:56:29
半只球鞋决定伊朗命运,世界杯出线规则到底有多狠

半只球鞋决定伊朗命运,世界杯出线规则到底有多狠

眼界看世界
2026-06-27 18:55:07
志愿填报大家谈   城市、学校、专业,填报志愿优先考虑哪个

志愿填报大家谈   城市、学校、专业,填报志愿优先考虑哪个

中国青年报
2026-06-27 18:04:14
马宁沦为第 4 官员,原因曝光,FIFA 有意让他任总决赛第 1 官员

马宁沦为第 4 官员,原因曝光,FIFA 有意让他任总决赛第 1 官员

酷侃体坛
2026-06-27 17:43:41
为拿美国绿卡,在联合国大楼前抹黑中国的张晓宁,终于“圆梦”了

为拿美国绿卡,在联合国大楼前抹黑中国的张晓宁,终于“圆梦”了

朗威谈星座
2026-06-28 00:00:09
美国航母遭袭,34死,171伤!谁干的?

美国航母遭袭,34死,171伤!谁干的?

汉唐智库
2026-06-27 02:41:55
因内存短缺,iPhone 18 将首次使用 9GB 运行内存!

因内存短缺,iPhone 18 将首次使用 9GB 运行内存!

XCiOS俱乐部
2026-06-27 09:30:20
三线崩溃!极度揪心!孙颖莎金身破碎,国乒卫冕还能指望谁

三线崩溃!极度揪心!孙颖莎金身破碎,国乒卫冕还能指望谁

一口桃
2026-06-10 12:33:02
多名院士研究发现:吃一瓣大蒜,就等于给血管添一次堵,真的假的

多名院士研究发现:吃一瓣大蒜,就等于给血管添一次堵,真的假的

汪医生健康百科
2026-06-25 20:25:06
65岁老头用零食哄骗小女孩,对其侵害长达两年,12岁女孩怀孕产子

65岁老头用零食哄骗小女孩,对其侵害长达两年,12岁女孩怀孕产子

易玄
2026-06-27 01:06:14
2026-06-28 03:04:49
智东西 incentive-icons
智东西
智东西,AI产业新媒体,专注报道人工智能的前沿技术发展,和技术应用带来的千行百业产业变革。
12141文章数 117112关注度
往期回顾 全部

科技要闻

GPT-5.6发布,你暂时用不了!Mythos也放行

头条要闻

金价大跌 有商家资产缩水百万:跌掉一辆迈巴赫

头条要闻

金价大跌 有商家资产缩水百万:跌掉一辆迈巴赫

体育要闻

世界杯最火门将,站到了阿根廷和梅西面前

娱乐要闻

四提白玉兰终封后,杨紫:仍觉不真实

财经要闻

OpenAI推迟IPO重创软银!

汽车要闻

搭载华为乾崑ADS 5 全新猛士M817上市售29.99万起

态度原创

时尚
本地
数码
房产
艺术

伊姐周六热推:电视剧《昨夜将至》;电影《蝴蝶楼·惊魂》......

本地新闻

世界杯球迷节:比球赛更好玩的派对

数码要闻

存储芯片大涨 苹果美光打口水战

房产要闻

全国高考大放水,300分就能上本科!论上岸率,海南没输过!

艺术要闻

看完他的局部,我原谅了整个世界的不完美

无障碍浏览 进入关怀版