网易首页 > 网易号 > 正文 申请入驻

谷歌史上最强推理模型全面屠榜!击败DeepSeek断层第一,“人类最后考试”暴碾OpenAI,免费可用

0
分享至


智东西
作者 陈骏达
编辑 心缘

智东西3月26日报道,今天,谷歌发布了Gemini 2.5思考模型家族的第一个成员——Gemini 2.5 Pro实验版本。这一模型在多项基准测试中全面超越OpenAI o3-mini,Claude 3.7 Sonnet、Grok-3和DeepSeek-R1,一经亮相便在大模型竞技场获得1443分,凭借39分的大幅优势,获得断层第一


不过,谷歌并未放出Gemini 2.5 Pro与OpenAI o1、OpenAI o1-Pro和OpenAI o3等模型在基准测试中的对比。此外,在智能体编程评估基准SWE-bench verified上,其得分要低于Claude 3.7 Sonnet

Gemini 2.5 Pro除了在衡量人类偏好的大模型竞技场领先之外,还在常见的编程、数学和科学基准测试中处于领先地位,包括Humanity’s Last Exam(人类最后考试)这一难度超高的基准测试,与OpenAI o3-mini相比,其得分提升了近5%,提升比例达34%。这款模型现已支持100万tokens上下文窗口,并将很快拓展至200万tokens。

目前,Gemini 2.5 Pro已上线面向开发者的谷歌AI Studio平台,并很快会在谷歌的在线AI开发平台Vertex AI上线。普通用户若要体验这款新模型,需要具备Gemini Advanced订阅账号。

未来几周,谷歌还将推出模型的定价,允许用户使用具有更高速率的2.5 Pro进行大规模商用。

博客地址:https://blog.google/technology/google-deepmind/gemini-model-thinking-updates-march-2025/#gemini-2-5-pro

体验链接:https://aistudio.google.com/app/prompts/new_chat?model=gemini-2.5-pro-exp-03-25

一、谷歌大秀新模型编程能力,一句话生成互动式图表

Gemini 2.5 Pro发布后,谷歌DeepMind在其YouTube账号上发布了多个演示视频,主要展现了其编程能力与其他领域能力的结合。

例如,Gemini 2.5 Pro可以根据用户提出的简单指令,在p5.js中探索曼德博集合。这要求大模型具备较好的数学、编程和可视化能力。最终,较好的可视化效果应包括清晰的边缘、平滑的颜色过渡等。


Gemini 2.5 Pro还能根据提示词,创建互动式的图表。下方案例中,它便将过去几十年的人均GDP数据与健康数据结合,在一张图表内呈现了数百个国家过去几十年的变化,从而揭示财富与健康之间的关系。


对于一些更为日常的任务,如游戏开发,Gemini 2.5 Pro也能在指定特定编程语言的情况下,给出兼具审美和可玩性的游戏。下方的这一恐龙小游戏与Chrome内自带的游戏画风颇为接近。


二、获得多项SOTA成绩,将支持200万tokens长上下文

谷歌称,Gemini 2.5 Pro在一系列需要高级推理能力的基准测试中获得了最佳表现,包括GPQA和AIME 2025。参与测试时,Gemini 2.5 Pro没有使用多数投票等token消耗量巨大的测试时计算技巧。


Gemini 2.5 Pro在Humanity’s Last Exam中获得了18.8%的最佳得分,且并未调用工具。这一测试集由数百位人类专家设计,包含了人类最前沿深奥的知识和推理。

高级编程能力方面,Gemini 2.5 Pro在2.0版本的基础上实现了较大提升,新模型擅长创建美观的Web应用和智能体编程方面表现突出,同时擅长代码转换与编辑任务。

在行业标准的智能体编程评估基准SWE-bench verified上,Gemini 2.5 Pro采用定制智能体配置取得了63.8%的得分,不过这一得分仍然低于Claude 3.7 Sonnet。

与Gemini模型家族的其他成员一样,Gemini 2.5 Pro具备原生多模态处理能力和超长上下文窗口。目前,其支持100万tokens的上下文窗口,并很快将升级至200万tokens,让该模型能够解析海量数据集,处理来自文本、音频、图像、视频乃至完整代码库等多元信息源的复杂问题。

结语:编程成为AI玩家角力新前线

本次Gemini 2.5 Pro的发布,与昨日DeepSeek-V3新版本的发布相隔不到30个小时。与DeepSeek-V3一样,谷歌也选择提升了Gemini在编程、审美、数学等方面的能力,并将其作为模型的亮点重点展示,放出的6个演示视频均为AI编程相关。

AI编程能力的提升,既能给普通用户带来直观的感知变化,也有望在生产场景中带来明显的效益提升。这一领域或将在未来很长一段时间内,成为大模型厂商们竞相角力的方向。

特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相关推荐
热点推荐
未公开的1972年尼克松访华全套高清彩照

未公开的1972年尼克松访华全套高清彩照

霹雳炮
2025-04-19 23:34:10
2-1,又赢了!中国男足久违逆转,3场不败+7分排第2,创造5大纪录

2-1,又赢了!中国男足久违逆转,3场不败+7分排第2,创造5大纪录

侃球熊弟
2025-04-20 02:03:25
清洗毛巾原来这么简单,水里撒一把,搓一搓立马和新的一样

清洗毛巾原来这么简单,水里撒一把,搓一搓立马和新的一样

巢客HOME
2025-04-16 23:12:44
无解世界波!凯恩迎两大里程碑,德甲60场轰60球,或卫冕金靴

无解世界波!凯恩迎两大里程碑,德甲60场轰60球,或卫冕金靴

奥拜尔
2025-04-19 22:01:49
本赛季VAR介入情况:巴萨6次有利1次不利,皇马0次有利7次不利

本赛季VAR介入情况:巴萨6次有利1次不利,皇马0次有利7次不利

直播吧
2025-04-20 01:22:10
NBA传闻:德克·诺维茨基近年来与独行侠队保持距离的原因

NBA传闻:德克·诺维茨基近年来与独行侠队保持距离的原因

好火子
2025-04-20 00:11:02
被判10年的李天一,改名换姓出狱后,最恶心的一幕还是出现了

被判10年的李天一,改名换姓出狱后,最恶心的一幕还是出现了

小故事娱乐
2025-03-23 12:20:03
莱因克尔:麦克托米奈和拉什福德的例子表明,这支曼联有点烂透了

莱因克尔:麦克托米奈和拉什福德的例子表明,这支曼联有点烂透了

直播吧
2025-04-19 00:49:09
澳门近1年发生至少6起“内地女性诬告强奸案”,含女大学生报复男友不送礼

澳门近1年发生至少6起“内地女性诬告强奸案”,含女大学生报复男友不送礼

小萝卜丝
2025-04-19 08:34:46
含剧毒无解药!这些东西不能吃,高温烹煮也无用,误食极可能致死

含剧毒无解药!这些东西不能吃,高温烹煮也无用,误食极可能致死

阿伧说事
2025-04-15 20:02:56
尘埃落定!克洛普执教皇马

尘埃落定!克洛普执教皇马

慢歌轻步谣
2025-04-19 08:58:27
42岁胡歌患肺癌在北京住院,时日无多想多陪女儿?工作室回应了

42岁胡歌患肺癌在北京住院,时日无多想多陪女儿?工作室回应了

慎独赢
2025-02-24 23:56:51
球队大脑!哈利伯顿半场送7助&雄鹿全队8助 另有6分4板&正负值+25

球队大脑!哈利伯顿半场送7助&雄鹿全队8助 另有6分4板&正负值+25

直播吧
2025-04-20 02:25:11
蒙太古杯-U16国足2-1旺代省U17将参加季军赛 谢晋扳平李钧鹏反超

蒙太古杯-U16国足2-1旺代省U17将参加季军赛 谢晋扳平李钧鹏反超

直播吧
2025-04-20 01:54:15
附加赛落幕了,没有最差只有更差,诞生3赢家3输家,库里等到了

附加赛落幕了,没有最差只有更差,诞生3赢家3输家,库里等到了

体坛大辣椒
2025-04-19 12:50:27
国乒天才选手诞生!孙颖莎或被爆冷,丢失世界杯冠军

国乒天才选手诞生!孙颖莎或被爆冷,丢失世界杯冠军

体坛狗哥
2025-04-19 12:05:20
罗大佑道破黄家驹死因,他的死给Beyond成员上了一辈子养老保险!

罗大佑道破黄家驹死因,他的死给Beyond成员上了一辈子养老保险!

野山历史
2025-04-11 11:17:53
相声界有多黑暗?退出多年的刘威爆出真相,郭德纲说的都是真的

相声界有多黑暗?退出多年的刘威爆出真相,郭德纲说的都是真的

小悠来综艺
2023-11-02 16:00:03
老婆长得像苏妲己是啥体验?网友:毫无安全感,感觉要精神分裂

老婆长得像苏妲己是啥体验?网友:毫无安全感,感觉要精神分裂

解读热点事件
2025-03-29 00:20:03
婚恋市场,如今已经彻底沦为女儿国模式

婚恋市场,如今已经彻底沦为女儿国模式

加油丁小文
2025-04-19 03:03:25
2025-04-20 02:59:00
智东西 incentive-icons
智东西
聚焦智能变革,服务产业升级。
9735文章数 116745关注度
往期回顾 全部

科技要闻

机器人半马:摇摇晃晃21公里,跌倒也燃!

头条要闻

中国男子在TikTok"神评"美国关税 美教授秒答:赞同

头条要闻

中国男子在TikTok"神评"美国关税 美教授秒答:赞同

体育要闻

一笔“水货”交易,成了快船争冠助推器?

娱乐要闻

林更新被质疑利用她 女方早否认了

财经要闻

“逃离”美元资产

汽车要闻

冰箱彩电+AI大沙发 东风日产N7硬刚新势力

态度原创

本地
时尚
家居
房产
公开课

本地新闻

云游湖北 | 七仙女都爱的山水,双峰米酒一口上头

春天穿衣不用花枝招展,还是从实际出发,找到舒适耐看的造型

家居要闻

天台月光 灰白简约空间

房产要闻

官方下场,海南楼市炸裂!这家央企,热度拉爆了!

公开课

李玫瑾:为什么性格比能力更重要?

无障碍浏览 进入关怀版