网易首页 > 网易号 > 正文 申请入驻

谷歌Gemini 3.1 Pro屠榜封神,清华姚顺宇出手!Claude和GPT被逼入死角

0
分享至


新智元报道

编辑:好困 桃子

【新智元导读】谷歌DeepMind深夜扔出核弹,下一代Gemini 3.1 Pro正式登场。在公认的最难ARC-AGI-2测试中,它拿下最高分直接看呆硅谷,推理狂飙2倍,直接把Claude 4.6拉下王座。

Gemini 3 Pro之后,谷歌DeepMind终于祭出杀招!

刚刚,下一代旗舰模型Gemini 3.1 Pro深夜炸场,直接刷爆全领域的SOTA,成为AI新王。



Deep Think之后,清华校友姚顺宇也参与了Gemini 3.1 Pro的研发

这一次,Gemini 3.1 Pro实现了大模型推理能力的史诗级飞跃。

在极为严苛的ARC-AGI-2测试中,它一举斩获77.1%的高分,性能飙升至上一代3.0 Pro的两倍有余

外加接近满分(98%)的ARC-AGI-1,不管是思考拉满的Claude Opus 4.6,还是特调版的GPT-5.2,通通都被踩在了脚下。




从下方的SVG对比测试中,便能直观感受到3.1 Pro与3 Pro之间悬殊的实力代差。


在编程和推理领域,Gemini 3.1 Pro同样一骑绝尘,全面碾压Sonnet 4.6、GPT-5.2。

在AAII综合评测中,3.1 Pro强势登顶,不仅总分领先Claude Opus 4.6足足4分,API调用成本更是不到一半


今天起,Gemini 3.1 Pro已正式在Gemini和NotebookLM中上线。开发者可通过Google AI Studio、Antigravity以及Android Studio抢先体验。


如今,硅谷的AI战局已然变天,重量级玩家仅剩下谷歌DeepMind和Anthropic「硬碰硬」。

此前曾风头无两的OpenAI,似乎正逐渐失去在这片主战场上的主动权。

Gemini 3.1 Pro深夜突袭

全能SOTA成绩翻倍

作为谷歌迄今为止最强悍的模型,3.1 Pro在3 Pro的基础上实现了全面跨越。

它不仅具备原生的全模态输入能力,更支持高达100万Token的超长上下文


在业界最为关注的性能对标中,Gemini 3.1 Pro展现出了令人窒息的统治力。

在人类最后考试(HLE)中,Gemini 3.1 Pro在零工具辅助下拿下了44.4%的成绩,将GPT-5.2(34.5%)和Opus 4.6(40.0%)逼到了墙角。

在ARC-AGI-2测试中,Gemini 3.1 Pro以77.1%的逆天成绩一骑绝尘,把刚刚登顶没两天的Opus 4.6(68.8%)甩在了身后。

更让人震撼的,是它在代码和AI智能体领域的跨越式进化。

  • 在LiveCodeBench Pro中,狂砍2887的Elo积分,断层领先同侪;

  • 在Terminal-Bench 2.0中,凭借68.5%的得分压制了专攻代码的GPT-5.3-Codex(64.7%);

  • 在APEX-Agents中,更是以33.5%的成绩傲视群雄,相比之下,Opus 4.6得分为29.8%,而GPT-5.2仅有23.0%。



除了硬核推理,Gemini 3.1 Pro在长篇大论的处理上也大秀肌肉。

在MRCR v2的128k长上下文测试中,它直接拿下了84.9%的高分。

更可怕的是,它独家支持了1M Token的终极测试并取得26.3%的成绩,而同台竞技的GPT-5.2和Opus 4.6在这个级别上甚至直接显示「不支持」。


更重要的是,相较于上一代,3.1 Pro在幻觉率上大幅下降。


手搓神级应用,这才是杀手级AI

3.1 Pro带来的不仅是跑分上的碾压,更是逻辑推理能力的全面进化。

现在,它不仅能攻克极度棘手的逻辑难题,更在实际落地应用中展现出了令人惊艳的生产力重塑能力。

不论是将晦涩的概念转化为直观图解,把海量数据浓缩成清晰的图表,还是让天马行空的创意直接变成现实,3.1 Pro都能轻松胜任。


  • 基于代码的动画

只需一段简单的文本提示词,3.1 Pro就能直接生成可无缝嵌入网页的SVG动画。

最绝的是,这些纯代码构建的动画不仅支持无限放大且绝对清晰,它的文件体积相比传统视频更是小得令人难以置信。

  • 整合复杂系统

强大的推理能力还让3.1 Pro彻底打破了复杂API与人性化设计之间的壁垒。

比如,它能直接构建出一个实时的航天数据看板,完美接入公开的遥测数据流,将国际空间站的实时运行轨迹清晰地展现在你眼前。

  • 交互设计

3.1 Pro甚至能用纯代码编写出极其复杂的3D椋鸟群舞特效,为你打造一整套沉浸式体验。

在这套系统中,你可以通过手势追踪技术实时「指挥」鸟群,同时还能听到随着鸟群动态实时演变的生成式配乐。

这绝对是研究人员和设计师开发多模态交互界面原型的一大利器。

  • 创意编程

更有趣的是,3.1 Pro还能将经典的文学主题转化为真正能跑的精美代码。

比如让它为《呼啸山庄》设计一个现代风格的个人主页,模型不仅精准捕捉了原著压抑深沉的氛围基调,还顺势生成了一个极简且充满现代感的界面,可谓是完美拿捏了主角的灵魂底色。

全网惊艳首测,统治SVG

谷歌UX工程师Michael Chang直接上手,用3.1 Pro模拟复杂的城市规划,瞬间生成并设计出了一个全新的城市鸟瞰拓扑。


仅仅输入一句话的Prompt,3.1 Pro便在短短3分钟内,搓出了一个长达11秒SVG动画。



在另一个SVG测试中,它生成的「海豹顶皮球」在视觉表现力上也堪称惊艳。


AI大牛Simon Willison在测试中,让3.1 Pro在5分钟内生成了一个可以清晰勾勒出腿的鹈鹕SVG。


在3D空间推理方面,3.1 Pro也是新SOTA。


3.1 Pro生成的3D像素版宝可梦,可比3.0 Pro强太多了。



另外,3.1 Pro还能生成最佳的交互式动画,展示一颗种子从发芽到长成大树的全过程。



进化没有终点,只有更强的下一幕

今天起,Gemini 3.1 Pro预览版正式发布,这仅仅是一个新的开始。

谷歌表示,从去年11月至今,用户真实的反馈,都加速了每一次的研发迭代。


Gemini 3.1 Pro深夜突袭,是对AI行业格局的又一次重塑。

谷歌 DeepMind 用这种近乎「肌肉秀」的迭代速度告诉世界——

在通往AGI的深水区,只有硬件算力与算法深度耦合的玩家,才能拿稳下半场的入场券。

参考资料:

https://blog.google/innovation-and-ai/models-and-research/gemini-models/gemini-3-1-pro/

https://x.com/Google/status/2024519455389192204?s=20

https://deepmind.google/models/model-cards/gemini-3-1-pro/


特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相关推荐
热点推荐
身价过亿坐拥北京一条街,陈道明得叫她姐,儿子是他骄傲更是心病

身价过亿坐拥北京一条街,陈道明得叫她姐,儿子是他骄傲更是心病

绚丽的画卷
2026-02-24 00:28:22
访华前,特朗普宣布对中国加税,不到24小时,白宫收到巨额账单

访华前,特朗普宣布对中国加税,不到24小时,白宫收到巨额账单

肖兹探秘说
2026-02-23 22:40:35
“特朗普和内塔尼亚胡在白宫会晤时同意,美将努力减少伊朗对华石油出口”,外交部回应

“特朗普和内塔尼亚胡在白宫会晤时同意,美将努力减少伊朗对华石油出口”,外交部回应

扬子晚报
2026-02-23 21:19:22
决定你人生高度的,不是财富,而是这3大能力、2大思维

决定你人生高度的,不是财富,而是这3大能力、2大思维

第一桶金学派
2025-06-30 09:38:36
疯了!切尔西又要换门将了? 23 岁门神标价 5000 万镑

疯了!切尔西又要换门将了? 23 岁门神标价 5000 万镑

奶盖熊本熊
2026-02-24 03:10:28
离婚后才明白,有些话难听,却是现实

离婚后才明白,有些话难听,却是现实

加油丁小文
2026-02-14 08:00:20
快船险胜魔术!伦纳德+马瑟林59分,尼德豪泽完美护框,琼斯太铁

快船险胜魔术!伦纳德+马瑟林59分,尼德豪泽完美护框,琼斯太铁

篮球资讯达人
2026-02-23 12:38:20
早已杀青却播出无望的7部剧,禁播理由个个离谱,尤其是最后一部

早已杀青却播出无望的7部剧,禁播理由个个离谱,尤其是最后一部

小Q侃电影
2026-02-21 22:05:04
尊界首款SUV曝光!

尊界首款SUV曝光!

电动知家
2026-02-23 17:58:32
萨卡独一档!本赛季英超唯一成功过人+创造机会均46次的边锋!

萨卡独一档!本赛季英超唯一成功过人+创造机会均46次的边锋!

田先生篮球
2026-02-23 22:19:04
苹果首款折叠屏iPhone实锤量产,2026年登场,零折痕+双生态来袭

苹果首款折叠屏iPhone实锤量产,2026年登场,零折痕+双生态来袭

小兔子发现大事情
2026-02-23 17:06:33
血糖多高才会“烂脚”失明?记住这3个数字,能救你一命!

血糖多高才会“烂脚”失明?记住这3个数字,能救你一命!

今日养生之道
2026-02-23 21:52:01
扔红包像打发要饭的!杨子回村给晚辈发钱“扔地上”,网友炸了

扔红包像打发要饭的!杨子回村给晚辈发钱“扔地上”,网友炸了

东方不败然多多
2026-02-21 20:55:22
女儿接母亲去美国养老,过海关时,外孙女突然用中文说了句话,她当场愣住,连夜买了回国的机票

女儿接母亲去美国养老,过海关时,外孙女突然用中文说了句话,她当场愣住,连夜买了回国的机票

LULU生活家
2026-01-27 13:35:37
被这位北京姥姥惊艳到了!衣永远穿松、发散而不乱,美得优雅得体

被这位北京姥姥惊艳到了!衣永远穿松、发散而不乱,美得优雅得体

小盖爱生活ui
2026-01-31 17:08:24
伊朗拒绝出口其高浓缩铀库存

伊朗拒绝出口其高浓缩铀库存

财联社
2026-02-22 19:40:20
只打8年篮球,就成NBA状元,他天赋异禀,为何混底薪?

只打8年篮球,就成NBA状元,他天赋异禀,为何混底薪?

体坛热评
2026-02-20 23:29:26
国产HBM重大突破!合肥联盟攻克2.5D封装核心技术,2026年底试产

国产HBM重大突破!合肥联盟攻克2.5D封装核心技术,2026年底试产

宇量信息
2026-02-23 20:24:05
刑宣布后,现场的乱港分子大哭,西方31国如丧考妣,美英跳脚

刑宣布后,现场的乱港分子大哭,西方31国如丧考妣,美英跳脚

西莫的艺术宫殿
2026-02-24 01:01:53
突发:1200名游客被困东京晴空塔350米高空,救援行动持续6小时,有中国游客发帖感慨经历!

突发:1200名游客被困东京晴空塔350米高空,救援行动持续6小时,有中国游客发帖感慨经历!

日本物语
2026-02-23 20:33:37
2026-02-24 04:03:00
新智元 incentive-icons
新智元
AI产业主平台领航智能+时代
14577文章数 66635关注度
往期回顾 全部

数码要闻

REDMI产品经理:Turbo 5 Max 1TB版备货极少 不会再追加

头条要闻

墨西哥最大毒枭被击毙:喜欢杀人灭门 几乎没人看见过他

头条要闻

墨西哥最大毒枭被击毙:喜欢杀人灭门 几乎没人看见过他

体育要闻

哈登版骑士首败:雷霆的冠军课

娱乐要闻

那艺娜账号被禁止关注,视频已清空!

财经要闻

美国海关将停止征收被裁定违法的关税

科技要闻

智谱、MiniMax合计蒸发近千亿市值,为何?

汽车要闻

续航1810km!smart精灵#6 EHD超级电混2026年上市

态度原创

亲子
艺术
房产
公开课
军事航空

亲子要闻

孩子长得慢长得矮,查查这四项

艺术要闻

十大名家画春,送给春天的你!

房产要闻

窗前即地标!独占三亚湾C位 自贸港总裁行宫亮相

公开课

李玫瑾:为什么性格比能力更重要?

军事要闻

美军重兵集结蓄力作战之际 新一轮美伊谈判时间“敲定”

无障碍浏览 进入关怀版