网易首页 > 网易号 > 正文 申请入驻

当AI开始“动手”:Gemini 3 Deep Think的真正野心

0
分享至

该图片可能由AI生成

谷歌刚刚发布了Gemini 3 Deep Think的重大升级。这次的卖点不是又一个聊天机器人,而是一个能把草图变成实物的推理引擎。

先看几个硬数据:ARC-AGI-2测试得分84.6%,Codeforces编程竞赛Elo达到3455,相当于全球前0.008%的人类选手水平。国际数学奥林匹克和物理奥林匹克的书面部分都达到了金牌水准。



但真正值得关注的不是这些跑分。

罗格斯大学的数学家Lisa Carbone用它审查了一篇高度技术性的数学论文,Deep Think发现了一个此前通过人类同行评审的微妙逻辑缺陷。杜克大学的Wang实验室用它优化了复杂晶体生长的制造方法,成功设计出了超过100微米的薄膜生长配方。

最有意思的是那个“草图到3D打印”的演示。在餐巾纸上画个支架草图,它能分析结构、建模复杂形状、直接输出可打印的STL文件。这不是在“生成”一个模糊的网格,而是在工程一个可制造的实体。

有人说这是“比特到原子”延迟的坍缩。从前,一个想法变成实物需要经过CAD建模、工程计算、文件转换等漫长流程。现在这个流程被压缩成了一句话的意图声明。

当然,社区的反应很分裂。

一边是兴奋:“硬件原型制作刚刚迎来了它的Stable Diffusion时刻。”另一边是质疑:“谷歌的模型总是跑分惊艳,实际使用两周后就发现各种问题。”还有人吐槽250美元的订阅费和每天10次的使用限制:“我们正在建造数字神明,就为了让中层管理者总结那些本不该开的会议。”

有个细节值得玩味:ARC-AGI-2从发布到基本被“解决”,只用了不到一年。85%的得分在ARC Prize的标准里已经算是攻克了这个基准测试。人类在这个测试上的基线是60%准确率,每道题成本17美元。Deep Think达到了64.6%,每道题成本2.25美元。

这说明什么?AI在特定类型的抽象推理上已经超越了人类平均水平,而且成本更低。

但Reddit上有人提出了一个尖锐的问题:为什么所有新模型都在ARC-AGI-2上大幅提升,却在SWE-bench这样的实际软件工程测试上几乎没有进步?Opus 4.6在ARC-AGI-2上比4.5高了30%,但在SWE-bench上反而退步了1%。

解谜能力和解决真实问题的能力,似乎是两回事。

Deep Think目前只对Google AI Ultra订阅用户开放,API访问需要申请早期测试资格。对于大多数人来说,这仍然是一个昂贵的实验品。但它指向的方向很清晰:AI正在从“回答问题”转向“生成可执行的输出”。

当推理的终点不再是一段文字,而是一个可以拿在手里的东西,游戏规则就变了。

blog.google/innovation-and-ai/models-and-research/gemini-models/gemini-3-deep-think

特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相关推荐
热点推荐
史诗级封杀!2000万网红“听风的蚕”彻底凉了

史诗级封杀!2000万网红“听风的蚕”彻底凉了

互联网品牌官
2026-02-12 01:17:23
你在体制内捅过的最大篓子是啥? 网友:人怎么能捅这么大的篓子

你在体制内捅过的最大篓子是啥? 网友:人怎么能捅这么大的篓子

带你感受人间冷暖
2026-02-13 10:06:39
回顾探花大神:害人害己,多位女主被亲戚认出当场“社死”

回顾探花大神:害人害己,多位女主被亲戚认出当场“社死”

就一点
2025-10-09 12:19:42
米兰冬奥|今日早报:金博洋谢幕,马里宁爆冷,花滑男单冠军花落哈萨克斯坦

米兰冬奥|今日早报:金博洋谢幕,马里宁爆冷,花滑男单冠军花落哈萨克斯坦

上观新闻
2026-02-14 06:59:04
冬奥会惊天冷门!21岁美国头号夺冠热门自由滑3跳空+2摔 仅获第8

冬奥会惊天冷门!21岁美国头号夺冠热门自由滑3跳空+2摔 仅获第8

念洲
2026-02-14 06:50:32
当电车渗透率再度跌穿四成,证实日本车没有反思是对的

当电车渗透率再度跌穿四成,证实日本车没有反思是对的

柏铭锐谈
2026-02-13 17:29:03
狗血!中戏王鑫主动投案,共4位表演系主任落马,闫学晶的天塌了

狗血!中戏王鑫主动投案,共4位表演系主任落马,闫学晶的天塌了

壹月情感
2026-02-13 23:30:13
韩国奖牌榜超越中国后,韩媒嘲讽:至今0金,连澳大利亚都不如!

韩国奖牌榜超越中国后,韩媒嘲讽:至今0金,连澳大利亚都不如!

十点街球体育
2026-02-13 22:03:39
52岁龙丹妮上热搜,网友:舞是龙丹妮跳的,面子是前男友李维丢的

52岁龙丹妮上热搜,网友:舞是龙丹妮跳的,面子是前男友李维丢的

她时尚丫
2026-02-13 22:55:36
斯拉夫不相信寒冷——俄乌血战扎波罗热,乌军夺回150平方公里

斯拉夫不相信寒冷——俄乌血战扎波罗热,乌军夺回150平方公里

史政先锋
2026-02-13 21:26:31
这是刘思齐最真实的样貌,这可不是演员扮演的,货真价实的照片

这是刘思齐最真实的样貌,这可不是演员扮演的,货真价实的照片

可乐谈情感
2026-02-14 00:54:24
原来iPhone信号差是没开对,这个隐藏设置一开,信号直接满格

原来iPhone信号差是没开对,这个隐藏设置一开,信号直接满格

小柱解说游戏
2026-02-13 12:20:15
塞尔维亚总统武契奇会见王毅

塞尔维亚总统武契奇会见王毅

新华社
2026-02-14 08:03:02
今年大批校长要落马!

今年大批校长要落马!

行者殷涛
2026-02-13 16:21:19
一年9.9元租地种菜?厦门一网友称被租地后的隐形账单“劝退”

一年9.9元租地种菜?厦门一网友称被租地后的隐形账单“劝退”

扬子晚报
2026-02-14 07:18:25
恭喜!克莱与安踏签下终身合同 12年间售出签名鞋超1000万双

恭喜!克莱与安踏签下终身合同 12年间售出签名鞋超1000万双

罗说NBA
2026-02-14 06:58:33
大衣哥女儿风光出嫁,农村举办婚礼超朴素,朱雪梅全程遮面显害羞

大衣哥女儿风光出嫁,农村举办婚礼超朴素,朱雪梅全程遮面显害羞

扒虾侃娱
2026-02-13 15:54:57
惊天逆转!俄罗斯拟重返美元体系,全球格局彻底改写

惊天逆转!俄罗斯拟重返美元体系,全球格局彻底改写

老马拉车莫少装
2026-02-13 03:19:04
22岁中国男子巴厘岛旅游时溺亡,去年刚大学毕业,原计划除夕前回国和家人团圆,同伴发声

22岁中国男子巴厘岛旅游时溺亡,去年刚大学毕业,原计划除夕前回国和家人团圆,同伴发声

极目新闻
2026-02-13 22:17:39
华为通报:原终端BG多媒体技术部部长被批准逮捕

华为通报:原终端BG多媒体技术部部长被批准逮捕

界面新闻
2026-02-13 13:49:20
2026-02-14 08:55:00
呼呼历史论
呼呼历史论
分享有趣的历史
465文章数 16312关注度
往期回顾 全部

科技要闻

独家探访蔡磊:答不完的卷子 死磕最后一程

头条要闻

37年悬案告破 香港女总督察被认出是昔日TVB女主播

头条要闻

37年悬案告破 香港女总督察被认出是昔日TVB女主播

体育要闻

一年怒亏2个亿,库里和安德玛的“孽缘”

娱乐要闻

大衣哥女儿风光出嫁,农村婚礼超朴素

财经要闻

华莱士母公司退市 疯狂扩张下的食安隐忧

汽车要闻

星光730新春促销开启 80天销量破2.6万台

态度原创

旅游
本地
教育
家居
时尚

旅游要闻

早安重庆|“龙”游古镇【2月14日】

本地新闻

下一站是嘉禾望岗,请各位乘客做好哭泣准备

教育要闻

内蒙古2026年普惠性幼儿园覆盖率达到93%以上

家居要闻

中古雅韵 乐韵伴日常

穿上这些鞋拥抱春天

无障碍浏览 进入关怀版