![]()
![]()
在模型底层原理(Transformer-Difussion-Mamba等)、智能的数学世界观等层面,以及进一步面向以融合感知、持续学习、内生自主为基础的认知与行为智能等方面,存在着范式变革的需求。
本文作者系
盘古智库学术委员、
上海财经大学特聘教授、智能科技产业与智能经济研究学者
胡延平,
文章来源于“
胡延平研思小笔记
本文大约2100字,读完约5分钟。
![]()
在Yann LeCun、Richard Sutton等声称现有技术方向死路一条的时候,在多方认为范式效率陷入停滞的时候,Gemini 3以智能水准的显著跃升打脸了怀疑论。
都知道Google动静不会小,只是没想到这次憋出来的有点大:ARC-AGI-2、Humanity’s Last Exam、ScreenSpot-Pro等新型基准测试成绩数倍于GPT-5.1,提升幅度之大远超挤牙膏的OpenAI,有Google提前发布了GPT-6的即视感。AIME 2025更是得到了100%的满分。
试用和讨论过程中,提炼出Gemini 3释放的12个信号:
1.代码、视觉理解、数学、智能体、工具利用等构成能力内核,智能水准走向可用的交付而不是尚未闭环的生成,尤其代码通则智能通;
2.AIME 2025(美国数学邀请赛)是个有点普通的基准,但测试满分可以理解为AGI的第一个预演。AGI有没有到来,关键看如何定义AGI。一直认为AGI不是只有一个时点、一个刻度。AGI是从多方面分无数次到来的。从知识到推理,从问答到感知和行动,从AGI到ASI,测试机构和业界始终在前移路标,但是如果路标一直上调标准,意味着AGI始终难以到达。
3.数据-算法-算力-能源、Transformer-LLMs-MLLMs-Agent-Tools的范式即使不颠覆,渐进发展下去也可以逐步逼近AGI。
4.芯片-操作系统-浏览器-云平台-大模型-智能体-软件-Apps-开发生态-亿万用户,全栈-全生态能力不仅有利于竞争,也有利于做出更高水准的智能。
5.Gemini 3在ARC-AGI-2、Humanity’s Last Exam等更具挑战的创新基准测试中,一骑绝尘的表现尤其增强了业者的信心和希望,不仅Scaling Law继续有效,网络效应、规模奇点、整体最优等生态法则也在起作用;Scaling Law不是成效显著衰减了,而是潜力才刚开始释放;缺乏足够的低成本算力、缺少用之不尽的高质量训练数据以及被电力问题搞得焦头烂额,至少部分原因其实不是智能范式的锅,是大模型的creator们资源实力有限的错。
6.超级平台和超级智能合体对打造强智能来说是好事,但是对防止生态极化和生态依附没有好处,头部人工智能企业的强者恒强、赢者通吃、虹吸效应、生态失衡等发展特征越来越明显。打造了Transformer的Google王者归来意味着OpenAI-Microfost联盟(超级智能+超级平台)多了一个竞争对手,但Google仍然是AI极化发展趋向的一部分,超级智能和超级平台在Google这里天然是一体的。
7.如果说之前2和2.5版本的Gemini只是对GPT产生冲击,Gemini 3意味着Google生态实力对OpenAI的地位构成动摇。OpenAI真正的劲敌不是Anthropic,接下来围绕OpenAI融资、估值、上市的一系列过程,必然跌宕起伏变化多端。此前这个势头从原生多模态、Veo等多个技术和产品节点已经初现端倪。不过试用比较Gemini 3 Pro和GPT-5.1的Deep Research,GPT-5.1还是有肉眼可见的优等生即视感。模型之间真正的比拼不在常规问答,在Deep Think、Deep Research等“深”水区域,真实水准往往在200美元左右而不是20美元左右的账户里使用才能够比较出来。然而即使如此,Gemini 3还是会让OpenAI的压力山大,GPT-5.5、GPT-6只可能加快节奏。
8.奥特曼称GPT-6会显著优于GPT-5,尤其记忆方面;不过Gemini 3力证了业界的一个基本共识,比较现实且高ROI的智能水准提升途径,是智能体、工具、代码等方面的生态协同,模型要么将Agent与工具等能力内化,要么对Agent与工具调用有更好的支持,而只有更好的内化才会有更好的支持。
9.Gemini 3主要是范式的渐进,不过也有能力的突变,否则不会多项基准表现大幅度跃升。更为复杂的深度推理成为亮点,是强化学习、思维链有新进展?还是有创新的方法?有待继续观察。
10.使用自家TPU而非GPU训练和推理,Gemini可以称之为非英伟达生态也能走出来的一个成功范例,其它非英伟达生态由此增添了一些想象力。
11.题外话,DeepSeek奇迹再次复现的概率不大,因为AI生态的竞争游戏不再是单点突破,而是整体的生态推进能力。
12.另一个题外话,去年乌镇峰会期间主持AI OS讨论时我曾经问过一个问题,安卓生态App向鸿蒙生态的迁移主要靠堆工程师且bug比较多,是不是可以用专门训练的代码能力较强的AI大模型来做编译转换。今年乌镇峰会期间再次主持的时候,没好意思再提这个问题。走到随Gemini 3一起发布的Antigravity开发平台这一步,至少大量相对简单的长尾安卓App,未来通过“标准+模型+工具+人工”,一键迁移到鸿蒙生态其实越来越接近可行。简而言之,鸿蒙生态化出现的卡顿,其实也显示了AI能力的不足。
重复之前答媒体问时的观点,LeCun等所谓死路,其实不是死路,而是要走的路,至少是其中一条路,而且是必经的路,并且是已经走通的路。怀疑论认为是未来之路的路,目前还没有究竟,目前所谓世界模型其实主要是基于视觉的空间智能或时空智能,真正的世界模型还比较遥远。倒是在模型底层原理(Transformer-Difussion-Mamba等)、智能的数学世界观等层面,以及进一步面向以融合感知、持续学习、内生自主为基础的认知与行为智能等方面,存在着范式变革的需求。■
![]()
![]()
![]()
文章来源于“胡延平研思小笔记”微信公众号
图文编辑:张洵
责任编辑:刘菁波
特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.