网易首页 > 网易号 > 正文 申请入驻

谷歌看了都沉默:自家「黑科技」火了,但为啥研发团队一无所知?

0
分享至

  

  新智元报道

  编辑:KingHZ

  【新智元导读】当整个科技圈都在为「谷歌黑魔法」集体高潮时,真相恐给了所有人一记耳光。那套被捧上神坛的「并行验证循环」,不过是社交网络上AI生成的「赛博跳大神」。

  如果说之前的AI模型是在模拟人类的思考,那么Gemini 3 Flash就是在模拟人类的「直觉」。

  3倍于Gemini 2.5 Pro的速度,却拥有超越Pro级的推理能力。

  更离谱的是,它的智力竟然在某些基准测试超越了自家的Pro大哥。

  

  但目前为止,依然没人能说明白:Flash凭为什么比Pro还要「聪明」。

  谷歌DeepMind到底有啥黑魔法?

  「林子打了,什么鸟都有」,以至于X上网友Jainam Parmar爆料:

  AlphaGo团队根本不使用思维链。

  他们采用并行验证循环机制。

  这套方法正在碾压你听说过的所有「高级推理」技术。

  

  成千上万的网友浏览过这个帖子。

  这靠谱吗?这有没有可能是「以讹传讹」、用AI生成的「假新闻」?

  如果是假新闻,难道只是因为「DeepMind碾压同行的推理」这样的噱头吗?

  

  我们先看一下推文到底讲了啥。

  谷歌DeepMind的黑科技?

  首先,这位「万能的网友」直击CoT命门,解释了为什么Chain-of-Thought很糟糕。

  当前的AI推理是线性的:

  思考步骤1→步骤2→步骤3。

  但这并不是专家级问题解决者的思维方式。

  然后,他写道:「DeepMind分析了他们的AlphaGo团队是如何应对复杂问题的,结果发现了一件非常惊人的事情。」

  

  并行验证循环(Parallel Verification Loops):

  专家型思考者并不会沿着一条冗长的推理链一路走到底,而是同时运行多个验证循环。

  他们会提出一个解决方案,用约束条件去检验它;必要时回退;同时探索其他可能的路径——这些过程是并行发生的。

  而Chain-of-Thought做不到这一点。

  

  架构上的差异(The ArchitectureDifference):

  传统的思维链:A→B→C→D(线性)

  DeepMind的框架:A→[B1,B2,B3]→分别验证→精炼→迭代

  这就好比是在一条路上一直往前走,而另一种方式则是同时探索整棵决策树。

  

  结果非常夸张:

  在复杂推理基准测试中:

  相比标准的Chain-of-Thought,性能提升37%

  捕捉逻辑错误的能力提升52%

  收敛到正确解的速度快了3倍

  这不是小幅优化,而是架构层面的飞跃

  

  它实际是如何运作的

  步骤1:同时生成多个候选解决方案

  步骤2:每个方案各自运行一套验证循环

  步骤3:不同方案之间进行交叉验证

  步骤4:剪除较弱的分支,强化更有潜力的路径

  步骤5:持续迭代,直到收敛

  

  自我纠错优势:

  这才是杀手级特性:系统在给出最终答案之前,就能发现并纠正自己的错误。

  传统的CoT(思维链)是按步骤顺序「提交」的,只要其中一步出错,后面就全盘皆输。

  而并行验证允许在不中断整体流程的情况下回溯和修正,而不必从头再来。

  

  对训练方式的影响:

  他们不只是测试了这种方法,而是直接用这一框架来训练模型

  模型学会了:

  提出多个假设

  让这些假设相互检验

  通过验证逐步建立置信度

  尽早剪除错误或低质量的推理路径

  

  现实世界中的应用:

  这一框架在以下场景中表现尤为强大:

  数学证明(一步出错,整体就会崩塌)

  代码调试(可能同时存在多个潜在Bug)

  战略规划(需要探索复杂的决策树)

  科学推理(假设提出与验证)

  凡是正确性优先于速度的地方,它都具备压倒性优势。

  

  如果你正在构建AI智能体或推理系统,Chain-of-Thought已经过时了。

  未来属于并行验证(Parallel Verification)

  生成多条路径。

  对它们进行测试。

  让最优解自然浮现。

  这正是AlphaGo击败世界冠军的方式。

  这也是推理真正运作的方式。

  疑点重重,被AI袭击的一天?

  在这些描述中,「并行验证」简直就是为数学证明和代码调试量身定制的终极武器。

  凡是追求正确性的场景,它似乎都能实现降维打击。

  这套理论听起来是不是太完美了?简直就像是DeepMind真的把人类直觉代码化了一样。

  但恰恰是这种「过度的完美」和「极具煽动性」的文风,引起了业内人士的警觉。

  当成千上万的网友还在为这套「黑魔法」转发点赞时,冷静下来的人们开始追问一个最基本的问题:

  这套东西,到底是谁说的?

  发帖的Jainam Parmar,也不是什么AI研究领域的大牛,也不是谷歌DeepMind的员工。

  他也没有明确给出DeepMind的可信的源链接。

  他说的靠谱吗?

  即使DeepMind放缓发布世界知名的研究成果,以便在AI竞赛中赢得先机。

  

  但DeepMind仍在发布他们的研究成果。

  

  去年11月初,谷歌DeepMind团队还发布了号称解决「可持续学习」难题的新的机器学习范式──嵌套学习(nested learning)。

  

  原推文那种藏头露尾、吊人胃口的写作风格,令人不喜,甚至部分网友怀疑,帖子压根就是大模型生成的!

  

  熟悉DeepMind研究工作的网友,则认为帖子在故弄玄虚,甚至歪曲原意!

  

  

  更有网友毫不客气地指出,发帖人就是蹭热度,半年前他还在鼓吹「CoT就是下一代推理技术」。

  

  

  

  还有更关键的证据,之后,另一网友Chris Laub发布了一模一样的内容:

  

  帖子底下,也有网友怀疑,这就是诱导人点击的AI垃圾!

  

  

  

  事实上,CoT早不是什么先进技术。

  长思维链和短思维链截然不同。

  长思维链,有三大关键特征: 深度推理、广泛探索和可行的反思。

  这些特征使得模型能够处理更复杂的任务,并且与较浅的短思维链相比,产生更高效、更连贯的结果。

  

  回到问题本身:Gemini 3Flash 到底凭什么更聪明?

  至少目前,没有任何可靠证据表明DeepMind已将「并行验证循环」作为核心推理框架,全面取代Chain-of-Thought。

  相反,这场风波更像一次典型的 AI 舆论实验—— 当模型表现出现异常跃迁,人们总是更愿意相信「黑魔法」,而不是渐进式优化。

  真正值得警惕的,也许不是CoT是否过时,而是我们是否过度迷信单一解释

  推理的未来,未必只有一条路,但谣言,往往只需要一条推文。

  参考资料:

  https://github.com/LightChen233/Awesome-Long-Chain-of-Thought-Reasoning

  https://x.com/iruletheworldmo/status/2007550905177256071

  https://x.com/aiwithjainam/status/2005629090943193552

  https://x.com/ChrisLaubAI/status/2006668516280197287

特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相关推荐
热点推荐
伊朗:十多艘油轮无视警告,已被炮弹击中并烧毁!并发布“战果”称“击中美军驱逐舰使其熊熊燃烧”

伊朗:十多艘油轮无视警告,已被炮弹击中并烧毁!并发布“战果”称“击中美军驱逐舰使其熊熊燃烧”

扬子晚报
2026-03-04 09:42:52
拉菲尼亚点射小将双响,巴萨3-0复仇马竞,创国王杯纪录无缘逆转

拉菲尼亚点射小将双响,巴萨3-0复仇马竞,创国王杯纪录无缘逆转

钉钉陌上花开
2026-03-04 06:03:58
东北剿匪,警卫排长被50根金条收买,带5名战士行刺司令员

东北剿匪,警卫排长被50根金条收买,带5名战士行刺司令员

朝子亥
2026-02-21 17:00:03
丢联盟第一!哈登18+6+7活塞惜败骑士 阿伦伤退坎宁安16中4

丢联盟第一!哈登18+6+7活塞惜败骑士 阿伦伤退坎宁安16中4

醉卧浮生
2026-03-04 10:32:08
罗德里戈:我将告别本赛季并缺席世界杯,但我不会就此止步

罗德里戈:我将告别本赛季并缺席世界杯,但我不会就此止步

懂球帝
2026-03-04 03:39:07
员工过年值班8天索要3倍工资 法院:每天打完卡玩手机 不支持 律师:其不符合“加班”的法定特征

员工过年值班8天索要3倍工资 法院:每天打完卡玩手机 不支持 律师:其不符合“加班”的法定特征

闪电新闻
2026-03-03 17:36:04
美伊打仗,又打火了中国制造!

美伊打仗,又打火了中国制造!

达文西看世界
2026-03-03 14:03:12
伊朗最高领袖选举会场遭袭,大楼已完全被炸成废墟

伊朗最高领袖选举会场遭袭,大楼已完全被炸成废墟

极目新闻
2026-03-04 09:49:14
争议?祖国遭空袭后,伊朗女足亚洲杯集体拒唱国歌!主帅面带微笑

争议?祖国遭空袭后,伊朗女足亚洲杯集体拒唱国歌!主帅面带微笑

我爱英超
2026-03-03 11:43:31
墙倒众人推!薛之谦事件闹大,谢娜撕破体面,句句质问戳他心窝

墙倒众人推!薛之谦事件闹大,谢娜撕破体面,句句质问戳他心窝

胡一舸南游y
2026-03-03 15:14:47
无警报、无生还!伊朗一枚导弹直穿防空,炸死科威特港口6名美军

无警报、无生还!伊朗一枚导弹直穿防空,炸死科威特港口6名美军

Nee看
2026-03-03 11:00:32
霍梅尼去世前,为何不选择儿子接班,而是把伊朗交给哈梅内伊?

霍梅尼去世前,为何不选择儿子接班,而是把伊朗交给哈梅内伊?

担扑
2026-03-02 22:35:09
绝情臭豆腐彻底反转!顾客冒雨排队力挺商家,舆论反扑真相太扎心

绝情臭豆腐彻底反转!顾客冒雨排队力挺商家,舆论反扑真相太扎心

奇思妙想草叶君
2026-03-03 23:25:51
鲁迅家是如何衰败的?鲁迅肯定不会告诉你,因为实在“太丢人”

鲁迅家是如何衰败的?鲁迅肯定不会告诉你,因为实在“太丢人”

顾史
2026-03-02 10:46:01
第13轮反击!伊导弹绕过防空,端掉美军指挥中心,特朗普找台阶下

第13轮反击!伊导弹绕过防空,端掉美军指挥中心,特朗普找台阶下

头条爆料007
2026-03-03 14:44:07
两组照片对比,伊朗神权集团崩塌的必然

两组照片对比,伊朗神权集团崩塌的必然

涛哥锐评
2026-03-04 06:32:25
男子江苏下高速显示费用83990元,震惊收费员!被询问是否绕路,驾驶员幽默回应“绕到美国去?”

男子江苏下高速显示费用83990元,震惊收费员!被询问是否绕路,驾驶员幽默回应“绕到美国去?”

台州交通广播
2026-03-03 18:13:40
美国袭击伊朗,最大“受害”城市出现了

美国袭击伊朗,最大“受害”城市出现了

国民经略
2026-03-03 12:15:55
克林顿夫妇4.5小时视频公布!希拉里12次说“去问我丈夫”,还愤怒锤桌!克林顿:接受过空乘按摩,没与爱泼斯坦介绍的任何女性发生关系

克林顿夫妇4.5小时视频公布!希拉里12次说“去问我丈夫”,还愤怒锤桌!克林顿:接受过空乘按摩,没与爱泼斯坦介绍的任何女性发生关系

每日经济新闻
2026-03-04 00:47:25
诺坎普5万人鼓掌!亚马尔捂脸提前伤心离场 55岁匪帅狂喜死里逃生

诺坎普5万人鼓掌!亚马尔捂脸提前伤心离场 55岁匪帅狂喜死里逃生

风过乡
2026-03-04 07:00:54
2026-03-04 10:59:00
新智元 incentive-icons
新智元
AI产业主平台领航智能+时代
14634文章数 66648关注度
往期回顾 全部

科技要闻

新MacBook Pro首发M5 Pro/Max芯片 17999起

头条要闻

牛弹琴:伊朗选出新的最高领袖 一个更不可能妥协的人

头条要闻

牛弹琴:伊朗选出新的最高领袖 一个更不可能妥协的人

体育要闻

“头铁”拼图在NBA也有生存环境

娱乐要闻

迪丽热巴转机滞留迪拜 错过巴黎时装周

财经要闻

伊朗,正在打破特朗普的幻想

汽车要闻

比亚迪元PLUS遭导弹袭击 车辆未起火/乘员均生还

态度原创

游戏
亲子
家居
健康
艺术

《异形工厂2》4月23日正式推出 好评工厂建设规划

亲子要闻

王晓娟、周仲元:关爱女性健康:从孕期营养和体重管理开始

家居要闻

极简无界 静居自安然

转头就晕的耳石症,能开车上班吗?

艺术要闻

2025“情系塔里木”美术作品展

无障碍浏览 进入关怀版