在刚拿到2024年图灵奖之后不久,强化学习领域的奠基人之一理查德·萨顿,向生成式人工智能的科研潜力泼了盆冷水。他的核心论断直指一个被高频调用掩盖的短板:这类系统缺少一套内在的检验和筛选机制。
萨顿眼里的标准生成模型,运作逻辑是从海量样本里抓取模式,再吐出类似的东西。表面上看,它们能写会画,但输出中真正有价值的部分,往往只是训练材料的高保真反射。他借研究圈的一句玩笑把这事点透——生成内容里,旧的那部分确实好用,碰巧冒出来的新东西,又常常是没法用的幻觉。
![]()
这背后牵扯出一个更深层的断裂。萨顿将科学发现拆解成三个环节:生成变体、对变体做出评估、有选择地把好的留下来。从生物进化到规划搜索,这条原则几乎刻在一切能产生突破的系统底层。可大语言模型和图像模型,恰恰卡在第二步。它们能批量制造变体,唯独没有内建的测试流程把优解筛选出来。
相反,萨顿举出AlphaGo、AlphaZero、AlphaFold、AlphaProof、Claude Code和GT-Sophy作为参照。这些系统的共同点,是在文本和图像生成之外,各自搭载了一个评估闭环。围棋胜率、蛋白质结构预测精度、形式化证明校验、代码级测试,任何能提供有效反馈的信号,都让它们不止于交差,而是真的沿着更优方向迭代。
萨顿没有全盘否定生成式AI的落地价值。摘要、辅助研究、娱乐,乃至更快更省地模仿某个原型,这些路线图都成立。只不过科学发现的门槛划在“模仿”之外——系统得自己提出不同的选项,接受现实或者规则的测试,再把证明有效的方法固定下来,这套循环机制才是产生新知的关键。
基于这一判断,他对行业当前重度押注更大语言模型的做法并不认同。萨顿更愿意把目光投向能长期与环境互动、从经验里构建世界模型并自主规划策略的智能体。在他看来,AI的下一个突破,大概率得由那些懂得筛选正确答案的系统,而非单纯产出候选答案的模型来推动。
特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.