DeepMind 前研究科学家：企业 AI 真提效，先把 “ KPI ”设对|算法|kpi|预测器|子系统|正式版模型|deepmind

DeepMind 前研究科学家：企业 AI 真提效，先把 “ KPI ”设对

2026-01-03 08:09:47　来源: AI深度研究员

上海举报

分享至

全文 3,000字 | 阅读约 8 分钟

（前DeepMind神经科学家访谈精彩片段）

企业部署 AI ，普遍的感觉是：会说，但不会干。

最近，著名科技播客主持人 Dwarkesh Patel 发布了他与 Adam Marblestone 的长谈。

Marblestone 曾在 Google DeepMind 的神经科学团队做研究科学家，如今是 Convergent Research 的 CEO。

他从神经科学的视角，重新审视了企业 AI 落地难的这件事。

AI 学得快不快，关键不在模型有多大、技术有多新，而在你给它设定了什么样的学习目标。

就像团队管理，KPI 设错了，再努力也是白费。AI 也一样，损失函数、奖励信号这些“AI 的 KPI”，决定了它最终往哪个方向优化。

这背后的逻辑是什么？

AI 现在喂的数据已经够多了，但它不知道什么数据值得学。就像一个学生拼命刷题，却不知道哪些题型重要。

第一节｜数据喂了十倍，能力没涨一倍，问题在哪？

过去几年，企业在 AI 上的投入越来越大。模型越来越强，算力越来越贵，训练数据越堆越多。

但落地的时候，很多人还是那个感觉：AI 会说，但不会干。

事实上,我们给大语言模型投喂的数据量，已经远超任何一个人类一辈子能接触到的信息总量。但它的能力，还远不如一个普通人。

问题出在哪？

Marblestone 把 AI 系统分成三个部分：

架构（Architecture）：有多少层，怎么连接
学习算法（Learning Algorithm）：反向传播还是别的什么
代价函数（Cost Functions）：训练它去做什么，奖励什么

他的判断是，前两个被过度关注，第三个反而被忽视了。

大家都在优化模型结构和训练方法，但最该优化的反而被忽视了：你到底在奖励什么。

为什么会这样？

因为机器学习喜欢数学上简单的损失函数。预测下一个词，算个交叉熵，这些都是计算机科学家喜欢的简单目标。

但大脑不是这样工作的。

自然进化给大脑设计了成千上万个不同的学习目标：这个脑区学什么，那个脑区学什么；三岁学什么，十岁学什么；什么情况该兴奋，什么情况该警惕。

Marblestone 形容它像一套预装的操作指南，精确规定了大脑的每个部分在每个阶段该关注什么。

第二节｜大脑怎么做到的？靠的是双系统协作

为了解释这个大脑机制，Adam Marblestone 引用了前物理学家、现 AI 安全研究员Steve Byrnes 的一套理论。

这个理论把大脑分成两个系统：

学习子系统：主要是皮层，负责学习世界模型，结构相对简单重复
引导子系统：下丘脑、脑干、杏仁核等，负责提供先天的奖励信号

就像一对搭档：一个专注积累经验，另一个负责告诉它什么值得学。

“引导子系统”不只是发信号那么简单，它有自己的感觉系统。

比如视觉，我们以为只有皮层在处理。但大脑深处还有一个更原始的视觉系统，叫上丘，天生就能检测面孔和威胁。当有小黑影快速靠近你的身体，上丘会直接触发退缩反射。这个反应比你意识到发生了什么还快。

这就是引导子系统在工作：小的、深色的、高对比度的、快速移动的=昆虫=危险。

但泛化是怎么发生的？

秘密在于：负责学习的部分会去预测那些天生反应。

还是刚才退缩的例子。当你退缩时，杏仁核会训练一个预测器：我快要退缩了吗？这个预测器接收的信息来自皮层。蜘蛛这个词、蜘蛛的图片、关于蜘蛛的书，甚至这段对话，都会输入给它。

所以你听到“你背上有蜘蛛”，即使没有真蜘蛛，也会触发预测器，进而激活类似的不适感。

泛化机制包括三个部分：

引导子系统提供简单标签（危险/安全、喜欢/讨厌）
学习子系统把标签连接到复杂的世界特征上
预测器让这种连接可以泛化到新情境

人能从极少例子中学习，靠的就是这套泛化机制。

对此，Marblestone 还提供了一个生物学证据：引导子系统的细胞种类，比学习子系统多得多。

皮层的细胞类型相对统一，就像重复的 Transformer 层。但下丘脑、脑干这些引导子系统，有成千上万种不同的细胞，每一种对应一个特定的先天反应。检测盐味的，检测社交地位的，区分朋友和敌人的，都是不同的细胞在负责。

这么多种细胞，人类基因的信息量其实很少，不像大模型有海量训练数据，怎么能造出这么复杂的大脑？

答案是，人类进化不需要预先编码整个世界模型。

它只需要编码三样东西：一个可以学习的架构（皮层）、一套丰富的奖励信号（引导子系统）、一个连接机制（预测器）。

剩下的，交给学习。

因此，大脑的秘密不是结构有多复杂，而是知道该学什么。

第三节｜企业 AI 的KPI，该怎么重新设计

那企业 AI 怎么办？

Adam Marblestone 指出了当前 AI 训练的现状：

“我们在大模型中根本没有价值函数。这种训练方式非常原始，比 10 年前的 AI用的方法还要简单。”

什么是价值函数？

简单说，就是让 AI 不只看眼前这一步对不对，而是评估这一步对长期目标有什么影响。

现在的训练方式是：整个对话轨迹解决了问题，就把这个轨迹里的每个词都加权。但 AI 不知道哪个词是关键转折，哪个词只是过渡，哪个决策会在 5 步后引发好结果。

它只知道这次成功了，不知道为什么成功。

而大脑有多层次的评估机制。有负责简单动作选择的部分，有负责建立奖励模型的部分，还有专门评估当前状态对长期目标价值的价值函数。

更关键的是，大脑不只是单向预测下一个词。

它可以全向推理。看到画面能预测声音，听到声音也能预测画面；知道目标，能反推路径；看到结果，能倒推原因。

Marblestone 说，大脑可以在任意方向上做预测。

大模型擅长从原因推结果，比如“他迟到了，所以___”，它能接“被批评了”。但如果反过来，告诉它“他被批评了’，让它推断前面可能发生了什么，就要弱很多。

因为大模型的训练方向是固定的：从左往右预测下一个词。

人却能灵活选择推理方向。看到结果能倒推原因，知道目标能反推路径。

所以 AI 缺的是两样东西：价值函数告诉它什么值得做，全向推理让它灵活达成目标。

那企业 AI 的 KPI 该怎么设计？

基于原文的思路，可能的方向包括：

1、引入价值函数

不只是这个任务做对了，不只评估这一步对不对，还要评估它对后续 5 步、10步的影响。在业务场景下，什么样的中间状态是有价值的？哪些信息值得记住，哪些可以忽略？

2、设计分层的奖励信号

借鉴大脑的双系统：基础层判断对错（客服回复是否解决问题），中间层关注业务目标（满意度、转化率、风险控制），高层对准战略目标（品牌形象、长期留存）。不同层次的奖励权重不同，在不同阶段启用。

3、训练全向推理能力

不只是从输入预测输出，还要能从目标倒推路径、从部分信息补全上下文、从约束条件生成方案。这可能需要在训练中移除固定的掩码，让模型学会从任意变量预测任意变量。

4、探索行为克隆

除了给 AI 标签（这个回复好或坏），更重要的是给它专家的思考路径：在哪个时刻关注什么信息，在哪些点放慢速度，决策边界在哪里。

说到底，训练 AI 理解什么值得做对，为什么值得做对，以及这个“对”在整个业务流程里处于什么位置。

企业 AI 提效，模型能力重要，但你给它设定什么样的评分体系，可能更重要。

你奖励什么，它就会往什么方向优化。

就像企业管理：KPI 设错了，团队再努力也会在把事做偏。

奖励准确率，它可能变得保守；
奖励效率，它可能牺牲质量；
奖励用户满意度，它可能过度迎合。

真正的挑战是设计一套像大脑那样丰富、分层、动态调整的奖励体系。这不是换个模型就能解决的。

在你的业务场景里，什么才是真正值得 AI 去学、去记、去优化的，得想清楚。

模型会变强，但方向得你给。

结语｜KPI 设对了，AI 才能学得快

AI 现在的问题很清楚：数据喂得越来越多，能力涨得越来越慢。

原因也很清楚：它不知道什么值得学。

人脑的数据效率来自自然进化预装的复杂奖励体系。不同脑区、不同阶段、不同情境，有不同的学习目标。

AI 只有一个简单目标：预测下一个词。

这就是差距。

Marblestone 的观点是：调模型、堆参数，不如重新设计评分标准。

企业 AI 提效也一样。

与其追求更大的模型，不如先想清楚：你在奖励 AI 什么？这套评分体系，能引导它做对的事吗？

答案可能不在算力，在 KPI设得对不对。

识自AI

本文由AI深度研究院出品，内容翻译整理自Adam Marblestone在Dwarkesh Patel播客的访谈等网上公开素材，属翻译分析性质。内容为观点提炼与合理引述，未逐字复制原访谈材料。未经授权，不得转载。

星标公众号，点这里 1. 点击右上角 2. 点击"设为星标" ← AI深度研究员 ⋮ ← 设为星标

https://www.youtube.com/watch?v=_9V_Hbe-N1A

https://www.dwarkesh.com/p/adam-marblestone

https://www.dwarkesh.com/feed?utm_source=chatgpt.com

https://coefficientgiving.org/files/Research/Moral_Patienthood/Marblestone_et_al_%282016%29.pdf?utm_source=chatgpt.com

来源：官方媒体/网络新闻，

排版：Atlas

编辑：深思

主编：图灵

特别声明：以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布，本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

手机 / 数码

房产 / 家居

DeepMind 前研究科学家：企业 AI 真提效，先把 “ KPI ”设对

精华！黄仁勋CES记者会：揭秘新款大杀器

美军扣押俄潜艇护航的油轮 俄罗斯外交部回应

美军扣押俄潜艇护航的油轮 俄罗斯外交部回应

卖水果、搬砖的小伙，与哈兰德争英超金靴

《马背摇篮》首播，革命的乐观主义故事

农大教授科普：无需过度担忧蔬菜农残

燃油驾趣+智能电感双Buff 试驾全新奥迪Q5L

态度原创

这些新疗法，让化疗不再那么痛苦

宁静不单调 恰到好处的美

《GTA6》地图规模再引热议：这次真要"大到离谱"了?

美军扣押俄潜艇护航的油轮俄罗斯外交部回应

美军扣押俄潜艇护航的油轮俄罗斯外交部回应

宁静不单调恰到好处的美