网易首页 > 网易号 > 正文 申请入驻

DeepMind 前研究科学家:企业 AI 真提效,先把 “ KPI ”设对

0
分享至

全文 3,000字 | 阅读约 8 分钟


(前DeepMind神经科学家访谈精彩片段)

企业部署 AI ,普遍的感觉是:会说,但不会干。

最近,著名科技播客主持人 Dwarkesh Patel 发布了他与 Adam Marblestone 的长谈。

Marblestone 曾在 Google DeepMind 的神经科学团队做研究科学家,如今是 Convergent Research 的 CEO。

他从神经科学的视角,重新审视了企业 AI 落地难的这件事。

AI 学得快不快,关键不在模型有多大、技术有多新,而在你给它设定了什么样的学习目标。

就像团队管理,KPI 设错了,再努力也是白费。AI 也一样,损失函数、奖励信号这些“AI 的 KPI”,决定了它最终往哪个方向优化。

这背后的逻辑是什么?

AI 现在喂的数据已经够多了,但它不知道什么数据值得学。就像一个学生拼命刷题,却不知道哪些题型重要。

第一节|数据喂了十倍,能力没涨一倍,问题在哪?

过去几年,企业在 AI 上的投入越来越大。模型越来越强,算力越来越贵,训练数据越堆越多。

但落地的时候,很多人还是那个感觉:AI 会说,但不会干。

事实上,我们给大语言模型投喂的数据量,已经远超任何一个人类一辈子能接触到的信息总量。但它的能力,还远不如一个普通人。

问题出在哪?

Marblestone 把 AI 系统分成三个部分:

  • 架构(Architecture):有多少层,怎么连接

  • 学习算法(Learning Algorithm):反向传播还是别的什么

  • 代价函数(Cost Functions):训练它去做什么,奖励什么

他的判断是,前两个被过度关注,第三个反而被忽视了。

大家都在优化模型结构和训练方法,但最该优化的反而被忽视了:你到底在奖励什么。

为什么会这样?

因为机器学习喜欢数学上简单的损失函数。预测下一个词,算个交叉熵,这些都是计算机科学家喜欢的简单目标。

但大脑不是这样工作的。

自然进化给大脑设计了成千上万个不同的学习目标:这个脑区学什么,那个脑区学什么;三岁学什么,十岁学什么;什么情况该兴奋,什么情况该警惕。

Marblestone 形容它像一套预装的操作指南,精确规定了大脑的每个部分在每个阶段该关注什么。

第二节|大脑怎么做到的?靠的是双系统协作

为了解释这个大脑机制,Adam Marblestone 引用了前物理学家、现 AI 安全研究员Steve Byrnes 的一套理论。

这个理论把大脑分成两个系统:

  • 学习子系统:主要是皮层,负责学习世界模型,结构相对简单重复

  • 引导子系统:下丘脑、脑干、杏仁核等,负责提供先天的奖励信号

就像一对搭档:一个专注积累经验,另一个负责告诉它什么值得学

“引导子系统”不只是发信号那么简单,它有自己的感觉系统。

比如视觉,我们以为只有皮层在处理。但大脑深处还有一个更原始的视觉系统,叫上丘,天生就能检测面孔和威胁。当有小黑影快速靠近你的身体,上丘会直接触发退缩反射。这个反应比你意识到发生了什么还快。

这就是引导子系统在工作:小的、深色的、高对比度的、快速移动的=昆虫=危险。

但泛化是怎么发生的?

秘密在于:负责学习的部分会去预测那些天生反应。

还是刚才退缩的例子。当你退缩时,杏仁核会训练一个预测器:我快要退缩了吗?这个预测器接收的信息来自皮层。蜘蛛这个词、蜘蛛的图片、关于蜘蛛的书,甚至这段对话,都会输入给它。

所以你听到“你背上有蜘蛛”,即使没有真蜘蛛,也会触发预测器,进而激活类似的不适感。

泛化机制包括三个部分:

  • 引导子系统提供简单标签(危险/安全、喜欢/讨厌)

  • 学习子系统把标签连接到复杂的世界特征上

  • 预测器让这种连接可以泛化到新情境

人能从极少例子中学习,靠的就是这套泛化机制。

对此,Marblestone 还提供了一个生物学证据:引导子系统的细胞种类,比学习子系统多得多。

皮层的细胞类型相对统一,就像重复的 Transformer 层。但下丘脑、脑干这些引导子系统,有成千上万种不同的细胞,每一种对应一个特定的先天反应。检测盐味的,检测社交地位的,区分朋友和敌人的,都是不同的细胞在负责。

这么多种细胞,人类基因的信息量其实很少,不像大模型有海量训练数据,怎么能造出这么复杂的大脑?

答案是,人类进化不需要预先编码整个世界模型。

它只需要编码三样东西:一个可以学习的架构(皮层) 、一套丰富的奖励信号(引导子系统)、 一个连接机制(预测器)。

剩下的,交给学习。

因此,大脑的秘密不是结构有多复杂,而是知道该学什么。

第三节|企业 AI 的KPI,该怎么重新设计

那企业 AI 怎么办?

Adam Marblestone 指出了当前 AI 训练的现状:

“我们在大模型中根本没有价值函数。这种训练方式非常原始,比 10 年前的 AI用的方法还要简单。”

什么是价值函数?

简单说,就是让 AI 不只看眼前这一步对不对,而是评估这一步对长期目标有什么影响。

现在的训练方式是:整个对话轨迹解决了问题,就把这个轨迹里的每个词都加权。但 AI 不知道哪个词是关键转折,哪个词只是过渡,哪个决策会在 5 步后引发好结果。

它只知道这次成功了,不知道为什么成功。

而大脑有多层次的评估机制。有负责简单动作选择的部分,有负责建立奖励模型的部分,还有专门评估当前状态对长期目标价值的价值函数。

更关键的是,大脑不只是单向预测下一个词。

它可以全向推理。看到画面能预测声音,听到声音也能预测画面;知道目标,能反推路径;看到结果,能倒推原因。

Marblestone 说,大脑可以在任意方向上做预测。

大模型擅长从原因推结果,比如“他迟到了,所以___”,它能接“被批评了”。但如果反过来,告诉它“他被批评了’,让它推断前面可能发生了什么,就要弱很多。

因为大模型的训练方向是固定的:从左往右预测下一个词。

人却能灵活选择推理方向。看到结果能倒推原因,知道目标能反推路径。

所以 AI 缺的是两样东西:价值函数告诉它什么值得做,全向推理让它灵活达成目标。

那企业 AI 的 KPI 该怎么设计?

基于原文的思路,可能的方向包括:

1、引入价值函数

不只是这个任务做对了,不只评估这一步对不对,还要评估它对后续 5 步、10步的影响。在业务场景下,什么样的中间状态是有价值的?哪些信息值得记住,哪些可以忽略?

2、设计分层的奖励信号

借鉴大脑的双系统:基础层判断对错(客服回复是否解决问题),中间层关注业务目标(满意度、转化率、风险控制),高层对准战略目标(品牌形象、长期留存)。不同层次的奖励权重不同,在不同阶段启用。

3、训练全向推理能力

不只是从输入预测输出,还要能从目标倒推路径、从部分信息补全上下文、从约束条件生成方案。这可能需要在训练中移除固定的掩码,让模型学会从任意变量预测任意变量。

4、探索行为克隆

除了给 AI 标签(这个回复好或坏),更重要的是给它专家的思考路径:在哪个时刻关注什么信息,在哪些点放慢速度,决策边界在哪里。

说到底,训练 AI 理解什么值得做对,为什么值得做对,以及这个“对”在整个业务流程里处于什么位置。

企业 AI 提效,模型能力重要,但你给它设定什么样的评分体系,可能更重要。

你奖励什么,它就会往什么方向优化。

就像企业管理:KPI 设错了,团队再努力也会在把事做偏。

  • 奖励准确率,它可能变得保守;

  • 奖励效率,它可能牺牲质量;

  • 奖励用户满意度,它可能过度迎合。

真正的挑战是设计一套像大脑那样丰富、分层、动态调整的奖励体系。这不是换个模型就能解决的。

在你的业务场景里,什么才是真正值得 AI 去学、去记、去优化的,得想清楚。

模型会变强,但方向得你给。

结语|KPI 设对了,AI 才能学得快

AI 现在的问题很清楚:数据喂得越来越多,能力涨得越来越慢。

原因也很清楚:它不知道什么值得学。

人脑的数据效率来自自然进化预装的复杂奖励体系。不同脑区、不同阶段、不同情境,有不同的学习目标。

AI 只有一个简单目标:预测下一个词。

这就是差距。

Marblestone 的观点是:调模型、堆参数,不如重新设计评分标准。

企业 AI 提效也一样。

与其追求更大的模型,不如先想清楚:你在奖励 AI 什么?这套评分体系,能引导它做对的事吗?

答案可能不在算力,在 KPI设得对不对。

识自AI

本文由AI深度研究院出品,内容翻译整理自Adam Marblestone在Dwarkesh Patel播客的访谈等网上公开素材,属翻译分析性质。内容为观点提炼与合理引述,未逐字复制原访谈材料。未经授权,不得转载。

星标公众号, 点这里 1. 点击右上角 2. 点击"设为星标" ← AI深度研究员 ⋮ ← 设为星标

https://www.youtube.com/watch?v=_9V_Hbe-N1A

https://www.dwarkesh.com/p/adam-marblestone

https://www.dwarkesh.com/feed?utm_source=chatgpt.com

https://coefficientgiving.org/files/Research/Moral_Patienthood/Marblestone_et_al_%282016%29.pdf?utm_source=chatgpt.com

来源:官方媒体/网络新闻,

排版:Atlas

编辑:深思

主编:图灵

特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相关推荐
热点推荐
中美贸易战掀桌子了,1月7日,凌晨的四大消息正式发酵!

中美贸易战掀桌子了,1月7日,凌晨的四大消息正式发酵!

说故事的阿袭
2026-01-07 05:57:07
秦始皇陵又有新发现!不是兵马俑,而是这675块藏着秘密的木头

秦始皇陵又有新发现!不是兵马俑,而是这675块藏着秘密的木头

鹤羽说个事
2026-01-07 11:28:31
20岁福建网红被骗柬埔寨,8万榨干涉毒濒死,暴富梦碎街头流浪

20岁福建网红被骗柬埔寨,8万榨干涉毒濒死,暴富梦碎街头流浪

星辰夜语
2026-01-07 20:43:22
YU7新车未出店,后备箱就打不开,车主要退车!小米回应

YU7新车未出店,后备箱就打不开,车主要退车!小米回应

都市快报橙柿互动
2026-01-06 18:17:35
演员朱珠疑似塌房?照片流出,惊呆网友!

演员朱珠疑似塌房?照片流出,惊呆网友!

大眼妹妹
2025-12-15 10:39:19
纽约股市三大股指7日涨跌不一

纽约股市三大股指7日涨跌不一

新华社
2026-01-08 06:03:38
上错车引冲突,车主被殴打后开车撞碾致一死一伤 二审维持原判:车主死缓

上错车引冲突,车主被殴打后开车撞碾致一死一伤 二审维持原判:车主死缓

红星新闻
2026-01-06 18:42:43
曼城、维拉齐丢分,阿森纳本轮有望扩大榜首领先优势到8分

曼城、维拉齐丢分,阿森纳本轮有望扩大榜首领先优势到8分

懂球帝
2026-01-08 05:59:39
全国唯一,中国卫星,迎战商业航天!

全国唯一,中国卫星,迎战商业航天!

投研邦V
2026-01-07 19:37:49
里程碑,哈兰德打入曼城生涯第150球,仅用了173场

里程碑,哈兰德打入曼城生涯第150球,仅用了173场

懂球帝
2026-01-08 04:32:12
乌克兰间谍头目被解雇,曾被授予国家英雄,泽连斯基希望有新声音

乌克兰间谍头目被解雇,曾被授予国家英雄,泽连斯基希望有新声音

译言
2026-01-08 06:07:48
怎么看詹姆斯41岁?东契奇:我41岁的时候可能都一瘸一拐的了

怎么看詹姆斯41岁?东契奇:我41岁的时候可能都一瘸一拐的了

懂球帝
2026-01-07 15:00:08
兑奖最后一天!安徽542万元大奖得主仍未现身,体彩中心称将值守至凌晨零点

兑奖最后一天!安徽542万元大奖得主仍未现身,体彩中心称将值守至凌晨零点

红星新闻
2026-01-07 18:21:34
美媒:参与对委军事行动的十余架F-22“猛禽”战斗机离开波多黎各

美媒:参与对委军事行动的十余架F-22“猛禽”战斗机离开波多黎各

起喜电影
2026-01-08 04:43:19
勒布朗30+8+8湖人逆转鹈鹕3连胜,东契奇30+10墨菲42+5

勒布朗30+8+8湖人逆转鹈鹕3连胜,东契奇30+10墨菲42+5

湖人崛起
2026-01-07 11:26:01
雷霆为何突然“哑火”,3大优势全失效,卫冕之路依然任重道远

雷霆为何突然“哑火”,3大优势全失效,卫冕之路依然任重道远

篮球小布丁
2026-01-08 03:48:01
王子文本人确实不高1米55不能再多了,小小一只没有剧里年轻漂亮

王子文本人确实不高1米55不能再多了,小小一只没有剧里年轻漂亮

达西伍红
2026-01-06 21:43:33
美股黄金、白银股盘前普跌

美股黄金、白银股盘前普跌

财联社
2026-01-07 19:55:05
60岁以后打断筋都不要做的14件事,做三件就糊涂到家了,马上收藏

60岁以后打断筋都不要做的14件事,做三件就糊涂到家了,马上收藏

情感大使馆
2025-12-01 10:40:53
砸75亿成一座空城?湖南北部最大的烂尾“古城”,荒草旺盛!

砸75亿成一座空城?湖南北部最大的烂尾“古城”,荒草旺盛!

GA环球建筑
2026-01-07 17:52:42
2026-01-08 06:55:00
AI深度研究员 incentive-icons
AI深度研究员
AI时代刚刚到来,一切才刚开始,我们正当其时!
353文章数 158关注度
往期回顾 全部

科技要闻

精华!黄仁勋CES记者会:揭秘新款大杀器

头条要闻

美军扣押俄潜艇护航的油轮 俄罗斯外交部回应

头条要闻

美军扣押俄潜艇护航的油轮 俄罗斯外交部回应

体育要闻

卖水果、搬砖的小伙,与哈兰德争英超金靴

娱乐要闻

《马背摇篮》首播,革命的乐观主义故事

财经要闻

农大教授科普:无需过度担忧蔬菜农残

汽车要闻

燃油驾趣+智能电感双Buff 试驾全新奥迪Q5L

态度原创

健康
家居
游戏
旅游
公开课

这些新疗法,让化疗不再那么痛苦

家居要闻

宁静不单调 恰到好处的美

《GTA6》地图规模再引热议:这次真要"大到离谱"了?

旅游要闻

俄媒:中国游客涌入让俄小村恢复活力

公开课

李玫瑾:为什么性格比能力更重要?

无障碍浏览 进入关怀版