网易首页 > 网易号 > 正文 申请入驻

AI 被人类知识困住了:DeepMind 称“流”智能体将打破束缚

0
分享至

一种名为“流”(streams)的新型智能体方法将使 AI 模型能够从环境体验中学习,无需人类的“预先判断”。

AI 界最近一直执迷于让生成式 AI 不仅限于 AI 模型轻松就能通过的简单测试。著名的图灵测试在某种程度上已通过,而关于最新模型是不是为了在衡量性能的基准测试中作弊而开发的争议愈演愈烈。

谷歌 DeepMind 部门的学者表示,问题不在于测试本身,而在于开发 AI 模型的方式有局限性。

用于训练AI的数据过于受限且静态,永远无法推动AI发展出更强大的能力。

研究人员在 DeepMind 上周发表的一篇论文(麻省理工学院出版社即将出版的新书的一部分)中提出,必须允许 AI 拥有某种“体验”,与世界进行交互,根据来自环境的信号制定目标。

DeepMind的两位 学者 David Silver 和 Richard Sutton 在题为《欢迎来到体验时代》的论文、 中写道: “ 一旦充分发挥体验式学习的潜力,难以置信的新能力 就会应运而生 。 ”

Richard Sutton(左)、 David Silver(右)

这两位学者是这个领域的传奇人物。

Silver 领导团队研发了 AlphaZero。

DeepMind 的这款 AI 模型在国际象棋和围棋比赛中击败了人类。

Sutton 则是两位捧得图灵奖的开发者之一,开发了强化学习的 AI 方法,Silver 及其团队正是用这种方法开发出了 AlphaZero。

这两位学者倡导的方法立足于强化学习和 AlphaZero 积累的经验。这种方法名为“流”( streams),旨在弥补当今大语言模型(LLM)的缺陷,而如今开发的LLM仅仅为了回答人类提出的问题。

Silver 和 Sutton 认为,在 AlphaZero 及前身 AlphaGo 横空出世后不久,ChatGPT 等生成式 AI 工具登台亮相,“抛弃”了强化学习。此举有利也有弊。

生成式AI 是重要的进步,因为 AlphaZero 使用强化学习仅限于有限的应用领域。这项技术无法适用于所有规则已知的需要“完整信息”的棋类(比如国际象棋)之外的领域。

另一方面,生成式 AI 模型可以处理来自人类的从未遇到过的自发输入,不需要事情应该如何发展方面的明确规则。

然而他们写道,摈弃强化学习意味着“从此失去了智能体独自发现自身知识的能力”。

他们认为,相反,LLM 依赖人类的预先判断,或者说人类在提示阶段想要的结果。这种方法过于局限。他们认为,人类的判断给智能体的性能或表现“设定了难以逾越的上限”:智能体无法发现人类评估者低估的更好策略。

人类判断不仅构成了障碍,提示式交互具有的简短、缩略的特性还使AI模型无法摆脱问答模式。

研究人员写道,在人类数据时代,基于语言的AI主要关注短促的交互场景:比如用户提出问题,然后(可能经过几个思考步骤或使用工具的操作后)智能体做出回应。智能体的目标仅限于针对当前场景给出结果,比如直接回答用户的问题。

提示式交互没有记忆,各个交互片段之间也没有连续性。

Silver 和 Sutton 写道,通常几乎没有信息从一个场景延续到下一个场景,阻碍了逐渐适应。然而在体验时代,智能体将存在于体验流中,而不是短暂的交互片段中。

Silver 和 Sutton 将体验流与人类通过一生积累经验进行学习进行了类比,基于长远目标而非眼前的任务执行行动。他们写道,强大的智能体应该有自己的体验流,像人类一样在长时间跨度上逐渐进化。

当今的技术足以开始构建体验流。

事实上,我们可以从业界动态看到这方面的头几步,比如浏览网页的 AI 智能体,包括 OpenAI 的 Deep Research。

最近,新一波原型智能体开始以更通用的方式与计算机交互,使用与人类使用的同一种界面操作计算机。浏览器智能体标志着从完全由人类特许的沟通,变成自主程度大大提高的交互(智能体能够在这个世界独立行动)。

Silver 和 Sutton 认为,随着 AI 智能体超越单纯的网页浏览,它们需要一种与世界交互并从中学习的方式。

他们提出,流概念的 AI 智能体将采用与 AlphaZero 相同的强化学习原理进行学习。

机器被赋予呈现与其交互的世界的模型(类似棋盘)和一套规则。

当 AI 智能体探索并采取行动时,它会收到奖励形式的反馈。这种奖励训练 AI 模型,让其了解在特定情况下,哪些行动更有价值、哪些没有价值。

Silver 和 Sutton 认为,如果允许智能体寻找提供这种奖励的各种“信号”,这个世界充满了这样的信号。如果不是来自人类数据,奖励又来自哪里?一旦智能体通过丰富的行动和观察空间与世界建立联系,就根本不缺提供奖励基础的可靠信号。事实上,这个世界满眼是定量信号,比如成本、错误率、饥饿、生产力、健康指标、气候指标、利润、销售额、考试成绩、成功、访问量、收益、股票、点赞、收入、愉悦/痛苦、经济指标、准确率、距离、速度、效率或能耗。此外,无数的额外信号来自特定事件的发生,或来自从观察和行动的原始序列中提取的特征。

为了从底层开始构建 AI 智能体,AI 开发者可能会使用“世界模型”模拟。

世界模型让 AI 模型可以进行预测,在现实世界中测试这些预测,然后利用奖励信号让模型更贴近现实。随着智能体在体验流中不断与世界交互,其动态模型不断更新,以纠正预测方面的任何错误。

Silver 和 Sutton 仍预计人类在设定目标方面发挥作用,信号和奖励则用来引导智能体。

比如说,用户可能指定一个宽泛的目标,比如“提升我的健康水平”,奖励函数可能返回表明用户心率、睡眠时长和步数的结果。或者,用户可能指定“帮助我学习西班牙语”的目标,奖励函数可能返回用户的西班牙语考试成绩。

人类反馈成为“最高级目标”,其他一切都服务于此目标。

研究人员写道,拥有这种能力的AI智能体将更适合成为 AI 助手。它们可以追踪某人数月或数年的睡眠和饮食情况,提供不仅限于近期趋势的健康建议。这类智能体还可以充当教学助手,长期跟踪学生的学习进度。

科学智能体可以实现宏大的目标,比如发现新材料或减少二氧化碳排放。这样的智能体可以长期分析现实世界的观察结果,开发和运行模拟,并提出现实世界的试验或干预建议。

研究人员认为,体验智能体可能会超越像 Gemini、DeepSeek 的 R1 和 OpenAI 的 o1 这样的“思考”或“推理”AI 模型。

推理智能体的问题在于,当它们生成关于答案步骤的冗长输出时,实际上“模仿”人类语言,而人类思维可能受到其固有假设的限制。

研究人员写道,体验智能体将释放前所未有的能力,从而带来与我们以往所见截然不同的未来。然而他们指出,也存在着诸多风险。这些风险不仅仅集中在AI智能体取代人类劳动力,不过他们特别指出失业是风险之一。智能体能够长期自主地与世界交互以实现长期目标,这减少了需要人类干预和调解智能体行动的机会。

他们认为,积极的一面是,相比当今固定僵化的 AI 模型,能逐渐适应的智能体能够识别其行为何时引发人类的担忧、不满或痛苦,并自动调整行为以避免这些负面后果。

抛开细节不谈,Silver 和 Sutton 相信,流体验会生成更多关于世界的信息,信息量将远远超过用于训练当今AI的所有维基百科和 Reddit 数据。基于流的智能体甚至可能会超越人类智能,预示着通用AI或超级智能到来。

研究人员写道,经验数据将在规模和质量上远超人类生成的数据。这种范式转变,辅以强化学习在算法方面的进步,将在许多领域发掘人类望尘莫及的新能力。

特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相关推荐
热点推荐
CBA动态更新!带来辽宁男篮赵继伟、乌戈、莫兰德以及哈维的最新消息

CBA动态更新!带来辽宁男篮赵继伟、乌戈、莫兰德以及哈维的最新消息

凯丰侃球
2026-04-22 00:12:20
郑州明确!4月30日截止!错过再等一年

郑州明确!4月30日截止!错过再等一年

大象新闻
2026-04-21 11:43:03
被苹果、华为干倒的诺基亚,又杀回来了!

被苹果、华为干倒的诺基亚,又杀回来了!

大佬灼见
2026-04-19 10:28:53
霍汶希力挺张敬轩!网友喊话敢来就举报,英皇旗下艺人全部遭殃

霍汶希力挺张敬轩!网友喊话敢来就举报,英皇旗下艺人全部遭殃

萌神木木
2026-04-21 10:48:27
彻底失控!张敬轩一露头就被举报,网友强烈抵制!英皇被拉下水

彻底失控!张敬轩一露头就被举报,网友强烈抵制!英皇被拉下水

小娱乐悠悠
2026-04-20 08:58:04
太缺德!门口突然添两座坟,开门就能见到,孩子晚上吓得不敢出门

太缺德!门口突然添两座坟,开门就能见到,孩子晚上吓得不敢出门

川渝视觉
2026-04-19 21:31:23
代总统领头 委内瑞拉发起全国反美制裁游行

代总统领头 委内瑞拉发起全国反美制裁游行

看看新闻Knews
2026-04-20 20:48:04
马杜罗被捕100天后,委内瑞拉代总统终于翻脸,掀起内部大清洗

马杜罗被捕100天后,委内瑞拉代总统终于翻脸,掀起内部大清洗

健身狂人
2026-04-21 16:10:16
小米首款风冷旗舰 416万最强天玑!REDMI K90 Max发布:补贴价2549元起

小米首款风冷旗舰 416万最强天玑!REDMI K90 Max发布:补贴价2549元起

快科技
2026-04-21 23:16:18
央视怒揭!378家连锁全是假的,外卖黑产全被端,7大平台罚35.9亿

央视怒揭!378家连锁全是假的,外卖黑产全被端,7大平台罚35.9亿

离离言几许
2026-04-21 19:54:57
男孩cos弗利萨,妈妈用乳胶漆化妆,洗不掉成“永久皮肤”

男孩cos弗利萨,妈妈用乳胶漆化妆,洗不掉成“永久皮肤”

国创漫话
2026-04-19 15:57:41
《伟大的长征》预告翻车!于和伟演教员脸凹说话含糊,差评一片

《伟大的长征》预告翻车!于和伟演教员脸凹说话含糊,差评一片

一娱三分地
2026-04-21 16:10:11
“昨天三月三,今天就抗洪”,龙脊梯田洪水猛涨后下退,景区:梯田片区正常开放

“昨天三月三,今天就抗洪”,龙脊梯田洪水猛涨后下退,景区:梯田片区正常开放

极目新闻
2026-04-21 16:45:18
赵雨蝶虐死3岁继子后续:她说孩子生父是好男人,所有罪她一人担

赵雨蝶虐死3岁继子后续:她说孩子生父是好男人,所有罪她一人担

江山挥笔
2026-04-21 19:51:42
杜兰特遭遇右髌腱深度挫伤!参加一半训练内容 对湖人G2出战成疑

杜兰特遭遇右髌腱深度挫伤!参加一半训练内容 对湖人G2出战成疑

罗说NBA
2026-04-21 07:53:32
房价从2.4万到1.3万,这个超大城市经历了什么?

房价从2.4万到1.3万,这个超大城市经历了什么?

城市财经
2026-04-21 11:38:38
张馨予眼光不错!何捷出席学校活动,颜值爆表!当过兵就是不一样

张馨予眼光不错!何捷出席学校活动,颜值爆表!当过兵就是不一样

娱乐团长
2026-04-20 19:08:47
美方扣押一艘中国驶来伊朗货船,外交部:对美方强制截停有关船只表示关切

美方扣押一艘中国驶来伊朗货船,外交部:对美方强制截停有关船只表示关切

澎湃新闻
2026-04-20 15:42:26
俄罗斯梁赞州向各单位下达征兵命令,翻译成中文很亲切

俄罗斯梁赞州向各单位下达征兵命令,翻译成中文很亲切

李未熟擒话2
2026-04-20 10:47:19
亲俄前总统在保加利亚大选中获压倒性胜利,其一贯反对军援乌克兰

亲俄前总统在保加利亚大选中获压倒性胜利,其一贯反对军援乌克兰

小久解说
2026-04-20 15:46:06
2026-04-22 01:27:00
云头条 incentive-icons
云头条
引领科技变革,连接技术与商业。
19890文章数 27301关注度
往期回顾 全部

科技要闻

创造4万亿帝国、访华20次,库克留下了什么

头条要闻

三国取消飞航许可 赖清德无法窜访斯威士兰

头条要闻

三国取消飞航许可 赖清德无法窜访斯威士兰

体育要闻

一到NBA季后赛,四届DPOY就成了主角

娱乐要闻

宋承炫晒宝宝B超照,宣布老婆怀孕

财经要闻

现实是最大的荒诞:千亿平台的冲突始末

汽车要闻

全新坦克700正式上市 售价42.8万-50.8万元

态度原创

游戏
时尚
旅游
本地
手机

涨价两周即回调!索尼官方PS5数字版定价重回399美元

顶流复工,已判若两人

旅游要闻

京城今春“滨水+”玩法迭代

本地新闻

春色满城关不住|白鹃梅浪漫盛放,吴山藏了一片四月雪

手机要闻

iPhone 18标准版屏幕规格,可能开倒车?

无障碍浏览 进入关怀版