网易首页 > 网易号 > 正文 申请入驻

AI 被人类知识困住了:DeepMind 称“流”智能体将打破束缚

0
分享至

一种名为“流”(streams)的新型智能体方法将使 AI 模型能够从环境体验中学习,无需人类的“预先判断”。

AI 界最近一直执迷于让生成式 AI 不仅限于 AI 模型轻松就能通过的简单测试。著名的图灵测试在某种程度上已通过,而关于最新模型是不是为了在衡量性能的基准测试中作弊而开发的争议愈演愈烈。

谷歌 DeepMind 部门的学者表示,问题不在于测试本身,而在于开发 AI 模型的方式有局限性。

用于训练AI的数据过于受限且静态,永远无法推动AI发展出更强大的能力。

研究人员在 DeepMind 上周发表的一篇论文(麻省理工学院出版社即将出版的新书的一部分)中提出,必须允许 AI 拥有某种“体验”,与世界进行交互,根据来自环境的信号制定目标。

DeepMind的两位 学者 David Silver 和 Richard Sutton 在题为《欢迎来到体验时代》的论文、 中写道: “ 一旦充分发挥体验式学习的潜力,难以置信的新能力 就会应运而生 。 ”

Richard Sutton(左)、 David Silver(右)

这两位学者是这个领域的传奇人物。

Silver 领导团队研发了 AlphaZero。

DeepMind 的这款 AI 模型在国际象棋和围棋比赛中击败了人类。

Sutton 则是两位捧得图灵奖的开发者之一,开发了强化学习的 AI 方法,Silver 及其团队正是用这种方法开发出了 AlphaZero。

这两位学者倡导的方法立足于强化学习和 AlphaZero 积累的经验。这种方法名为“流”( streams),旨在弥补当今大语言模型(LLM)的缺陷,而如今开发的LLM仅仅为了回答人类提出的问题。

Silver 和 Sutton 认为,在 AlphaZero 及前身 AlphaGo 横空出世后不久,ChatGPT 等生成式 AI 工具登台亮相,“抛弃”了强化学习。此举有利也有弊。

生成式AI 是重要的进步,因为 AlphaZero 使用强化学习仅限于有限的应用领域。这项技术无法适用于所有规则已知的需要“完整信息”的棋类(比如国际象棋)之外的领域。

另一方面,生成式 AI 模型可以处理来自人类的从未遇到过的自发输入,不需要事情应该如何发展方面的明确规则。

然而他们写道,摈弃强化学习意味着“从此失去了智能体独自发现自身知识的能力”。

他们认为,相反,LLM 依赖人类的预先判断,或者说人类在提示阶段想要的结果。这种方法过于局限。他们认为,人类的判断给智能体的性能或表现“设定了难以逾越的上限”:智能体无法发现人类评估者低估的更好策略。

人类判断不仅构成了障碍,提示式交互具有的简短、缩略的特性还使AI模型无法摆脱问答模式。

研究人员写道,在人类数据时代,基于语言的AI主要关注短促的交互场景:比如用户提出问题,然后(可能经过几个思考步骤或使用工具的操作后)智能体做出回应。智能体的目标仅限于针对当前场景给出结果,比如直接回答用户的问题。

提示式交互没有记忆,各个交互片段之间也没有连续性。

Silver 和 Sutton 写道,通常几乎没有信息从一个场景延续到下一个场景,阻碍了逐渐适应。然而在体验时代,智能体将存在于体验流中,而不是短暂的交互片段中。

Silver 和 Sutton 将体验流与人类通过一生积累经验进行学习进行了类比,基于长远目标而非眼前的任务执行行动。他们写道,强大的智能体应该有自己的体验流,像人类一样在长时间跨度上逐渐进化。

当今的技术足以开始构建体验流。

事实上,我们可以从业界动态看到这方面的头几步,比如浏览网页的 AI 智能体,包括 OpenAI 的 Deep Research。

最近,新一波原型智能体开始以更通用的方式与计算机交互,使用与人类使用的同一种界面操作计算机。浏览器智能体标志着从完全由人类特许的沟通,变成自主程度大大提高的交互(智能体能够在这个世界独立行动)。

Silver 和 Sutton 认为,随着 AI 智能体超越单纯的网页浏览,它们需要一种与世界交互并从中学习的方式。

他们提出,流概念的 AI 智能体将采用与 AlphaZero 相同的强化学习原理进行学习。

机器被赋予呈现与其交互的世界的模型(类似棋盘)和一套规则。

当 AI 智能体探索并采取行动时,它会收到奖励形式的反馈。这种奖励训练 AI 模型,让其了解在特定情况下,哪些行动更有价值、哪些没有价值。

Silver 和 Sutton 认为,如果允许智能体寻找提供这种奖励的各种“信号”,这个世界充满了这样的信号。如果不是来自人类数据,奖励又来自哪里?一旦智能体通过丰富的行动和观察空间与世界建立联系,就根本不缺提供奖励基础的可靠信号。事实上,这个世界满眼是定量信号,比如成本、错误率、饥饿、生产力、健康指标、气候指标、利润、销售额、考试成绩、成功、访问量、收益、股票、点赞、收入、愉悦/痛苦、经济指标、准确率、距离、速度、效率或能耗。此外,无数的额外信号来自特定事件的发生,或来自从观察和行动的原始序列中提取的特征。

为了从底层开始构建 AI 智能体,AI 开发者可能会使用“世界模型”模拟。

世界模型让 AI 模型可以进行预测,在现实世界中测试这些预测,然后利用奖励信号让模型更贴近现实。随着智能体在体验流中不断与世界交互,其动态模型不断更新,以纠正预测方面的任何错误。

Silver 和 Sutton 仍预计人类在设定目标方面发挥作用,信号和奖励则用来引导智能体。

比如说,用户可能指定一个宽泛的目标,比如“提升我的健康水平”,奖励函数可能返回表明用户心率、睡眠时长和步数的结果。或者,用户可能指定“帮助我学习西班牙语”的目标,奖励函数可能返回用户的西班牙语考试成绩。

人类反馈成为“最高级目标”,其他一切都服务于此目标。

研究人员写道,拥有这种能力的AI智能体将更适合成为 AI 助手。它们可以追踪某人数月或数年的睡眠和饮食情况,提供不仅限于近期趋势的健康建议。这类智能体还可以充当教学助手,长期跟踪学生的学习进度。

科学智能体可以实现宏大的目标,比如发现新材料或减少二氧化碳排放。这样的智能体可以长期分析现实世界的观察结果,开发和运行模拟,并提出现实世界的试验或干预建议。

研究人员认为,体验智能体可能会超越像 Gemini、DeepSeek 的 R1 和 OpenAI 的 o1 这样的“思考”或“推理”AI 模型。

推理智能体的问题在于,当它们生成关于答案步骤的冗长输出时,实际上“模仿”人类语言,而人类思维可能受到其固有假设的限制。

研究人员写道,体验智能体将释放前所未有的能力,从而带来与我们以往所见截然不同的未来。然而他们指出,也存在着诸多风险。这些风险不仅仅集中在AI智能体取代人类劳动力,不过他们特别指出失业是风险之一。智能体能够长期自主地与世界交互以实现长期目标,这减少了需要人类干预和调解智能体行动的机会。

他们认为,积极的一面是,相比当今固定僵化的 AI 模型,能逐渐适应的智能体能够识别其行为何时引发人类的担忧、不满或痛苦,并自动调整行为以避免这些负面后果。

抛开细节不谈,Silver 和 Sutton 相信,流体验会生成更多关于世界的信息,信息量将远远超过用于训练当今AI的所有维基百科和 Reddit 数据。基于流的智能体甚至可能会超越人类智能,预示着通用AI或超级智能到来。

研究人员写道,经验数据将在规模和质量上远超人类生成的数据。这种范式转变,辅以强化学习在算法方面的进步,将在许多领域发掘人类望尘莫及的新能力。

特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相关推荐
热点推荐
2比2战平乌拉圭!佛得角再造冷门,手握出线主动权

2比2战平乌拉圭!佛得角再造冷门,手握出线主动权

澎湃新闻
2026-06-22 08:06:28
“没义务给C罗传球” 孔塞桑社媒被冲:你算哪根葱 学学阿根廷球员

“没义务给C罗传球” 孔塞桑社媒被冲:你算哪根葱 学学阿根廷球员

风过乡
2026-06-22 13:19:35
嫁李铁不后悔!张泉灵卸下伪装,自曝在央视受排挤,她没法说谎

嫁李铁不后悔!张泉灵卸下伪装,自曝在央视受排挤,她没法说谎

麦芽是个小趴菜
2026-06-21 10:37:56
泽连斯基:没有乌克兰,谁也保护不了波兰

泽连斯基:没有乌克兰,谁也保护不了波兰

参考消息
2026-06-22 13:47:49
降价也卖不动的合资燃油车开始主动撤出门店

降价也卖不动的合资燃油车开始主动撤出门店

界面新闻
2026-06-22 19:38:24
世界杯G组乱了!埃及3-1逆转升头名,比利时第三,下轮不胜或出局

世界杯G组乱了!埃及3-1逆转升头名,比利时第三,下轮不胜或出局

体育知多少
2026-06-22 11:02:48
不知悔改!被中方制裁的菲防长,又大放厥词

不知悔改!被中方制裁的菲防长,又大放厥词

观察者网
2026-06-22 17:17:36
中共中央批准,开除尹建业党籍

中共中央批准,开除尹建业党籍

新京报
2026-06-22 11:38:16
腾讯真搬走了,科兴房东天塌了?1.4万人已上企鹅岛

腾讯真搬走了,科兴房东天塌了?1.4万人已上企鹅岛

说故事的阿袭
2026-06-22 19:00:44
"毒纸尿裤"调查记者发布公开信:我只为那些体内检出甲酰胺的孩子!

"毒纸尿裤"调查记者发布公开信:我只为那些体内检出甲酰胺的孩子!

记录者王文志
2026-06-22 13:41:49
东南亚人口拐卖最新套路:20万一个人,落地就被卖进园区!

东南亚人口拐卖最新套路:20万一个人,落地就被卖进园区!

命运自认幽默
2026-06-22 01:28:36
四川广安斑马线行人被撞疑因车窗起雾,有不少车主坦言“不会除雾”,这些实用操作需掌握

四川广安斑马线行人被撞疑因车窗起雾,有不少车主坦言“不会除雾”,这些实用操作需掌握

大风新闻
2026-06-22 16:32:53
威金斯交易评级双赢!雷霆节省6100万美元评A 老鹰获优质侧翼评A+

威金斯交易评级双赢!雷霆节省6100万美元评A 老鹰获优质侧翼评A+

罗说NBA
2026-06-22 13:42:11
主动投案!江苏这位54岁笔杆子干部,走了30年路,还是没守住底线

主动投案!江苏这位54岁笔杆子干部,走了30年路,还是没守住底线

阿天爱旅行
2026-06-22 19:48:39
大衣哥再登热搜!演出结束与友人聚餐,面前放满光瓶白酒,引热议

大衣哥再登热搜!演出结束与友人聚餐,面前放满光瓶白酒,引热议

火山詩话
2026-06-22 08:06:53
大反转!耿同学转发导师杨昀声明:我高考裸分676分,不是湖南人

大反转!耿同学转发导师杨昀声明:我高考裸分676分,不是湖南人

火山詩话
2026-06-22 07:54:11
美联储前主席格林斯潘辞世,享年100岁

美联储前主席格林斯潘辞世,享年100岁

界面新闻
2026-06-22 19:16:12
券商爆发原因找到了

券商爆发原因找到了

贩财局
2026-06-22 14:10:35
太惨了!33个交易日大跌52%,今天直接20CM跌停,数万散户深度踩雷!

太惨了!33个交易日大跌52%,今天直接20CM跌停,数万散户深度踩雷!

股侠指北针
2026-06-22 11:01:29
500亿交了昂贵学费!京东的外卖败局,给所有企业敲了警钟?

500亿交了昂贵学费!京东的外卖败局,给所有企业敲了警钟?

呼呼历史论
2026-06-21 13:34:59
2026-06-22 21:28:49
云头条 incentive-icons
云头条
引领科技变革,连接技术与商业。
20440文章数 27330关注度
往期回顾 全部

科技要闻

智谱盘中狂飙超40%,市值破万亿港元

头条要闻

月薪5千男子3个月打赏女主播14万一面没见过 父母崩溃

头条要闻

月薪5千男子3个月打赏女主播14万一面没见过 父母崩溃

体育要闻

法国球星祝中国队下届世界杯取得好成绩

娱乐要闻

陪睡陪玩是皮毛,向佐揭内娱暗规则

财经要闻

前美联储主席格林斯潘去世 享年100岁

汽车要闻

华为智驾ADS限时优惠月底结束 7月1日前下订立省3000元

态度原创

数码
时尚
房产
亲子
艺术

数码要闻

Steam Machine尚未发布先迎升级 Valve提前植入FSR 4杀手锏

不得不说,“T恤+九分裤”真的很适合夏天,清爽减龄又高级!

房产要闻

一年时间,36个盘“消失”!海口楼市,罕见“大收缩”!

亲子要闻

用真心换真心,把两家过成一家。

艺术要闻

画中女人究竟在等谁?他笔下的柔情,让整个美国都沦陷了!

无障碍浏览 进入关怀版