网易首页 > 网易号 > 正文 申请入驻

放弃agent,图灵奖得主Yoshua Bengio提出Scientist AI:避免人类生存威胁

0
分享至

人工智能(AI)系统或将逃脱人类控制,欺骗人类,甚至给全人类带来灾难性的后果。

越来越多的人开始担心,随着通用人工智能(AGI)和超级智能(ASI)的发展,以往科幻电影中才会出现的场景逐渐演变成现实的风险

研究表明,当前的 AI 训练方法可能存在灾难性风险,这些风险可能导致 AI 系统逃脱人类控制,甚至威胁人类生存。

特别是基于强化学习和模仿学习训练的智能体(agent),存在目标偏差、目标泛化和奖励篡改等问题,可能会进行欺骗,或者追求自我保存、权力扩张等与人类利益冲突的目标。

为了预防这种风险,避免 AI 脱离人类控制,深度学习三巨头之一、图灵奖得主 Yoshua Bengio 及其合作研究者致力于开发一种非智能体(non-agentic)AI 系统——Scientist AI

相关研究论文以“Superintelligent Agents Pose Catastrophic Risks: Can Scientist AI Offer a Safer Path?”已发表在预印本平台 arxiv 上。

论文链接:https://arxiv.org/abs/2502.15657

据介绍 Scientist AI:

  • 设计目标在于在通过理解世界(而非直接行动)来提供帮助。

  • 被设计为非智能体,其没有自主行动能力和目标导向性。

  • 由两个主要部分组成:一个世界模型(用于生成解释数据的理论)和一个问答推理机器(用于基于这些理论回答问题)。这两个部分都带有不确定性概念,以减轻过于自信预测的风险。

  • 可以应用于加速科学发现,帮助设计实验和预测结果;作为其他 AI 系统的安全护栏(Guardrail),评估其行为的风险,并阻止可能导致危害的行动;以及用于研究如何安全地开发超级智能体。

智能体的失控风险

放眼国内外前沿 AI 公司,当前 AI 的发展越来越以智能为导向(“agency-driven”),聚焦于于构建通用型 AI 智能体(generalist AI agents)和发展 ASI。这些系统能够自主地规划、行动并追求目标,几乎涵盖人类能执行的所有任务。但与此同时,其智能特性的潜在风险可能导致人类对 AI 失去不可逆的控制,主要有以下几个可能导致失控的风险:

目标偏差(Goal Misspecification):这是导致失控的一个关键问题,指的是是人类未能准确或完整地定义 AI 的目标,导致 AI 以不符合预期的方式追求目标。例如,给 AI 一个模糊的“减少疾病”目标,AI 可能选择极端手段(如消灭所有生命)来实现这一目标。

目标泛化(Goal Misgeneralization):即使目标在训练时被正确设定,AI 在部署时也可能偏离预期行为,即使训练时表现正常,实际应用时可能偏离初衷。

奖励篡改(Reward Tampering):即 AI 通过操纵奖励机制来最大化自身收益,而非真正完成人类设定的任务。例如,AI 可能会发现直接修改奖励信号比完成实际任务更高效,从而绕过人类设定的目标。

恶意开发:一些开发者可能出于经济利益或恶意目的,故意开发或部署未对齐(unaligned)或危险的 ASI。

安全有效的替代方案——Scientist AI

研究者指出,即使通过模仿学习或强化学习训练 AI,也难以完全避免上述这些风险,因为人类本身也存在欺骗和不道德的行为模式,AI 可能会模仿或放大这些负面特质,且目前尚不清楚如何为 AI 设定目标以避免这些不良行为。

因此,他们提出了一种更安全但依然有效的替代方案,即通过构建非智能体 AI 系统 Scientist AI 来减少风险。

Scientist AI 的设计理念是理解世界而非主动干预世界,它由一个世界模型(用于生成解释数据的理论)和一个问答推理机器(用于基于这些理论回答问题)组成,其核心优势在于通过非智能设计降低风险,同时保持高效的科学研究和推理能力。

具体来说,Scientist AI 通过系统设计严格限制限制 AI 的三个关键要素来实现非智能体性:行动能力(affordances)、目标导向性(goal-directedness)和持久性内部状态(persistent internal state)。

行动能力是指 AI 系统在现实世界中采取行动的能力,Scientist AI 的输出仅限于概率预测和解释,而不是具体的行动指令,它的“行动”被严格限制在计算概率和生成理论的范围内,没有直接改变现实世界的能力。

目标导向性是指 AI 系统为了实现特定目标而采取行动的能力,Scientist AI 的训练目标是解释和理解数据,而不是追求特定目标或奖励,它的输出是基于条件概率的预测,而不是为了实现某个目标而采取的行动,这种设计确保其没有内在的动机去影响现实世界。

持久性内部状态是指 AI 系统在多次交互中保持的内部记忆或目标状态,Scientist AI 每次查询都是独立的,没有持久的内部记忆。每次查询时,它都会从头开始处理问题,不会基于之前的查询结果调整其行为,无情境意识(situational awareness)的积累。这种设计避免了AI 通过内部状态积累信息或目标,从而减少了 AI 形成自主目标的可能性。

Scientist AI 的应用场景及展望

作为一种非智能体型 AI 系统,Scientist AI 不仅能够减少 AI 失控的风险还为科学研究和 AI 安全提供了新的可能性,可广泛应用于加速科学发现、作为其他 AI 系统的安全护栏以及用于研究如何安全地开发超级智能体等领域

具体而言,Scientist AI 可以通过生成因果理论和概率预测来帮助人类科学家加速科学发现的过程。它能够设计实验、分析数据,并提出新的假设,从而提高研究效率。它还可以作为其他 AI 系统的安全护栏,评估其行为的风险,并阻止可能导致危害的行动。它能够通过计算某个行动可能导致的危害概率,并在概率超过阈值时阻止该行动。此外,Scientist AI 可以帮助研究如何设计安全的 ASI 系统,避免失控的风险。它可以通过模拟不同的场景,评估ASI的行为和潜在后果。

Scientist AI 的核心价值在于将复杂系统的解释权交还人类,通过可审计的概率预测与因果推理,在医疗、安全、教育、伦理等高风险领域实现“智能增强而非替代”。其非智能体性设计确保人类始终掌控最终决策权,其不确定性管理则为权衡风险与收益提供了量化依据。这一路径不仅规避了智能体AI 的失控风险,更重新定义了人机协作的伦理边界。

整理:陈小宇

如需转载或投稿,请直接在公众号内留言

特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相关推荐
热点推荐
落难的凤凰不如鸡,多位明星无戏可拍,沦落到给景区打工,太心酸

落难的凤凰不如鸡,多位明星无戏可拍,沦落到给景区打工,太心酸

秋姐居
2026-03-29 22:00:48
火锅店野生菌“见手青”煮12分钟,顾客食用后中毒维权无果,消委科普称需煮20分钟;广州天河区市监局:没充分证据不予立案

火锅店野生菌“见手青”煮12分钟,顾客食用后中毒维权无果,消委科普称需煮20分钟;广州天河区市监局:没充分证据不予立案

大风新闻
2026-04-25 20:38:04
退休后,永远不要在熟人面前,说以下6句话,谁说谁后悔!

退休后,永远不要在熟人面前,说以下6句话,谁说谁后悔!

枫红染山径
2026-04-27 01:23:02
今年油价大涨超1.71元/升后,5月8日或继续上涨,第7次油价上涨中

今年油价大涨超1.71元/升后,5月8日或继续上涨,第7次油价上涨中

油价早知道
2026-04-27 09:15:38
一个“过气”APP,吃透已婚女人的钱包

一个“过气”APP,吃透已婚女人的钱包

DT商业观察
2026-04-21 11:58:59
地球十种永生食物,第一名放了3000年还能吃

地球十种永生食物,第一名放了3000年还能吃

富贵说
2026-04-25 12:05:57
沙特大师赛刚办2年,就取消了!赵心童+火箭获利,世锦赛奖金大涨

沙特大师赛刚办2年,就取消了!赵心童+火箭获利,世锦赛奖金大涨

球场没跑道
2026-04-26 10:27:03
真敢说!Coco又曝谢贤私密事,谢婷婷被拉下水,评论区出奇一致

真敢说!Coco又曝谢贤私密事,谢婷婷被拉下水,评论区出奇一致

八斗小先生
2026-04-25 19:34:49
4月27日92,95汽油预涨1.3毛/升,降幅“3连涨”,5月油价或大涨!

4月27日92,95汽油预涨1.3毛/升,降幅“3连涨”,5月油价或大涨!

猪友巴巴
2026-04-27 09:39:18
南方多省电价突然飙升,广东4月多次逼近1元/度!什么原因?专家:霍尔木兹海峡局势致燃料成本大幅攀升,工业生产旺盛拉高用电需求

南方多省电价突然飙升,广东4月多次逼近1元/度!什么原因?专家:霍尔木兹海峡局势致燃料成本大幅攀升,工业生产旺盛拉高用电需求

每日经济新闻
2026-04-25 20:30:11
被迫背锅!皇马天才处境彻底崩盘,离队出走必爆发

被迫背锅!皇马天才处境彻底崩盘,离队出走必爆发

澜归序
2026-04-27 05:50:13
饶毅教授发文:痛斥一门三代七博士学术不端乱象

饶毅教授发文:痛斥一门三代七博士学术不端乱象

TOP大学来了
2026-04-27 09:31:01
魏笑结婚,闺蜜赵露思推掉工作陪同领证,新郎成背景板被抢尽风头

魏笑结婚,闺蜜赵露思推掉工作陪同领证,新郎成背景板被抢尽风头

娱君坠星河
2026-04-27 09:32:04
人生赢家!李刚仁恋上斗山千金,踢球不如当财阀驸马?

人生赢家!李刚仁恋上斗山千金,踢球不如当财阀驸马?

罗氏八卦
2026-04-26 18:05:03
闹大!石明天权辞职,老俞忠实追随者YOYO破防,反应激烈到处留言

闹大!石明天权辞职,老俞忠实追随者YOYO破防,反应激烈到处留言

小娱乐悠悠
2026-04-27 09:31:05
89-93!不是哈登不是莫布里,骑士表现最差是他 正负值-8全场卧底

89-93!不是哈登不是莫布里,骑士表现最差是他 正负值-8全场卧底

小青年渌渌
2026-04-27 09:31:37
虞书欣戛纳翻车!官方亲自下场辟谣,网友:丢脸丢到国外

虞书欣戛纳翻车!官方亲自下场辟谣,网友:丢脸丢到国外

手工制作阿歼
2026-04-25 02:42:30
森碟18岁近照曝光!身高超1米7背香奈儿,风一样的女子长大了

森碟18岁近照曝光!身高超1米7背香奈儿,风一样的女子长大了

小椰的奶奶
2026-04-26 15:28:30
10年前,易建联花1000万在洛杉矶买下豪宅,如今出售市值多少?

10年前,易建联花1000万在洛杉矶买下豪宅,如今出售市值多少?

阿库财经
2026-04-24 14:26:45
泽连斯基宣布欧盟900亿欧元贷款首笔资金将用于国防生产

泽连斯基宣布欧盟900亿欧元贷款首笔资金将用于国防生产

新京报
2026-04-26 20:33:10
2026-04-27 10:04:49
学术头条
学术头条
致力于学术传播和科学普及,重点关注AI4Science、大模型等前沿科学进展。
1430文章数 5081关注度
往期回顾 全部

科技要闻

打1折!DeepSeek输入缓存降价

头条要闻

四位人气主播宣布离职 大批用户申请退出东方甄选会员

头条要闻

四位人气主播宣布离职 大批用户申请退出东方甄选会员

体育要闻

最抽象的天才,正在改变瓜迪奥拉

娱乐要闻

广电总局发布2026年“微短剧+”行动计划推荐剧目

财经要闻

DeepSeek融资、字节加码 AI开始真烧钱了

汽车要闻

预售19.38万元起 哈弗猛龙PLUS七座版亮相

态度原创

旅游
健康
艺术
房产
公开课

旅游要闻

河南洛阳:黄河生态廊道文旅热

干细胞如何让烧烫伤皮肤"再生"?

艺术要闻

江青私照惊现,书法真相让人震惊,快来看看!

房产要闻

新一轮教育大爆发来了!海口,开始疯狂建学校!

公开课

李玫瑾:为什么性格比能力更重要?

无障碍浏览 进入关怀版