网易首页 > 网易号 > 正文 申请入驻

智能体或带来灾难性风险,图灵奖得主指明新路径Scientist AI

0
分享至

编辑丨coisini

领先的人工智能公司越来越专注于构建通用 AI 智能体,旨在让系统能够自主规划、行动并追求目标,几乎涵盖人类能够执行的所有任务。虽然这些系统可能非常有用,但不受约束的 AI 智能体对人类安全构成了重大风险。

一些学者认为我们迫切需要一种更安全且仍具实用性的替代方案,以取代当前以智能体为导向的发展路径。

最近,图灵奖得主 Yoshua Bengio 以第一作者身份发表了一篇论文 ——《Superintelligent Agents Pose Catastrophic Risks: Can Scientist AI Offer a Safer Path?》。该论文提出了一种在设计上可信且安全的非智能体 AI 系统 ——Scientist AI。

论文地址:https://arxiv.org/abs/2502.15657

Scientist AI 旨在通过观察来解释世界,而不是在其中采取行动以模仿或取悦人类。它包含一个生成理论以解释数据的世界模型,以及一个问答推理机。这两个组件在操作时都明确考虑了不确定性,以减少过度自信预测的风险。

Scientist AI 可用于协助人类研究人员加速科学进步。特别地,Scientist AI 可以作为防范 AI 智能体的护栏,最终使我们能够在享受人工智能创新带来的好处的同时,避免当前发展路径所带来的风险。

Scientist AI 简介

受柏拉图式理想化科学家形象的启发,研究团队提出了 Scientist AI 的设计与构建方案。Scientist AI 基于SOTA概率深度学习技术,并借鉴科学过程的方法论,即首先理解或建模世界,然后基于这些知识进行概率推断。

Scientist AI 展示了如何将概率预测转化为实验设计,从而消除科学发现中对强化学习智能体的需求。与旨在追求目标的自主 AI 不同,Scientist AI 的训练目标是提供对事件的解释及其估计概率。研究团队还提出了确保 Scientist AI 保持非自主性的策略。

Scientist AI 没有内置的情境意识,也没有能够驱动行动或长期计划的持久目标。它包含一个世界模型和一个概率推理机。世界模型根据从世界中观察到的一组数据生成解释性理论,推理机则基于世界模型进行无状态输入到输出的概率估计。

更准确地说,世界模型根据观察数据输出解释性理论的后验分布,推理机随后将后验分布与高效的概率推理机制结合起来,估计任何问题 X 的答案 Y 的概率。形式上,推理机接收一对输入(X, Y),也称为查询,输出在给定与问题 X 相关的条件下 Y 的概率。

Scientist AI 具有以下特性:

1. 世界模型生成的理论和推理机处理的查询都使用逻辑语句表达,这些语句可以用自然语言或形式语言表示。世界模型采样的语句形成因果模型,即以因果关系的形式提供解释。

2. 根据世界模型,任何查询都有一个唯一的正确概率,这是通过全局优化 AI 的贝叶斯训练目标得到的结果。推理机的输出近似于这个唯一的正确概率。

3. Scientist AI 可以生成涉及潜在或未观察变量的解释,从而对其进行概率预测。

最后,研究团队还预见了 Scientist AI 的三大主要应用场景:

1.作为一种工具,帮助人类科学家显著加速科学进步,包括医疗等高回报领域;

2.作为一种防护机制,通过双重检查自主 AI 提议的行动并确保其安全部署,从而防范自主 AI 的风险;

3.作为一种 AI 研究工具,帮助更安全地构建未来更智能(甚至超级智能)的 AI。

感兴趣的读者可以阅读论文原文,了解更多研究内容。

特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相关推荐
热点推荐
马家军蹂躏女红军纪实!咬烂乳房、木棍捅下阴是最“仁慈”的虐待

马家军蹂躏女红军纪实!咬烂乳房、木棍捅下阴是最“仁慈”的虐待

温读史
2026-01-16 11:21:30
明天四九第一天,牢记“吃三样,喝一汤,忌二事”习俗,养精蓄锐

明天四九第一天,牢记“吃三样,喝一汤,忌二事”习俗,养精蓄锐

花小厨
2026-01-16 15:37:38
杨毅:如果能给杨瀚森在NBA挑教练,我希望是比卢普斯没出事

杨毅:如果能给杨瀚森在NBA挑教练,我希望是比卢普斯没出事

懂球帝
2026-01-16 22:23:57
脸僵认不出!反派专业户新剧变脸!曾否认医美,病因和李连杰一样

脸僵认不出!反派专业户新剧变脸!曾否认医美,病因和李连杰一样

黔乡小姊妹
2025-12-20 08:20:18
詹姆斯团队要求佩林卡答复 湖人2亿顶薪只能给一人 保罗火上浇油

詹姆斯团队要求佩林卡答复 湖人2亿顶薪只能给一人 保罗火上浇油

篮球话题团
2026-01-16 01:35:03
突迎噩耗!李湘账号全平台被禁,知情人爆内幕,不止炫富那么简单

突迎噩耗!李湘账号全平台被禁,知情人爆内幕,不止炫富那么简单

哎呀哎呀看电影
2026-01-17 03:24:40
私!贪!狂!洪礼和三个字总结自己违法犯罪之路

私!贪!狂!洪礼和三个字总结自己违法犯罪之路

环球网资讯
2026-01-13 20:53:23
从新星到未来之星 |朝海汐,影视作品背后的努力与女性角色崛起

从新星到未来之星 |朝海汐,影视作品背后的努力与女性角色崛起

碧波万览
2026-01-11 00:24:50
雪国列车?东北多趟高铁车次带“雪”字,12306回应:近期上线的新服务,可携带雪具上车,加收服务费

雪国列车?东北多趟高铁车次带“雪”字,12306回应:近期上线的新服务,可携带雪具上车,加收服务费

极目新闻
2026-01-15 21:50:13
他接受纪律审查和监察调查

他接受纪律审查和监察调查

锡望
2026-01-16 17:18:12
章泽天播客翻车:访谈节目没有贵妇特区

章泽天播客翻车:访谈节目没有贵妇特区

陈意小可爱
2026-01-17 01:25:05
郭昊文25+6同曦狂胜深圳终结5连败 汉兹首秀32+6+12

郭昊文25+6同曦狂胜深圳终结5连败 汉兹首秀32+6+12

醉卧浮生
2026-01-16 21:25:22
把1-1扑成2-0,霍安-加西亚94分钟神扑单刀助巴萨晋级

把1-1扑成2-0,霍安-加西亚94分钟神扑单刀助巴萨晋级

懂球帝
2026-01-16 07:53:07
台湾名嘴赖岳谦:美国现在为止,唯一尊重的,佩服的国家,是中国

台湾名嘴赖岳谦:美国现在为止,唯一尊重的,佩服的国家,是中国

扶苏聊历史
2026-01-16 18:33:49
黑色丝袜虽然显得有女人,但是肉色丝袜看起更优雅大方得体有气质

黑色丝袜虽然显得有女人,但是肉色丝袜看起更优雅大方得体有气质

美女穿搭分享
2026-01-16 09:37:02
出大事了,俄军发起“斩首行动”,特朗普秒翻脸,英法德果断下令

出大事了,俄军发起“斩首行动”,特朗普秒翻脸,英法德果断下令

傲傲讲历史
2026-01-17 02:50:03
我65岁,每年雷打不动存十万,儿子被裁那天打开抽屉,他跪地痛哭

我65岁,每年雷打不动存十万,儿子被裁那天打开抽屉,他跪地痛哭

晓艾故事汇
2026-01-16 14:04:54
蒯曼2-0领先遭逆转,日本包揽多哈赛女双冠亚军

蒯曼2-0领先遭逆转,日本包揽多哈赛女双冠亚军

两兄弟养牛
2026-01-17 04:06:58
何穗当妈后的日常太真实了!边带娃边等老公投喂,咖啡成带娃神器

何穗当妈后的日常太真实了!边带娃边等老公投喂,咖啡成带娃神器

热点风采
2026-01-15 14:10:08
动手前通知中美,不想被中美同时误判,普京遭斩首未遂,报复太狠

动手前通知中美,不想被中美同时误判,普京遭斩首未遂,报复太狠

轩逸阿II
2026-01-17 03:01:59
2026-01-17 05:04:49
ScienceAI incentive-icons
ScienceAI
关注人工智能与其他前沿技术
1210文章数 223关注度
往期回顾 全部

科技要闻

贾国龙与罗永浩被禁言,微博CEO回应

头条要闻

罗永浩、贾国龙微博账号均被禁言

头条要闻

罗永浩、贾国龙微博账号均被禁言

体育要闻

全队身价=登贝莱,他们凭什么领跑法甲?

娱乐要闻

李湘翻车,早就有迹可循!

财经要闻

清流|酒店商家在携程和美团之间沦为炮灰

汽车要闻

方程豹品牌销量突破30万辆 2026年还将推出轿跑系列

态度原创

家居
艺术
本地
公开课
军事航空

家居要闻

岁月柔情 现代品质轻奢

艺术要闻

180米!上海北外滩新地标,设计藏了3个“小心机”

本地新闻

云游内蒙|黄沙与碧波撞色,乌海天生会“混搭”

公开课

李玫瑾:为什么性格比能力更重要?

军事要闻

欧洲多国向格陵兰岛派遣军事人员 白宫回应

无障碍浏览 进入关怀版