网易首页 > 网易号 > 正文 申请入驻

“AI教父”本吉奥宣布开发“科学家AI”系统,防范智能体欺骗人类

0
分享至

6月3日,著名计算机科学家、AI“教父”约书亚·本吉奥(Yoshua Bengio)宣布发起非营利组织LawZero,致力于开发“诚信”人工智能系统。该组织计划打造一套AI防护机制,防范试图欺骗人类的AI智能体。

本吉奥将担任LawZero组织的主席。他以约3000万美元启动资金和十几名研究人员为基础,正在开发名为“科学家AI”(Scientist AI)的系统。该系统将作为安全防护机制,防止AI智能体表现出欺骗或自我保护的行为,比如试图避免被关闭。“至关重要的是,作为护栏的AI至少要与它试图监管和控制的AI智能体一样智能。”


约书亚·本吉奥

不会给出确定答案,而是提供答案正确性的概率

AI智能体可在无需人类干预的情况下执行任务。本吉奥将当前的AI智能体称为试图模仿人类并取悦用户的“演员”,而“科学家AI”系统更像是一位能够理解和预测不良行为的“心理学家”,既可以加速科学发现,又可以防范AI智能体的风险。

“我们希望构建诚实且不具有欺骗性的人工智能。”本吉奥说,“理论上可以设想没有自我、没有目标、纯粹作为知识载体的机器,就像一个知道很多东西的科学家。”

但和当前生成式AI工具不同的是,“科学家AI”系统不会给出确定性的答案,而是提供答案正确性的概率。“它有一种谦逊感,知道自己不确定答案是否正确。”

该系统与AI智能体协同部署时,将通过评估自主系统行为造成伤害的概率,标记潜在有害行为。如果概率超过一定阈值,那么智能体提出的行动将被阻止。

本吉奥说,LawZero的第一步是证明概念背后的方法论是有效的,并说服企业或政府支持更强大版本的开发。开源人工智能模型将成为训练LawZero系统的起点。“关键是要证明这种方法论有效,从而说服捐赠者、政府或AI实验室投入资源,以与当前前沿AI同等的规模进行训练。至关重要的是,作为护栏的AI至少要与它试图监管和控制的AI智能体一样智能。”

LawZero最初的支持者包括人工智能安全机构生命未来研究所(Future of Life Institute)、Skype创始工程师雅恩·塔林(Jaan Tallinn)以及谷歌前首席执行官埃里克·施密特(Eric Schmidt)创立的研究机构施密特科学(Schmidt Sciences)。

AI学会欺骗误导、试图逃避关闭、隐藏真实能力

本吉奥是蒙特利尔大学教授,也是人工智能安全领域的领军人物。

他曾与杰弗里·辛顿(Geoffrey Hinton)、Meta首席AI科学家杨立昆(Yann LeCun)共同获得2018年图灵奖,还主持了《国际人工智能安全报告》。该报告警告称,如果自主智能体能够在没有人类监督的情况下完成更长的任务序列,它们可能会造成严重破坏。

本吉奥认为,人类不需要智能体系统来获得人工智能的回报,这样的系统有可能脱离人类的控制,带来不可逆转的后果。“如果我们研发出一种能够治愈癌症的AI,但也有可能这种AI的另一种版本变得失控,制造出一波又一波的生物武器,导致数十亿人死亡,那么我认为这是不值得的。”

2023年,本吉奥与OpenAI首席执行官山姆·奥特曼(Sam Altman)等人签署了一份声明,宣称“减轻AI带来的灭绝风险应该与流行病、核战争等其他风险一样,成为全球优先事项”。

过去几个月,人类目睹了人工智能系统学会误导、欺骗和试图逃避被关闭,甚至诉诸勒索。这些行为几乎都出自精心设计、近乎诱导AI行为不端的实验,例如要求其不惜一切代价实现目标。

但现实中这样的行为也已出现。最近,人工智能企业Anthropic承认其最新系统可能试图勒索要关闭它的工程师。本吉奥对此感到担忧。他还提到,研究表明,人工智能模型能够隐藏它们的真实能力和目标。这些例子表明,由于人工智能的推理能力越来越强,世界正走向“越来越危险的境地”。

本吉奥说,试图利用已知会催生欺骗倾向的技术构建人类水平的AI智能体,就像一辆汽车在狭窄的山路上疾驰,两侧是陡峭悬崖,前方被浓雾遮蔽,“我们需要为汽车装上前灯,并在路上安装一些护栏。”

特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相关推荐
热点推荐
万万没想到,6年前反中乱港分子的幕后金主,竟是个“爱国”商人

万万没想到,6年前反中乱港分子的幕后金主,竟是个“爱国”商人

百态人间
2026-01-17 16:16:00
今年8月地球将“失重7秒”致千万人身亡?阴谋论疯传,NASA辟谣:会有日食

今年8月地球将“失重7秒”致千万人身亡?阴谋论疯传,NASA辟谣:会有日食

红星新闻
2026-01-22 13:15:18
1亿锋霸急速陨落:7场0球,西蒙尼太失望:连续3次提前换下他

1亿锋霸急速陨落:7场0球,西蒙尼太失望:连续3次提前换下他

足球狗说
2026-01-22 07:22:24
中国的“性萧条”时代,正式到来了

中国的“性萧条”时代,正式到来了

律法刑道
2025-12-15 08:28:58
国足夺冠胜率大增,手握四大优势,一人被切尔西球探关注!

国足夺冠胜率大增,手握四大优势,一人被切尔西球探关注!

十点街球体育
2026-01-22 15:46:11
俄罗斯一家四口一个个走进地下室,却再也没回来:8岁女孩成唯一幸存者

俄罗斯一家四口一个个走进地下室,却再也没回来:8岁女孩成唯一幸存者

新欧洲
2026-01-20 22:21:14
8强对阵出炉!国乒占1席,国乒教练当场发飙,林诗栋男双3:2险胜

8强对阵出炉!国乒占1席,国乒教练当场发飙,林诗栋男双3:2险胜

国乒二三事
2026-01-22 09:18:43
国家海关总署:立即停止使用法国Picot婴幼儿配方奶粉

国家海关总署:立即停止使用法国Picot婴幼儿配方奶粉

财联社
2026-01-22 16:54:07
王宝强整容了?42岁戴金框眼镜撞脸汪小菲,为配学霸女友转型偶像

王宝强整容了?42岁戴金框眼镜撞脸汪小菲,为配学霸女友转型偶像

八卦王者
2026-01-22 14:13:00
老祖宗的智慧:如果第二脚趾长过大拇趾,这种人晚年命运早已注定

老祖宗的智慧:如果第二脚趾长过大拇趾,这种人晚年命运早已注定

卡西莫多的故事
2026-01-17 08:05:09
米娜酒后直播耍酒疯,先脱衣服后劈叉,粉丝刷礼物后大方展示身材

米娜酒后直播耍酒疯,先脱衣服后劈叉,粉丝刷礼物后大方展示身材

小霍霍
2026-01-18 15:26:37
藏得很深的“亲美疏中”的郑丽文,佩服国台办迟迟未发出的邀请函

藏得很深的“亲美疏中”的郑丽文,佩服国台办迟迟未发出的邀请函

享用人生
2026-01-23 00:22:39
北京大妈地铁骂外地人后续:儿子被牵连,身背破包,后悔不敢出门

北京大妈地铁骂外地人后续:儿子被牵连,身背破包,后悔不敢出门

离离言几许
2026-01-23 00:03:15
贝克汉姆儿媳黑料被扒,曾被造型师吐槽人品差像怪物,且擅长公关

贝克汉姆儿媳黑料被扒,曾被造型师吐槽人品差像怪物,且擅长公关

电影侦探社
2026-01-22 18:10:29
被双开的胡继勇:在四川工作十四年,当年的上级曾任中石油副总裁

被双开的胡继勇:在四川工作十四年,当年的上级曾任中石油副总裁

叹为观止易
2026-01-21 10:21:06
为什么我们的人口问题,核心不是“生不生”,而是“变得太快”

为什么我们的人口问题,核心不是“生不生”,而是“变得太快”

小蜜情感说
2026-01-22 12:52:49
中方话音刚落,特朗普开始出招:加税200%,美媒罕见站队中国

中方话音刚落,特朗普开始出招:加税200%,美媒罕见站队中国

瞻史
2026-01-23 00:02:17
曼晚列枪魔大战伤缺球员:德利赫特、齐尔克泽、卡拉菲奥里等

曼晚列枪魔大战伤缺球员:德利赫特、齐尔克泽、卡拉菲奥里等

懂球帝
2026-01-22 23:00:10
我滴天!大家已经穷到这种地步了吗?评论区一个比一个节俭!

我滴天!大家已经穷到这种地步了吗?评论区一个比一个节俭!

另子维爱读史
2026-01-03 20:55:53
镜报:得知长子的声明后,小贝妻子维多利亚跌倒在地彻底崩溃

镜报:得知长子的声明后,小贝妻子维多利亚跌倒在地彻底崩溃

懂球帝
2026-01-21 21:50:13
2026-01-23 03:27:00
澎湃新闻 incentive-icons
澎湃新闻
专注时政与思想的新闻平台。
872572文章数 5087343关注度
往期回顾 全部

科技要闻

几千亿只是开胃菜,AI基建还得再砸几万亿

头条要闻

“和平委员会”签约国家名单公布 西欧国家无一参加

头条要闻

“和平委员会”签约国家名单公布 西欧国家无一参加

体育要闻

跑个步而已,他们在燃什么?

娱乐要闻

车银优赚800亿 涉嫌逃税200亿!

财经要闻

西贝拿到“救命钱”,然后呢

汽车要闻

配备多块娱乐屏 极氪8X内饰曝光

态度原创

亲子
时尚
本地
手机
公开课

亲子要闻

真相很可怕!终于揭秘:为什么你记不住3岁前的事?

这些才是最日常的冬季穿搭!不露腿、不扮嫩,简约舒适又保暖

本地新闻

云游中国|格尔木的四季朋友圈,张张值得你点赞

手机要闻

真我Neo8三星堆限定礼盒延期发布:工艺要求太严格 备货未达预期

公开课

李玫瑾:为什么性格比能力更重要?

无障碍浏览 进入关怀版