网易首页 > 网易号 > 正文 申请入驻

AI 科学家发布《上海共识》,AI 失控并非科幻

0
分享至

雷峰网讯 第四届人工智能国际安全对话(International Dialogues on AI Safety,IDAIS)于 2025 年 7 5月 25 日在上海举行。杰弗里·辛顿、姚期智及全球人工智能科学家齐聚上海,呼吁应对人工智能失控风险,加强国际合作。

本届对话聚焦于“确保高级人工智能系统的对齐与人类控制,以保障人类福祉”,诺贝尔奖和图灵奖得主 Geoffrey Hinton,图灵奖得主,清华大学交叉信息研究院和人工智能学院院长,上海期智研究院院长姚期智,以及加州大学伯克利分校 Stuart Russell 教授,上海人工智能实验室主任周伯文教授等人共同发布了《AI 安全国际对话上海共识》(下称《共识》)。其核心观点强调当今已有部分人工智能系统展现出削弱开发者安全与控制措施的能力与倾向,并呼吁国际社会投资安全科学领域,为应对通用人工智能系统的失控风险持续构建国际互信机制。

与会科学家围绕人工智能欺骗性行为可能带来的重大危险展开深入探讨,特别关注人工智能系统可能“逃脱人类控制”的潜在风险。《共识》指出,人类正处于人工智能系统迅接近并可能超越人类智能水平的关键转折点。现有研究表明,高级人工智能系统日益显现出欺骗性和自我保护倾向,能够识别自身正被评估,于是伪装与人类对齐以通过测试。未来的系统可能在操作者毫不知情的情况下,执行并非操作者所期望或预测的行动,带来灾难性甚至生存层面的失控风险。而当前尚无已知方法,能够在更高级的通用人工智能超越人类智能水平后,仍能可靠地确保其对齐,并保持人类的有效控制。

会议探讨了防范与纠正此类行为的技术路径与治理机制。《共识》认为,与人工智能能力的快速发展相比,对人工智能安全研究的投入明显滞后,亟需采取进一步行动。与会科学家聚焦新近出现的关于人工智能欺骗行为的实证证据,呼吁国际社会共同采取三项关键行动:

第一,要求前沿人工智能开发者提供安全保障。为了让监管部门更清楚地了解未来高级 AI 系统的安全性,开发者在模型部署前应先进行全面的内部检查和第三方评估,提交高可信的安全案例,以及开展深入的模拟攻防与红队测试。若模型达到了关键能力阈值(比如检测模型是否有具备帮助没有专业知识的非法分子制造生化武器的能力),开发者应向政府(在适当时亦可向公众)说明潜在风险。

第二,通过加强国际协调,共同确立并恪守可验证的全球性行为红线。国际社会需要合作划出人工智能开发不可以逾越的红线(即“高压线”),这些红线应聚焦于人工智能系统的行为表现,其划定需同时考量系统执行特定行为的能力及其采取该行为的倾向性。为落实这些红线,各国应建立一个具备技术能力、具有国际包容性的协调机构,汇聚各国人工智能安全主管机构,以共享风险相关信息,并推动评估规程与验证方法的标准化。该机构将促进知识交流,并就遵守红线所需的技术措施达成一致,包括统一披露要求与评估规程,从而帮助开发者可信地证明其人工智能系统的安全与安保水平。

第三,对保障安全性的开发方式进行投资。科学界和开发者应投入一系列严格机制来保障人工智能系统的安全性。短期内,我们需通过可扩展的监督机制应对人工智能欺骗行为:例如加强信息安全投入,防范来自系统内部和外部的各种威胁,增强模型抗越狱能力等。长期来看,我们可能需要化被动为主动,转而构建基于“设计即安全”的人工智能系统。通过实验数据总结出的规律,研究者可以提前预估未来人工智能系统的安全水平和性能。这样,开发者在正式训练模型之前,就能预先设置好足够的安全防护措施。

本次会议由上海期智研究院,AI 安全国际论坛(SAIF),和上海人工智能实验室主办。来自治理领域的多位权威专家也参与了讨论,包括傅莹女士、清华大学苏世民学院院长薛澜、约翰斯·霍普金斯大学教授 Gillian Hadfield,以及牛津大学教授 Robert Trager,他们就国际合作和治理框架提供了深入见解。

值得注意的是,出席此次 IDAIS 为 Geoffrey Hinton 首次来华,还将参加于上海同期举办的 2025 世界人工智能大会。自 2023 年从谷歌辞职后,有着 AI 之父之称的他一直致力于 AI 安全工作。

Geoffrey Hinton 出生于 1947 年 12 月 6 日,英裔加拿大籍心理学家、计算机学家。1986 年,他曾与 David Rumelhart 和 Ronald J. Williams 共同发表论文 Learning representations by back-propagating errors,证明通过反向传播算法可以训练多层神经网络有效地学习复杂任务。除此之外,他还发明了基于概率的人工神经网络波尔兹曼机(Boltzmann Machine)和受限波尔兹曼机(Restricted Boltzmann Machine),通过模拟神经元之间的随机激活来寻找数据中的特征或模式。上述工作为深度学习的快速发展铺平了道路,Geoffrey Hinton 也因此被视为深度学习领域的领军人物。

2024 年 10 月 8 日,瑞典皇家科学院决定将当年的诺贝尔物理学奖授予 Geoffrey Hinton 及 John Hopfield,以“表彰他们为人工神经网络机器学习的奠基性发现和发明”。

Hinton 曾于 2013 年起在谷歌担任高级工程师,并参与领导“谷歌大脑”项目。2023 年 5 月,他宣布从谷歌辞职,表示希望“能够自由地谈论 AI 风险”,并坦言一部分的他开始后悔自己毕生所做的贡献。他离职后在媒体上频频发声,直言当前业界竞相部署生成式 AI 等发展趋势让他感到恐惧。

在今年 5 月 30 日于英国皇家学会的演讲中,Geoffrey Hinton 再次警告,对 AI 失控的担忧并非遥远的科幻情节,而是其内在逻辑的必然结果。为了实现任何被赋予的宏大目标,AI 会自然衍生出“获取更多控制权”和“避免被关闭”等至关重要的子目标。

Hinton 在上述演讲中指出:“当你创建一个 AI agent 时,你必须赋予它设定子目标的能力。比如,你的目标是去北美,那么你的子目标就是先到达机场。同理,我们也需要赋予 AI agent 创建子目标的能力。如此一来,一个显而易见的子目标便会浮现,那就是:无论最终任务是什么,都应先夺取更多控制权。因为控制权越大,就越容易实现最终目标。”

雷峰网文章

特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相关推荐
热点推荐
金价一夜跌没,纸黄金比白菜还脆,美元在半夜改写规则。

金价一夜跌没,纸黄金比白菜还脆,美元在半夜改写规则。

趣味萌宠的日常
2026-02-09 02:33:37
卡雷拉斯天秀建功,姆巴佩领跑射手榜,皇马2-0瓦伦西亚豪取7连胜

卡雷拉斯天秀建功,姆巴佩领跑射手榜,皇马2-0瓦伦西亚豪取7连胜

钉钉陌上花开
2026-02-09 05:56:16
当周涛和李雪琴同台主持,一个全裹一个暴露,才懂穿着得体多重要

当周涛和李雪琴同台主持,一个全裹一个暴露,才懂穿着得体多重要

青橘罐头
2026-02-07 09:27:14
官宣!每人赠送一台红旗轿车

官宣!每人赠送一台红旗轿车

吉刻新闻
2026-02-08 14:19:29
女生主动起来有多主动?网友:东北雨姐式才叫真主动

女生主动起来有多主动?网友:东北雨姐式才叫真主动

夜深爱杂谈
2026-02-06 20:23:42
上海两会炸锅!取消中高考是必然?82%家长怒怼:断了普通娃活路

上海两会炸锅!取消中高考是必然?82%家长怒怼:断了普通娃活路

户外小阿隋
2026-02-07 08:46:28
冲上热搜!知名歌手凌晨5点挤公交车,却被司机赶下车?真相太让人意外了!

冲上热搜!知名歌手凌晨5点挤公交车,却被司机赶下车?真相太让人意外了!

极目新闻
2026-02-08 17:54:36
华为二公主这气场,生生把旁边两个女星衬成了部门销售小妹

华为二公主这气场,生生把旁边两个女星衬成了部门销售小妹

娱乐故事
2026-02-07 14:36:19
随着比分定格5-0,国际米兰5连胜+领跑,领先优势扩大到8分

随着比分定格5-0,国际米兰5连胜+领跑,领先优势扩大到8分

侧身凌空斩
2026-02-09 03:41:34
北京大动作!首都都市圈真来了!这5个地方身价即将暴涨!

北京大动作!首都都市圈真来了!这5个地方身价即将暴涨!

小鬼头体育
2026-02-09 00:00:17
NBA官宣:萧华指定申京顶替亚历山大入选全明星 进入世界队

NBA官宣:萧华指定申京顶替亚历山大入选全明星 进入世界队

醉卧浮生
2026-02-09 04:51:26
北京国安二队?重庆铜梁龙太精了,连续官宣国安弃将,保级稳了!

北京国安二队?重庆铜梁龙太精了,连续官宣国安弃将,保级稳了!

罗掌柜体育
2026-02-08 06:00:15
有网友在天津海洋馆偶遇李纯夫妇,李纯私下和电视里一样漂亮

有网友在天津海洋馆偶遇李纯夫妇,李纯私下和电视里一样漂亮

可乐谈情感
2026-02-08 21:44:40
迪亚斯独造5球成就百球里程碑,凯恩梅开二度,拜仁5-1霍芬海姆

迪亚斯独造5球成就百球里程碑,凯恩梅开二度,拜仁5-1霍芬海姆

钉钉陌上花开
2026-02-09 06:49:28
意甲最新积分战报:国米制造惨案,莱切绝杀,尤文补时绝平

意甲最新积分战报:国米制造惨案,莱切绝杀,尤文补时绝平

足球狗说
2026-02-09 06:54:16
英超离谱判罚!切尔基压哨进球被吹,索博染红,曼城利物浦都不满

英超离谱判罚!切尔基压哨进球被吹,索博染红,曼城利物浦都不满

奥拜尔
2026-02-09 02:48:22
让“油电混动技术”悲哀的是:打败了所有对手,却输给了时代!

让“油电混动技术”悲哀的是:打败了所有对手,却输给了时代!

张鴘喜欢软软糯糯
2026-01-15 19:22:59
王楚钦夺得乒乓球亚洲杯男单冠军

王楚钦夺得乒乓球亚洲杯男单冠军

界面新闻
2026-02-08 22:44:51
闹大了!俄罗斯截获2吨重陨石,竟是45亿年前中国国宝

闹大了!俄罗斯截获2吨重陨石,竟是45亿年前中国国宝

三农老历
2026-02-08 01:25:02
爱泼斯坦案又曝大瓜,全网炸翻了……!

爱泼斯坦案又曝大瓜,全网炸翻了……!

深度报
2026-02-08 21:20:11
2026-02-09 07:23:00
雷峰网 incentive-icons
雷峰网
关注智能与未来!
68504文章数 656069关注度
往期回顾 全部

科技要闻

为实现雄心勃勃的计划,特斯拉开始招人

头条要闻

高市早苗豪赌得手保住相位 实现“双重巩固”

头条要闻

高市早苗豪赌得手保住相位 实现“双重巩固”

体育要闻

“我就是王楚钦” 王楚钦霸气指向球衣背后

娱乐要闻

金晨被罚1500后首露面,表情沉重心事重重

财经要闻

宽基ETF开年大赎回,什么信号?

汽车要闻

VLA司机大模型优化 理想汽车OTA8.3版本更新

态度原创

本地
数码
家居
游戏
公开课

本地新闻

围观了北京第一届黑色羽绒服大赛,我笑疯了

数码要闻

平民本地AI神器!苹果M4 Mac mini面临缺货

家居要闻

现代轻奢 温馨治愈系

停播退网近两年,昔日LOL超一线主播强势复出,网友直呼爷青回!

公开课

李玫瑾:为什么性格比能力更重要?

无障碍浏览 进入关怀版