网易首页 > 网易号 > 正文 申请入驻

通向可信AGI,周伯文提出AI-45°平衡律兼顾安全与性能

0
分享至

当前,以大模型为代表的生成式人工智能快速发展,但随着能力的不断提升,模型自身及其应用也带来了一系列潜在风险的顾虑,包括数据泄露、滥用、隐私及版权相关的内容风险,以及恶意使用带来伪造、虚假信息等相关的使用风险,还有人担心人工智能是否会对就业结构等社会系统性问题带来挑战。

“出现对这些风险的担忧,根本原因是我们目前的AI发展是失衡的。”7月4日,在2024世界人工智能大会暨人工智能全球治理高级别会议(WAIC 2024)的开幕式全体会议上,上海人工智能实验室主任、首席科学家,清华大学惠妍讲席教授周伯文发表演讲时提出一个技术主张,要探索人工智能45°平衡律(Towards AI-45°Law)。

周伯文提到,总体上我们在AI模型安全能力方面的提升,还远远落后于性能的提升,这种失衡导致AI的发展是跛脚的,业界称之为“Crippled AI”。

目前的AI发展趋势是,在Transformer为代表的基础模型架构下,加以(大数据-大参数量与大计算)的尺度定律(Scaling Law),目前AI性能呈指数级增长。与此形成对比的是,在AI安全维度典型的技术,如:红队测试、安全标识、安全护栏与评估测量等,呈现零散化、碎片化,且后置性的特性。

不均衡的背后是二者投入上的巨大差异。“如果对比一下,从研究是否体系化,以及人才密集度、商业驱动力、算力的投入度等方面来看,安全方面的投入是远远落后于AI能力的。”周伯文认为,要避免这样的“Crippled AI”发展,我们应该追求的是TrustWorthy AGI,可信的通用人工智能。

周伯文认为,可信AGI需要能够兼顾安全与性能,需要找到AI安全优先,但又能保证AI性能长期发展的技术体系,他把这样一种技术思想体系叫做“AI-45°平衡律” (AI-45° Law)。具体来说,这种思想指的是,从长期的角度来看,我们要大体上沿着45度安全与性能平衡发展,平衡是指短期可以有波动,但不能长期低于45°(如同现在),也不能长期高于45度(这将阻碍发展与产业应用)。这个技术思想体系要求强技术驱动、全流程优化、多主体参与以及敏捷治理。

实现AI-45°平衡律也许有多种技术路径。以上海AI实验室为例,团队最近在探索一条以因果为核心的路径,并把它取名为可信AGI的“因果之梯”,他们将可信AGI的发展分为三个递进阶段:泛对齐、可干预、能反思。

“泛对齐”主要包含当前最前沿的人类偏好对齐技术。但需要注意的是,这些安全对齐技术仅依赖统计相关性而忽视真正的因果关系,可能导致错误推理和潜在危险。

“可干预”主要包含通过对AI系统进行干预,探究其因果机制的安全技术,例如机械可解释性、对抗演练等,它可以通过提高可解释性和泛化性来提升安全性,同时也能提升AI能力。

“能反思”则要求AI系统不仅追求高效执行任务,还能审视自身行为的影响和潜在风险,从而在追求性能的同时,确保安全和道德边界不被突破。这个阶段的技术,包括基于价值的训练、因果可解释性、反事实推理等。

“目前,AI安全和性能技术发展主要停留第一阶段,部分在尝试第二阶段,但要真正实现AI的安全与性能平衡,我们必须完善第二阶段并勇于攀登第三阶段。”周伯文认为,沿着可信AGI的“因果之梯”拾级而上,可以构建真正可信AGI,实现人工智能的安全与卓越性能的完美平衡。

特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相关推荐
热点推荐
伊朗装甲车街头碾压抗议者 加拿大强烈谴责

伊朗装甲车街头碾压抗议者 加拿大强烈谴责

桂系007
2026-02-06 07:01:11
湖南省委书记:动真格,坚决纠治躺平摆烂、层层甩锅、当“老好人”等现象

湖南省委书记:动真格,坚决纠治躺平摆烂、层层甩锅、当“老好人”等现象

新京报政事儿
2026-02-07 21:34:27
白鹿对张凌赫满脸嫌弃,高叶吃瓜表情笑翻

白鹿对张凌赫满脸嫌弃,高叶吃瓜表情笑翻

陈意小可爱
2026-02-07 18:59:50
玉渊谭天丨日本在菲律宾培植代理人挑衅中国

玉渊谭天丨日本在菲律宾培植代理人挑衅中国

环球网资讯
2026-02-07 20:44:49
撒贝宁将第十次主持央视春晚,家庭变故烦心事多

撒贝宁将第十次主持央视春晚,家庭变故烦心事多

吃青菜长高
2026-02-06 21:23:14
实锤了!韩国综艺曝光小S忽视姐姐病情,对大S的离世要负很大责任

实锤了!韩国综艺曝光小S忽视姐姐病情,对大S的离世要负很大责任

壹月情感
2026-02-05 12:42:35
中国正加速抛售美债,美专家:中国用了新抛售方式,完全无法干预

中国正加速抛售美债,美专家:中国用了新抛售方式,完全无法干预

似水流年忘我
2026-01-29 01:24:08
赵心童6-3晋级决赛,锁定球员锦标赛16强最后1席:中国5席创历史

赵心童6-3晋级决赛,锁定球员锦标赛16强最后1席:中国5席创历史

求球不落谛
2026-02-07 22:27:27
原来我们熟悉的许多明星用的都是艺名,谁的本名最令你感到意外?

原来我们熟悉的许多明星用的都是艺名,谁的本名最令你感到意外?

上官晚安
2026-02-08 01:36:41
中交集团区域总失联

中交集团区域总失联

地产微资讯
2026-02-07 23:11:04
刚提的新车啊,雷恩主帅:雅凯肩部遭遇了相当严重的伤情

刚提的新车啊,雷恩主帅:雅凯肩部遭遇了相当严重的伤情

懂球帝
2026-02-08 07:42:38
两个圈内公认高情商好人缘的人,唯独和合作过的对方老死不相往来

两个圈内公认高情商好人缘的人,唯独和合作过的对方老死不相往来

一盅情怀
2026-02-07 15:43:16
女生要主动起来跟想象中完全不一样!网友:让我递毛巾 瞬间开窍了

女生要主动起来跟想象中完全不一样!网友:让我递毛巾 瞬间开窍了

另子维爱读史
2026-01-26 18:39:06
俄军中将副局长遭遇暗杀,65岁还空手夺枪,否则真就没救了

俄军中将副局长遭遇暗杀,65岁还空手夺枪,否则真就没救了

战风
2026-02-07 11:35:11
上海150万“硅基少女”进养老院,试用两周后,老人竟拒绝见子女

上海150万“硅基少女”进养老院,试用两周后,老人竟拒绝见子女

吃货的分享
2026-02-08 08:00:17
郑丽文强硬回应后,最新民调出炉,41.8%比33.8%,徐欣莹尴尬了!

郑丽文强硬回应后,最新民调出炉,41.8%比33.8%,徐欣莹尴尬了!

放开他让wo来
2026-02-07 22:57:49
哪些人情世故是你长大后才明白的?网友:贵人不可贱用

哪些人情世故是你长大后才明白的?网友:贵人不可贱用

解读热点事件
2026-01-29 04:45:45
25名女子在香港卖淫:每次时长不限,价格曝光,多张私密画面流出

25名女子在香港卖淫:每次时长不限,价格曝光,多张私密画面流出

博士观察
2026-02-07 18:06:23
上海男子租下废弃水塔住,找到一张能换300公斤黄金的银行寄存单

上海男子租下废弃水塔住,找到一张能换300公斤黄金的银行寄存单

故事那点事
2026-02-08 08:10:13
TOP14位身高170以上的女神,有颜有灯有演技

TOP14位身高170以上的女神,有颜有灯有演技

素然追光
2026-01-02 02:45:02
2026-02-08 09:44:49
第一财经资讯 incentive-icons
第一财经资讯
第一财经官方账号
243884文章数 621437关注度
往期回顾 全部

科技要闻

惨遭“兄弟”封禁的腾讯元宝,干得过豆包千问吗?

头条要闻

牛弹琴:美又创造历史 一些美国人感叹"沦落到和俄一样"

头条要闻

牛弹琴:美又创造历史 一些美国人感叹"沦落到和俄一样"

体育要闻

铜牌与苏翊鸣的这四年,他说:我对得起自己

娱乐要闻

金晨处罚结果曝光!肇事逃逸被罚款

财经要闻

金银震荡144小时 大爷大妈排队「抄底」

汽车要闻

工信部公告落地 全新腾势Z9GT焕新升级

态度原创

房产
家居
数码
游戏
艺术

房产要闻

新春三亚置业,看过这个热盘再说!

家居要闻

现代轻奢 温馨治愈系

数码要闻

1.26亿只猫狗!中国进入全员养宠时代 三大宠物家电卖疯了

从07年运营到现在,为什么《穿越火线》还能保持不错的热度?

艺术要闻

浓艳的静物花卉,英国当代画家Emma Dunbar

无障碍浏览 进入关怀版