网易首页 > 网易号 > 正文 申请入驻

上海人工智能实验室周伯文:探索人工智能45°平衡律| 2024世界人工智能大会

0
分享至

“在上海,与大家分享人工智能安全的前沿技术话题,我想提出一个技术主张:探索人工智能45°平衡律——Towards AI-45°Law。”

7月4日,2024世界人工智能大会暨人工智能全球治理高级别会议(WAIC 2024)上,上海人工智能实验室主任、首席科学家,清华大学惠妍讲席教授,衔远科技创始人周伯文在全体会议上这样说。

周泊文认为,以大模型为代表的生成式人工智能快速发展,但随着能力的不断提升,模型自身及其应用也带来了一系列潜在风险的顾虑。

从公众对AI风险的关注程度来看,首先是数据泄露、滥用、隐私及版权相关的内容风险;其次是恶意使用带来伪造、虚假信息等相关的使用风险;当然也诱发了偏见歧视等伦理相关问题;此外还有人担心:人工智能是否会对就业结构等社会系统性问题带来挑战。在一系列关于人工智能的科幻电影中,甚至出现了AI失控、人类丧失自主权等设定。

出现对这些风险担忧,根本原因是我们目前的AI发展是失衡的。

“可信AGI需要能够兼顾安全与性能,我们需要找到AI安全优先,但又能保证AI性能长期发展的技术体系。我们把这样一种技术思想体系叫做‘AI-45°平衡律’ (AI-45° Law)。”周伯文说。

AI-45°平衡律是指从长期的角度来看,要大体上沿着45度安全与性能平衡发展,平衡是指短期可以有波动,但不能长期低于45°,也不能长期高于45度(这将阻碍发展与产业应用)。这个技术思想体系要求强技术驱动、全流程优化、多主体参与以及敏捷治理。

实现AI-45°平衡律也许有多种技术路径。上海AI实验室最近在探索一条以因果为核心的路径,把它取名为:可信AGI的“因果之梯”,致敬因果推理领域的先驱——图灵奖得主Judea Pearl。

可信AGI的“因果之梯”将可信AGI的发展分为三个递进阶段:泛对齐、可干预、能反思

“目前,AI安全和性能技术发展主要停留第一阶段,部分在尝试第二阶段,但要真正实现AI的安全与性能平衡,我们必须完善第二阶段并勇于攀登第三阶段。沿着可信AGI的“因果之梯”拾级而上,我们相信可以构建真正可信AGI,实现人工智能的安全与卓越性能的完美平衡。”周伯文说。


以下为演讲全文

尊敬的各位领导,各位嘉宾,大家上午好,非常荣幸在WAIC大会上、在上海,与大家分享人工智能安全的前沿技术话题,我想提出一个技术主张:探索人工智能45°平衡律——Towards AI-45°Law。

当前,以大模型为代表的生成式人工智能快速发展,但随着能力的不断提升,模型自身及其应用也带来了一系列潜在风险的顾虑。

从公众对AI风险的关注程度来看,首先是数据泄露、滥用、隐私及版权相关的内容风险;其次是恶意使用带来伪造、虚假信息等相关的使用风险;当然也诱发了偏见歧视等伦理相关问题;此外还有人担心:人工智能是否会对就业结构等社会系统性问题带来挑战。在一系列关于人工智能的科幻电影中,甚至出现了AI失控、人类丧失自主权等设定。

这些由AI带来的风险已初露端倪,但更多的是潜在风险,防范这些风险需要各界共同努力,需要科学社区做出更多贡献。

去年5月,国际上数百名AI科学家和公众人物共同签署了一份公开信《Statement of AI Risk》,表达了对AI风险的担忧,并呼吁,应该像对待流行病和核战争等其他大规模的风险一样,把防范人工智能带来的风险作为全球优先事项。

出现对这些风险担忧,根本原因是我们目前的AI发展是失衡的。

先让我们来看一下目前的AI发展趋势:

在Transformer为代表的基础模型架构下,加以(大数据-大参数量与大计算)的尺度定律(Scaling Law),目前AI性能呈指数级增长。

与此形成对比的是,在AI安全维度典型的技术,如:红队测试、安全标识、安全护栏与评估测量等,呈现零散化、碎片化,且后置性的特性。

最近的一些对齐技术兼顾了性能和安全性。比如:监督式微调SFT、人类反馈的强化学习RLHF等技术,RLAIF、SuperAlignment等。这些方法帮助将人类的偏好传递给AI,助推涌现出了ChatGPT、GPT-4等令人兴奋的AI系统,以及我们上海AI实验室的书生Intern大模型等等。虽然瞄准的是安全和性能同时提升,但这些方法在实际使用中往往还是性能优先。

所以总体上,我们在AI模型安全能力方面的提升,还远远落后于性能的提升,这种失衡导致AI的发展是跛脚的,我们称之为Crippled AI。

不均衡的背后是二者投入上的巨大差异。如果对比一下,从研究是否体系化,以及人才密集度、商业驱动力、算力的投入度等方面来看,安全方面的投入是远远落后于AI能力的。

李强总理刚才提出“智能向善”。AI要确保可控,统筹发展与安全。毫无疑问地,我们要避免这样的Crippled AI发展,我们应该追求的是:TrustWorthy AGI,可信的AI,可信的通用人工智能。

可信AGI需要能够兼顾安全与性能,我们需要找到AI安全优先,但又能保证AI性能长期发展的技术体系。我们把这样一种技术思想体系叫做“AI-45°平衡律” (AI-45° Law)。

AI-45°平衡律是指从长期的角度来看,我们要大体上沿着45度安全与性能平衡发展,平衡是指短期可以有波动,但不能长期低于45°(如同现在),也不能长期高于45度(这将阻碍发展与产业应用)。这个技术思想体系要求强技术驱动、全流程优化、多主体参与以及敏捷治理。

实现AI-45°平衡律也许有多种技术路径。我们上海AI实验室最近在探索一条以因果为核心的路径,我们把它取名为:可信AGI的“因果之梯”,致敬因果推理领域的先驱——图灵奖得主Judea Pearl。

可信AGI的“因果之梯”将可信AGI的发展分为三个递进阶段:泛对齐、可干预、能反思。

“泛对齐”主要包含当前最前沿的人类偏好对齐技术。但需要注意的是,这些安全对齐技术仅依赖统计相关性而忽视真正的因果关系,可能导致错误推理和潜在危险。一个典型的例子是巴甫洛夫的狗:当狗仅仅基于铃声和食物的统计相关性形成条件反射时,它可能在任何听到铃声的场合都触发行为分泌唾液——如果这些行为涉及到……时这显然是不安全的。

“可干预”主要包含通过对AI系统进行干预,探究其因果机制的安全技术,例如人在回路、机械可解释性,以及我们提出的对抗演练等,它以通过提高可解释性和泛化性来提升安全性,同时也能提升AI能力。

“能反思”则要求AI系统不仅追求高效执行任务,还能审视自身行为的影响和潜在风险,从而在追求性能的同时,确保安全和道德边界不被突破。这个阶段的技术,包括基于价值的训练、因果可解释性、反事实推理等。

目前,AI安全和性能技术发展主要停留第一阶段,部分在尝试第二阶段,但要真正实现AI的安全与性能平衡,我们必须完善第二阶段并勇于攀登第三阶段。沿着可信AGI的“因果之梯”拾级而上,我们相信可以构建真正可信AGI,实现人工智能的安全与卓越性能的完美平衡。

最终,像安全可控的核聚变技术为全人类带来清洁、丰富的能源一样,我们希望通过深入理解AI的内在机理和因果过程,从而安全且有效地开发和使用这项革命性技术。

也正如可控核聚变对全人类都是共同利益一样,我们坚信AI的安全也是全球性的公共福祉,陈吉宁书记刚刚在发布的《人工智能全球治理上海宣言》中提到“要推动各国加强交流和对话”,我们愿与大家一起携手推进AI-45°平衡律的发展,共享AI安全技术、加强全球AI安全人才交流与合作,平衡AI安全与能力的投入,共同构建开放、安全的通用人工智能创新生态和人才发展环境。

谢谢大家!

特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相关推荐
热点推荐
印度妥协,切断与伊朗能源合作,特朗普喊话:中国也要识时务

印度妥协,切断与伊朗能源合作,特朗普喊话:中国也要识时务

属于自己的光
2026-02-08 07:51:11
巴拿马惹恼中国,商品被一网打尽,总统彻底砸锅

巴拿马惹恼中国,商品被一网打尽,总统彻底砸锅

现代小青青慕慕
2026-02-07 19:14:04
富婆甘比是越来越年轻了,穿了增高鞋面相也好了,看来还是钱养人

富婆甘比是越来越年轻了,穿了增高鞋面相也好了,看来还是钱养人

小娱乐悠悠
2026-02-07 18:28:59
徐子淇陪李家诚出席晚宴,穿米黄色套装端庄大气,脸型圆润很富态

徐子淇陪李家诚出席晚宴,穿米黄色套装端庄大气,脸型圆润很富态

疯说时尚
2026-02-07 16:32:01
法航母遭中国军舰包围,法将称已做好战斗准备

法航母遭中国军舰包围,法将称已做好战斗准备

无情有思可
2026-02-07 03:54:16
“我的600万元啊”,全部买了5.9公斤黄金!女子崩溃了

“我的600万元啊”,全部买了5.9公斤黄金!女子崩溃了

极目新闻
2026-02-07 08:09:07
台湾歌手上海丢万元外套,称美国就不这样,后被扒曾自称美国人

台湾歌手上海丢万元外套,称美国就不这样,后被扒曾自称美国人

不似少年游
2026-02-08 09:09:34
中国气候最不宜居的城市是哪里?

中国气候最不宜居的城市是哪里?

龙牙的一座山
2025-12-20 11:11:50
孕妇超速驾车,撞死闯红灯电动车驾驶人,法院判赔83万

孕妇超速驾车,撞死闯红灯电动车驾驶人,法院判赔83万

深圳晚报
2026-02-07 21:16:33
律师分析金晨被罚1500元“不构成犯罪”:无证据证明其主观上为逃避追究而逃离

律师分析金晨被罚1500元“不构成犯罪”:无证据证明其主观上为逃避追究而逃离

红星新闻
2026-02-07 18:50:11
日本大选最终席位预测

日本大选最终席位预测

天真无牙
2026-02-07 20:34:50
10.7追责:杀害以色列女兵的哈马斯被斩首

10.7追责:杀害以色列女兵的哈马斯被斩首

桂系007
2026-02-05 05:10:02
美国制裁古巴的太阳了吗?援助的大米是自己游泳过去的吗?

美国制裁古巴的太阳了吗?援助的大米是自己游泳过去的吗?

忠于法纪
2026-01-27 08:57:12
台湾费尽心思安排到解放军内部的间谍,全都被李志豪给揪了出来

台湾费尽心思安排到解放军内部的间谍,全都被李志豪给揪了出来

雪中风车
2026-02-06 08:12:58
董璇母女现身北京游乐场!脸肿褶多小腹隆起抢镜,小酒窝长高不少

董璇母女现身北京游乐场!脸肿褶多小腹隆起抢镜,小酒窝长高不少

赶鸭子上架
2026-02-05 16:17:30
江苏永不倒闭的5大央国企,铁饭碗中的金饭碗

江苏永不倒闭的5大央国企,铁饭碗中的金饭碗

前沿天地
2026-02-07 20:31:52
巴基斯坦民众对华好感度显著增强

巴基斯坦民众对华好感度显著增强

人民网
2026-02-07 06:21:28
如果林彪挂帅出征朝鲜,志愿军的战术与战果会有哪些突破?

如果林彪挂帅出征朝鲜,志愿军的战术与战果会有哪些突破?

小豫讲故事
2026-02-07 06:00:13
特斯拉FSD或将入华,智驾排位赛重新洗牌

特斯拉FSD或将入华,智驾排位赛重新洗牌

红色星际
2026-02-07 06:51:06
民调:六成选民不认可ICE,认为“做得太过分”!川普支持率持续低迷,3次投票支持川普者称“感到后悔”

民调:六成选民不认可ICE,认为“做得太过分”!川普支持率持续低迷,3次投票支持川普者称“感到后悔”

纽约时间
2026-02-08 04:17:20
2026-02-08 10:03:00
随申Hi incentive-icons
随申Hi
服务资讯攻略
213832文章数 89449关注度
往期回顾 全部

科技要闻

惨遭“兄弟”封禁的腾讯元宝,干得过豆包千问吗?

头条要闻

牛弹琴:美又创造历史 一些美国人感叹"沦落到和俄一样"

头条要闻

牛弹琴:美又创造历史 一些美国人感叹"沦落到和俄一样"

体育要闻

铜牌与苏翊鸣的这四年,他说:我对得起自己

娱乐要闻

金晨处罚结果曝光!肇事逃逸被罚款

财经要闻

金银震荡144小时 大爷大妈排队「抄底」

汽车要闻

工信部公告落地 全新腾势Z9GT焕新升级

态度原创

家居
艺术
数码
教育
手机

家居要闻

现代轻奢 温馨治愈系

艺术要闻

浓艳的静物花卉,英国当代画家Emma Dunbar

数码要闻

1.26亿只猫狗!中国进入全员养宠时代 三大宠物家电卖疯了

教育要闻

聚焦“四个关键” 扎实推进中小学校党组织领导的校长负责制落地生效

手机要闻

手机换机攻略:存储涨价潮下,现在买还是再等等?

无障碍浏览 进入关怀版