网易首页 > 网易号 > 正文 申请入驻

OpenAI华人科学家翁荔:人类如何培养出下一代聪明且安全的AI技术|钛媒体AGI

0
分享至

AI 如何变得更加安全?

钛媒体App 11月3日消息,华人青年科学家、OpenAI研究副总裁(安全)翁荔(Lilian Weng)近期在2024Bilibili超级科学晚上发表主题为《AI 安全与“培养”之道》的演讲。这是其首次在国内发表关于 AI 技术的演讲。

翁荔表示,ChatGPT横空出世以来,AI技术如同搭乘了高速列车,迅速渗透并影响着人类。AI每天都在变化,需要我们用心引导、教育,确保是更好的服务于人类,同时确保安全。而一个既安全又智能的AI,无异于将为我们的生活带来诸多裨益。

具体来说,随着AI的智能化和自主化,确保其行为符合人类价值观变得重要,AI可能因偏见而变得狭隘,或因对抗性攻击而受到质疑。因此,需要用心引导AI,确保其服务于人类并确保安全,而AI安全是实现其潜在益处的基础,类似于自动驾驶技术。

从数据层面,提供多样、全面、正确的数据,可以减少AI的偏见,而依赖于多人标注的数据,以提高AI的准确性;同时,基于强化学习(RL)和基于人类反馈的强化学习(RLHF),通过奖惩机制训练AI,类似于训练小狗;此外,使用模型自我评价和详细的行为规则来提升AI的输出质量。比如,在文档写作和视频音乐制作中,普通人可以通过设定背景、角色思想和关键词来引导AI。

翁荔毕业于北京大学信息管理系,如今该系名为北京大学数字人文实验室,她是2005 级本科生,是“兜乐”项目的骨干设计人员,毕业后赴美攻读博士学位,曾就职于Facebook,如今是OpenAI华人科学家、ChatGPT的贡献者之一。

翁荔在2018年加入OpenAI,后来在GPT-4项目中主要参与预训练、强化学习&对齐、模型安全等方面的工作。她曾提出最著名的Agent公式——Agent=大模型+记忆+主动规划+工具使用。

翁荔在演讲中表示,人类需要教会AI安全基本原则和道德准则,使其成为人类的伙伴。同时,通过思维链(CoT)推理和扩展性研究来提升AI的可靠性和监督。

翁荔强调,AI安全需要每个人的参与,社区可以共同影响AI的成长。

“AI的安全不仅仅是研究者的责任,它需要每一个人的参与。AI 技术是一把双刃剑,它带来的便利和挑战并行,我们的参与至关重要。”翁荔称。

以下是翁荔演讲内容,经钛媒体AGI编辑整理:

大家好,我是翁荔。今天我想与大家探讨一个既深刻又有趣的话题,AI安全,以及我们如何像培养下一代一样,培育出既聪明又安全的人工智能。

继ChatGPT横空出世以来,AI技术如同搭乘了高速列车,迅速渗透并影响着我们的日常。

AI每天都在进化,需要我们用心引导与教育,以确保其更好地服务于人类,同时确保安全无虞。一个既安全又智能的AI无疑将为我们的生活带来诸多裨益。

试想一下,一个能洞察你生活习惯的智能家居系统,能根据你的需求自动调节室内温度和光线,或是一个时刻关注你健康状况的AI助手,能为你提供量身定制的健康建议。

AI不仅能显著提升我们的生活质量,还能开辟新的就业领域,提升工作效率。

然而,这一切均建立在AI安全的基础之上。正如自动驾驶技术一样,它能极大的提升生活便利性,但是一旦出错,后果可能不堪设想。

随着AI应用日益智能化与自主化,如何确保AI的行为符合人类价值观,真正做到以人为本,成为了AI安全与对齐研究的核心议题。人类在成长过程中会不断学习进步,但也会遇到成长的烦恼。AI同样如此,它可能会因为数据偏见而变得狭隘,也可能因为对抗性攻击而被恶意利用。

悉心教育,也就是AI安全和对其研究,才能使AI成长过程更加顺利。

让我们以健康领域的应用为例,很多疾病研究的数据往往以男性群体为主,这可能导致AI在处理女性的健康问题时风险评估不准确。此外数据本身也有可能存在偏见,比如有研究表明女性心脏病症状更容易被归结成焦虑等心理问题而造成诊断遗漏。因此,我们需要通过对AI安全和对其的研究来减少这种偏见。

AI学习的基础是数据,数据是它的实物,要想让AI变得聪明可靠,我们必须确保它营养均衡,也就是提供多样、全面、正确的数据,帮助它能够正确的理解这个复杂的世界并减少偏差。

在使用人类标注的数据时,我们可以依赖于群体智慧,也就是the wisdom of the crowd,即同一个数据点被多人标注多数票获胜,这种方法简单而有效。有意思的是,1907年的一篇自然科学杂志中的文章,作者追踪了一场年度展览会上的一个有趣的竞有奖竞猜。展览会上人们选出一头肥牛,让大家来猜测牛的重量,最接近真实数据的人将获得大额的奖金。

作者发现,最中间值往往是最接近真实的the medium value,而这个数估计值也被称为wax popular。它是拉丁语中the voice of the people,也就是人民的声音的意思。在这篇将近120年前的科学文章中,作者总结道,我认为这个结果比人们预期的更能证明民主判断的可信度。这也是最早提到群体智慧如何发生作用的科学文献。

而至于如何把高质量标注的数据喂给AI,基于人类反馈的强化学习,也就是RLHF技术起到了关键作用。

在了解RLHF之前,让我们快速了解一下什么是RL reinforce learning。强化学习是一种机器学习方法,它主要通过奖惩机制来让模型学会完成任务,而不是依靠直接告诉模型如何去做这些任务。想象一下它就好像你要训练小狗,如果小狗做对了一个动作,比如坐下你就给它一块骨头饼干,做错了就不给奖励。这样小狗就会因为想吃到更多的饼干,而学会如何正确的坐下。

同理,AI也在这种奖惩机制中学习,通过不断的尝试并得到反馈,找到最佳的行动策略。一个早期的研究表明,强化学习能利用少量人类反馈,快速有效的教会智能体做复杂的动作,比如学会如何后空翻。

同样的方法也可以用于训练大语言模型。当我们看到,针对同一问题的不同AI回答时,我们可以告诉模型,哪一个回答更好、更正确、更符合人类价值观。这样我们就像家长纠正孩子一样,能够调节AI的学习过程。

此外,我们还可以使用模型本身作为输出I输出质量的评分者。比如在entropic发表的constitutional AI中,模型就通过对自己行为的自我评价进行改进。或者像OpenAI最近发表的对齐强化学习中,我们可以制定非常详细的行为规则来告诉AI,比如如何何时拒绝用户的请求,如何表达同理心等等。然后我们在RL的奖励机制中,非常精准的来给予相应的评分和奖励。这个过程中,一个更加强大的AI有能力更精准的判断他是否有在遵循人类的价值观和行为准则。

总之,强化学习技术就像一把钥匙,帮助我们打开AI高质量学习和发展的大门。在培养AI更懂我们的过程中,普通人也能发挥重要的作用。

在文档写作,我们可以采用两个小技巧。首先设定详细的背景和角色,就像导演为演员准备剧本一样,让AI在丰富的情境中捕捉我们的意图。其次,精心挑选关键词,构建逻辑清晰的文档结构,使文档既美观又实用。

在视频音乐制作领域,我们可以通过使用专业术语来引导AI比如黄金分割构图或和弦进行将创意转化为现实。同时别忘了感情的投入,因为这是赋予灵作品灵魂的关键。

简而言之,通过细致的指导和情感的融入,我们可以帮助AI创作出既丰富又富有感染力的作品。

在西游记中,孙悟空有紧箍咒约束行为,我们应该给AI模型也带上紧箍咒,也就是教会AI安全基本准则约束和道德标准,让其遵守行为规范。以人类利益为先,成为我们贴心的伙伴,而不是冰冷的机器。

让AI学习基本原则和道德准则,可以使模型在面对复杂问题时运用推理得出正确的结论。

比如在OpenAI最近发表的o1-preview模型中,我们通过思维链推理,加强了模型的鲁棒性,Robust使得模型可以更好的抵抗越狱攻击。

扩展性监督在AI对其研究中也非常重要。随着AI模型扩大,需要结合自动化工具和人类监督,有效的监督其行为,确保它朝着正确的方向发展。在一组研究中,我们用监督学习训练语言模型,对网络文本摘要进行批评。比如提高提供这个摘要非常准确,或者这个摘要遗漏了要点等等。评论相比对照组,我们发现有AI帮助的标注员比没有帮助的能多。找出摘要中约50%的问题,而且多数批评都参考了模型提供的内容。总之,给AI设定标准并进行有效监督,可以提升它对人们的帮助。

其实,AI的安全不仅仅是研究者的责任,它需要每一个人的参与。

以B站为例,这个充满活力的社区聚集了众多AI爱好者和创作者,我们在这里分享见解、讨论问题,甚至监督AI的表现,共同影响着AI的成长。

我们每个人都应该成为AI的大家长,不仅监督和反馈AI的表现,还参与塑造一个安全可信的AI 世界。

AI技术是一个双刃剑,它带来了便利与挑战并行,我们的参与至关重要。让我们携手培养出一个既聪明又负责的AI伙伴。感谢大家的聆听,希望今天的分享能激发大家对于安全的热情和兴趣。也感谢B站提供这个平台,让我们共同为AI的未来贡献力量。

谢谢。

(本文首发于钛媒体App,作者|林志佳,编辑|胡润峰)

特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相关推荐
热点推荐
蔬菜也卖不动了?现在遇冷不好卖的3种菜,摊贩:懂行的人太多了

蔬菜也卖不动了?现在遇冷不好卖的3种菜,摊贩:懂行的人太多了

阿莱美食汇
2026-01-30 20:14:56
1-0,法甲争冠热门避免2连败,反超巴黎圣日耳曼队升至榜首

1-0,法甲争冠热门避免2连败,反超巴黎圣日耳曼队升至榜首

侧身凌空斩
2026-01-31 05:46:46
很多人以为殉葬就是把活人关进地宫,门一关,他们只能哭喊着等死

很多人以为殉葬就是把活人关进地宫,门一关,他们只能哭喊着等死

忠于法纪
2026-01-18 17:42:24
大S离世一周年,两个侄女登上ELLE杂志二月刊,像极刚出道的大小S

大S离世一周年,两个侄女登上ELLE杂志二月刊,像极刚出道的大小S

小娱乐悠悠
2026-01-30 09:06:05
男单四强产生!国乒三位球员止步八强,仅剩独苗,夺冠难度大

男单四强产生!国乒三位球员止步八强,仅剩独苗,夺冠难度大

湘楚风云
2026-01-31 02:12:06
澳方通告全球,强逼中企卖港口,我大使摊牌:中国不会忍气吞声

澳方通告全球,强逼中企卖港口,我大使摊牌:中国不会忍气吞声

王姐懒人家常菜
2026-01-31 07:01:03
深夜血洗!黄金突然闪崩?央行偷偷干大事,散户还在傻傻接盘?

深夜血洗!黄金突然闪崩?央行偷偷干大事,散户还在傻傻接盘?

亿通电子游戏
2026-01-30 11:58:27
斯塔默在上海致辞评价中国之行

斯塔默在上海致辞评价中国之行

阿离家居
2026-01-31 06:35:31
今起,开车到北京南站送人有大变化!

今起,开车到北京南站送人有大变化!

BRTV新闻
2026-01-30 15:30:26
改革升级?秦志戬新举动搅动国乒,王皓遭遇危机,马琳或被放弃

改革升级?秦志戬新举动搅动国乒,王皓遭遇危机,马琳或被放弃

忠橙家族
2026-01-30 20:37:56
自由身转投沙特联赛,古加社媒告别+致谢国安

自由身转投沙特联赛,古加社媒告别+致谢国安

懂球帝
2026-01-30 22:07:15
中超放开外援限制与组建企业队,中超全华班球队,你支持哪个方案

中超放开外援限制与组建企业队,中超全华班球队,你支持哪个方案

足球分析员
2026-01-30 11:05:03
总有人纳闷,王健林就算只剩100亿,为啥王思聪花钱还是那么大方

总有人纳闷,王健林就算只剩100亿,为啥王思聪花钱还是那么大方

小光侃娱乐
2025-12-10 22:10:04
68岁马良行重新出山:年龄不是问题,希望打造冠军体系

68岁马良行重新出山:年龄不是问题,希望打造冠军体系

澎湃新闻
2026-01-30 15:45:06
一天深夜,80多的胡妈妈抓着胡兵的手:放下瞿颖吧

一天深夜,80多的胡妈妈抓着胡兵的手:放下瞿颖吧

忠于法纪
2026-01-30 18:22:07
扎心了!原来只要失业,所有人都一样!网友分享越看越心凉 太难了

扎心了!原来只要失业,所有人都一样!网友分享越看越心凉 太难了

有趣的火烈鸟
2025-12-31 20:39:06
大龄剩女崩溃的瞬间是什么时候?网友:多年的舔狗突然结婚

大龄剩女崩溃的瞬间是什么时候?网友:多年的舔狗突然结婚

夜深爱杂谈
2026-01-20 18:56:34
李湘暴雷,被英国相关部门调查,如果洗钱罪名坐实,下场会很惨

李湘暴雷,被英国相关部门调查,如果洗钱罪名坐实,下场会很惨

大双
2026-01-27 09:43:03
白酒会被90后00后终结吗?这是我见过最简明易懂的答案!

白酒会被90后00后终结吗?这是我见过最简明易懂的答案!

夜深爱杂谈
2026-01-28 18:25:29
伊朗即将挨打前,中国的作用体现出来了,美航母刚到就被“封路”

伊朗即将挨打前,中国的作用体现出来了,美航母刚到就被“封路”

像梦一场a
2026-01-30 20:45:36
2026-01-31 08:35:00
钛媒体APP incentive-icons
钛媒体APP
独立财经科技媒体
129211文章数 861735关注度
往期回顾 全部

科技要闻

意念控制机器人不是科幻 1-2年就落地

头条要闻

特朗普听到"中英破冰"秒垮脸 失心疯的全过程被拍下

头条要闻

特朗普听到"中英破冰"秒垮脸 失心疯的全过程被拍下

体育要闻

“假赌黑”的子弹,还要再飞一会儿吗?

娱乐要闻

警方通报金晨交通事故,否认网传骗保

财经要闻

水贝惊雷:揭秘杰我睿百亿黄金赌局的背后

汽车要闻

合资品牌首搭800V/5C快充 东风日产NX8将于3、4月上市

态度原创

游戏
艺术
本地
亲子
公开课

向全体二游策划宣战,你们能不能直接把我推删了?

艺术要闻

惊艳!越南摄影师镜头下的妩媚女子!

本地新闻

云游中国|拨开云雾,巫山每帧都是航拍大片

亲子要闻

婴儿的性格是天生的吗?网友:还没生出来 大夫就说肚子里不是善茬

公开课

李玫瑾:为什么性格比能力更重要?

无障碍浏览 进入关怀版