网易首页 > 网易号 > 正文 申请入驻

OpenAI华人VP翁荔离职:北大校友,掌管安全,最近B站分享被热议

0
分享至

金磊 发自 凹非寺
量子位 | 公众号 QbitAI

就在刚刚,那个掌管OpenAI安全的北大校友,OpenAI研究副总裁(安全)翁荔,离职了。

翁荔是OpenAI华人科学家、ChatGPT的贡献者之一。

北大毕业后,翁荔在2018年加入OpenAI,后来在GPT-4项目中主要参与预训练、强化学习和对齐、模型安全等方面的工作。

最著名的Agent公式也由她提出,即:Agent=大模型+记忆+主动规划+工具使用

而就在前不久,她还刚刚现身2024 Bilibili 超级科学晚活动,发表了《AI安全与“培养”之道》的主题演讲。

在她宣布离职消息之后,包括OpenAI在内的众多同事发来了祝福:

翁荔的离职信

在推文中,翁荔也分享了他跟团队做的最后的道别。

以下为离职信的完整内容。

亲爱的朋友们:

我做出了一个非常艰难的决定,将于11月15日离开OpenAI,这将是我在公司最后一天。

OpenAI是我成长为科学家和领导者的地方,我将永远珍惜在这里与每一位共事的伙伴度过的时光。OpenAI团队一直是我的知己、导师以及我身份的一部分。

我仍然记得2017年初加入OpenAI时的那份好奇和热情。当时我们是一群怀抱着不可能与科幻未来梦想的人。

我在这里开始了我的全栈机器人挑战之旅——从深度强化学习算法,到感知,再到固件开发——目标是教会一个简单的机械手如何解开魔方。这花费了整个团队两年时间,但最终我们成功了。

当OpenAI进入GPT领域时,我们开始探索如何将最先进的AI模型应用于现实世界。我建立了第一个应用研究团队,推出了初始版本的微调API、嵌入API和审核端点,为应用安全工作奠定了基础,还为早期的API客户开发了许多新颖的解决方案。

在GPT-4发布后,我被要求承担新的挑战,重新考虑OpenAI的安全系统愿景,并将所有工作集中到一个负责整个安全体系的团队。

这是我经历过的最困难、最紧张又令人兴奋的事情之一。如今,安全系统团队拥有超过80位出色的科学家、工程师、项目经理、政策专家,我为我们作为一个团队所取得的一切成就感到极为自豪。

我们见证了每次发布的核心——从GPT-4及其视觉和Turbo版本,到GPT Store、语音功能以及01版本。我们在训练这些模型以达到负责任和有益的目标上设立了新的行业标准。

我特别为我们最新的成就o1预览版感到自豪,它是我们迄今为止最安全的模型,展现了出色的抗破解能力,同时保持了模型的有用性。

我们的集体成就令人瞩目:

  • 我们训练模型如何处理敏感或不安全的请求,包括何时拒绝或不拒绝,并通过遵循一套明确的模型安全行为政策,达成安全与实用之间的良好平衡。
  • 我们在每次模型发布中提升了对抗性鲁棒性,包括针对破解的防御、指令层次结构,并通过推理大幅增强了鲁棒性。
  • 我们设计了严格且富有创意的测试方法,使模型与《准备框架》保持一致,并为每个前沿模型进行了全面的安全测试和红队测试。
  • 我们在详细的模型系统卡中强化了对透明性的承诺。
  • 我们开发了业内领先的审核模型,具有多模式能力,并免费向公众共享。我们当前在一个更通用的监控框架和增强安全推理能力的方向上工作,将赋能更多的安全工作流。
  • 我们为安全数据日志、度量、仪表盘、主动学习管道、分类器部署、推理时间过滤以及一种新的快速响应系统奠定了工程基础。

回顾我们所取得的成就,我为安全系统团队的每一个人感到无比自豪,并极为确信这个团队将继续蓬勃发展。我爱你们。

在OpenAI的七年之后,我准备好重新出发,探索一些新的领域。OpenAI正沿着火箭般的轨迹前进,我衷心祝愿这里的每一个人一切顺利。

附注:我的博客将继续更新。我或许会有更多时间来更新它 & 可能也会有更多时间编写代码 。

爱你们的,
Lilian

铁打的OpenAI,流水的安全主管

自OpenAI成立以来,安全主管这个关键职位历经多次更替。

最早在2016年,OpenAI的安全主管由达里奥·阿莫代伊(Dario Amodei)担任,在他的领导下,安全系统团队专注于减少现有模型和产品的滥用风险,尤其是围绕GPT-3的安全性开展了深入研究。

阿莫代伊主导了GPT-3的全面安全评估,以确保模型在发布前经过严格的安全测试和评估,最大限度地降低潜在的滥用风险。

他在OpenAI的工作为后来人工智能的安全治理奠定了重要基础。

2021年,阿莫代伊离开OpenAI创立了Anthropic公司,继续致力于人工智能的安全研究,推动构建更具可信度和安全性的AI模型。

在阿莫代伊之后,还有短暂任职2个月的安全主管,亚历山大·马德里(Aleksander Madry)。

他在职期间主要聚焦对新模型的能力进行评估,并开展内部红队测试,以识别和缓解潜在的安全风险。

虽然他的任期较短,但他在红队测试和威胁预测上的重要推进,为OpenAI的安全实践提供了新的视角和方法论。

在2023年7月后,马德里转而专注于“AI推理”方面的工作,离开了安全主管的职位。

在他之后的第三位安全主管,则是杨·莱克(Jan Leike),在2023年7月至2024年5月担任这一职务,和Ilya一起领导“超级对齐”项目,目标是在四年内解决超智能AI的对齐问题。

在此期间,杨·莱克推动了使用小型模型监督和评估大型模型的研究,开创了对超人类能力模型进行实证对齐的新方法。

这种方法对于理解和应对高级人工智能模型的行为具有深远影响。

然而,由于与公司在安全和产品优先级上的分歧,杨·莱克于2024年5月宣布离职。

尽管如此,他在对齐研究方面的贡献,为后续人工智能的可控性研究奠定了理论和实践基础。

而翁荔则是于2024年7月担任OpenAI安全主管。

关于翁荔

翁荔是OpenAI华人科学家、ChatGPT的贡献者之一,本科毕业于北大,在印第安纳大学伯明顿分校攻读博士。

毕业之后的翁荔先是短暂的在Facebook实习了一段时间,第一份工作则是就职于Dropbox,担任软件工程师。

她于2018年加入OpenAI,在GPT-4项目中主要参与预训练、强化学习和对齐、模型安全等方面的工作。

在OpenAI去年底成立的安全顾问团队中,翁荔领导安全系统团队(Safety Systems),解决减少现有模型如ChatGPT滥用等问题。

翁荔在Google Scholar的引用量也达到了13000+次。

此前她提出的提出LLM外在幻觉(extrinsic hallucination)的博文也是非常火爆。

翁荔重点关注外在幻觉,讨论了三个问题:产生幻觉的原因是什么?幻觉检测,抵抗幻觉的方法。

关于研究的细节,可以点击这里查看:万字blog详解抵抗办法、产幻原因和检测方式。

至于翁荔离职后的去向,量子位也会保持持续的关注。

参考链接:
[1]https://x.com/lilianweng/status/1855031273690984623
[2]https://www.linkedin.com/in/lilianweng/

特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相关推荐
热点推荐
38岁德约快哭了 长时间埋头 眼含热泪受访:重返澳网决赛太不真实

38岁德约快哭了 长时间埋头 眼含热泪受访:重返澳网决赛太不真实

我爱英超
2026-01-30 23:19:40
特朗普听取多种打击伊朗方案

特朗普听取多种打击伊朗方案

每日经济新闻
2026-01-30 12:56:54
刘强东母亲让人泪目,她和奶茶妹妹根本就不是同一个世界的人!

刘强东母亲让人泪目,她和奶茶妹妹根本就不是同一个世界的人!

小娱乐悠悠
2026-01-30 08:58:00
1970年江青哥哥带儿子来北京,江青得知对方想见自己后:这事难办

1970年江青哥哥带儿子来北京,江青得知对方想见自己后:这事难办

南书房
2026-01-31 06:00:10
特朗普这回踩到“地雷”了,犹太集团突然下场,伊朗不打也得打了

特朗普这回踩到“地雷”了,犹太集团突然下场,伊朗不打也得打了

去山野间追风
2026-01-31 09:31:27
本菲卡能做到吗?皇马队史唯一一次无缘欧冠16强在1962年

本菲卡能做到吗?皇马队史唯一一次无缘欧冠16强在1962年

懂球帝
2026-01-30 20:54:47
这算不算是顶级阳谋?修建厦金大桥台当局不同意,我们是照修不误

这算不算是顶级阳谋?修建厦金大桥台当局不同意,我们是照修不误

百态人间
2026-01-29 16:04:26
CCTV5直播!中国金花冲澳网冠军 赢球=197万奖金 数据证明稳夺冠

CCTV5直播!中国金花冲澳网冠军 赢球=197万奖金 数据证明稳夺冠

侃球熊弟
2026-01-31 00:40:03
每年报废百万吨!旧铁轨为啥不回收重铸,而是用土埋掉?

每年报废百万吨!旧铁轨为啥不回收重铸,而是用土埋掉?

心中的麦田
2026-01-28 20:56:41
国家下狠手了!体制内大地震,少爷、公主们的“天”,要塌了

国家下狠手了!体制内大地震,少爷、公主们的“天”,要塌了

霹雳炮
2026-01-19 22:24:13
一句话戳破牢A,不过是收割韭菜的最新一把镰刀

一句话戳破牢A,不过是收割韭菜的最新一把镰刀

壹家言
2026-01-30 21:48:40
全明星新秀赛对阵:G联赛队对阵拥有弗拉格和克林根的安东尼队

全明星新秀赛对阵:G联赛队对阵拥有弗拉格和克林根的安东尼队

懂球帝
2026-01-31 09:57:12
“继承权”无需再争!2026新规落地:父母房产按“这些规则”处理

“继承权”无需再争!2026新规落地:父母房产按“这些规则”处理

复转这些年
2026-01-27 03:00:03
廖锡龙将军去世!他曾怒骂谷俊山:我死都不怕,还怕一个贪官?

廖锡龙将军去世!他曾怒骂谷俊山:我死都不怕,还怕一个贪官?

帝哥说史
2026-01-29 22:15:39
回暖别急!辽宁2月天气走向如何?

回暖别急!辽宁2月天气走向如何?

辽宁卫视
2026-01-31 06:32:09
四分之一的以色列儿童生活在贫困线以下,月收入低于7940元每人

四分之一的以色列儿童生活在贫困线以下,月收入低于7940元每人

桂系007
2026-01-30 20:27:24
TOP14位身高170以上的女神,有颜有灯有演技

TOP14位身高170以上的女神,有颜有灯有演技

素然追光
2026-01-02 02:45:02
提前受死?美军公海挑衅中国海军,不料先手优势几秒内就丧失

提前受死?美军公海挑衅中国海军,不料先手优势几秒内就丧失

卷史
2026-01-28 10:32:16
大妈花50万买基金,账号忘了15年,孙子找回看到余额,全家愣住了

大妈花50万买基金,账号忘了15年,孙子找回看到余额,全家愣住了

黄家湖的忧伤
2025-08-12 17:05:12
糖尿病患者别自己吓自己了,若这4个指标正常,基本不会有并发症

糖尿病患者别自己吓自己了,若这4个指标正常,基本不会有并发症

健康之光
2026-01-23 11:25:06
2026-01-31 10:31:00
量子位 incentive-icons
量子位
追踪人工智能动态
12090文章数 176368关注度
往期回顾 全部

科技要闻

中国车企和特斯拉的下一战,战场已定

头条要闻

牛弹琴:战争脚步又逼近一些 真可能这个周末就见分晓

头条要闻

牛弹琴:战争脚步又逼近一些 真可能这个周末就见分晓

体育要闻

“假赌黑”的子弹,还要再飞一会儿吗?

娱乐要闻

成龙入驻小红书,怼脸近照没有老年斑

财经要闻

白银,暴跌!黄金,40年最大跌幅!

汽车要闻

合资品牌首搭800V/5C快充 东风日产NX8将于3、4月上市

态度原创

亲子
艺术
家居
公开课
军事航空

亲子要闻

这孩子……

艺术要闻

仅3秒认全14字草书,赵孟頫书法为何备受争议?

家居要闻

蓝调空舍 自由与个性

公开课

李玫瑾:为什么性格比能力更重要?

军事要闻

新西兰拒绝特朗普:不加入"和平委员会"

无障碍浏览 进入关怀版