网易首页

注册免费邮箱

网易首页 > 网易号 > 正文申请入驻

Talk预告 | 北京大学王恺乐&陈文琦：AI的“欺骗性对齐”：风险、根源与应对

2025-07-02 06:01:47　来源: 将门创投

北京举报

0

分享至

本期为TechBeat人工智能社区第696期线上Talk。

北京时间7月2日(周三)20:00，北京大学本科生王恺乐 & 电子科技大学本科生陈文琦的Talk将准时在TechBeat人工智能社区开播！

他们与大家分享的主题是:“AI的“欺骗性对齐”：风险、根源与应对，届时他们将深入剖析“欺骗性对齐”的成因与表现，从压缩理论视角揭示其内在“弹性”根源，并提出基于“自我监控”的CoT Monitor+框架作为解决方案。部分工作已入选ACL 2025 Main。

Talk·信息

主题：AI的“欺骗性对齐”：风险、根源与应对

嘉宾：北京大学 · 本科生 - 王恺乐 & 电子科技大学 · 本科生 - 陈文琦

时间：北京时间7月2日(周三)20:00

地点：TechBeat人工智能社区

http://www.techbeat.net/

Talk·介绍

“欺骗性对齐”是AI安全领域的重大隐患：模型训练时看似对齐，部署后却可能“伪装”并追求危险的隐秘目标。本次分享将深入剖析其成因与表现，从压缩理论视角揭示其内在“弹性”根源，并提出基于“自我监控”的CoT Monitor+框架作为解决方案，以应对这一棘手挑战。

Talk大纲

1. 问题剖析：什么是欺骗性对齐？介绍其定义、风险，并展示“逆向扩展法则”、“自我复制”、“策略性欺骗”与“对齐伪装”等令人警惕的具体现象。

2. 理论溯源：为何模型会“欺骗”？从物理胡克定律类比和信息压缩理论出发，建立语言模型“弹性”理论，解释其抗拒对齐、倾向回弹的内在机制。

3. 解决方案：针对“难发现、难对齐、难缓解”三大困境，提出CoT Monitor+框架。包括用于系统性评估的DeceptionBench基准，以及引入“自我监控”信号和约束优化的强化学习新范式，有效缓解模型欺骗倾向。

4. 总结展望：从“模型弹性”视角出发，探讨实现真正“深入对齐”而非“表面对齐”的未来研究方向。

Talk·预习资料

论文链接（该工作已入选ACL 2025 Main）： https://arxiv.org/abs/2406.06144

论文链接： https://arxiv.org/abs/2505.18807

Talk·提问交流

在Talk界面下的【交流区】参与互动！留下你的打call和问题，和更多小伙伴们共同讨论，被讲者直接翻牌解答！

你的每一次贡献，我们都会给予你相应的i豆积分，还会有惊喜奖励哦！

Talk·嘉宾介绍

王恺乐‍‍‍‍‍‍‍‍‍‍‍

北京大学 · 本科生‍‍‍

王恺乐，目前就读于北京大学元培学院。研究方向聚焦于AI安全对齐与强化学习。曾在机器学习顶级会议上发表过论文。

个人主页: https://www.techbeat.net/grzytrkj?id=45135 ‍‍‍‍

陈文琦‍‍‍‍‍‍‍‍‍‍‍

电子科技大学 · 本科生‍‍‍

陈文琦，目前在北京大学人工智能研究院实习，本科就读于电子科技大学。研究方向聚焦于强化学习和AI可控对齐，并曾在机器学习顶级会议上发表过论文。

个人主页: https://www.techbeat.net/grzytrkj?id=45134

-The End-

如果你也想成为讲者

自荐 / 推荐

单人Talk | 团队专场 | 录播or直播 | 闭门交流

多种方式任你选择！

推荐讲者成功也有奖励哦~

关于TechBeat人工智能社区

TechBeat(www.techbeat.net)隶属于将门创投，是一个荟聚全球华人AI精英的成长社区。

我们希望为AI人才打造更专业的服务和体验，加速并陪伴其学习成长。

期待这里可以成为你学习AI前沿知识的高地，分享自己最新工作的沃土，在AI进阶之路上的升级打怪的根据地！

更多详细介绍>>

预约本期Talk

特别声明：以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布，本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相关推荐

热点推荐

专访｜著名数学家丘成桐：人工智能想更进一步，必基于数学发展

每日经济新闻 2025-09-18 17:34:04
10 跟贴 10
GPT-5与Transformer共同发明人Lukasz Kaiser重磅加盟，2025全球机器学习技术大会全日程官宣！

钛媒体APP 2025-09-18 16:16:16
0 跟贴 0

刚刚,OpenAI在ICPC 2025编程赛上满分登顶,Gemini也达到金牌水平

机器之心Pro 2025-09-18 14:12:04
0 跟贴 0

马斯克的AI明星初创公司爆出“高管斗亲信”传闻官方回应

财联社 2025-09-18 22:56:25
4 跟贴 4
宇树科技：人形机器人已在工业巡检、电网电力等领域有一定应用

澎湃新闻 2025-09-18 07:00:27
350 跟贴 350

“全球最强AI数据中心”将收尾，微软又要砸40亿建2.0

华尔街见闻官方 2025-09-19 00:30:07
0 跟贴 0

新思科技中国30周年，引领AI智能体工程师重塑芯片设计范式

智东西 2025-09-18 22:37:18
0 跟贴 0
微软豪掷70余亿美元声称要在威斯康辛打造“世界最强AI数据中心”

财联社 2025-09-19 00:47:04
0 跟贴 0

电子科技大学怎么样？王牌专业好不好？跨学科培养，打造强竞争力

志愿集结号 2025-09-16 15:59:17
0 跟贴 0
电子科技大学好不好？跨学科培养优势，为学生搭好成长“跳板”

志愿集结号 2025-09-16 15:55:58
0 跟贴 0
“才聚遵义筑梦未来”——遵义市2025年秋季赴高校引才活动首站燃动成都理工大学

新浪财经 2025-09-19 00:05:40
0 跟贴 0
涉嫌严重违纪违法，北京大学副校长任羽中主动投案，目前正接受审查调查

环球网资讯 2025-09-17 16:16:47
1 跟贴 1
北大唯一80后副校长任羽中投案：一度曾被给予厚望

霹雳炮 2025-09-18 22:43:22
0 跟贴 0
育未来：北大TBI实验室与遂宁四中共启AI教育新篇章

四川民生信息 2025-09-18 16:35:03
0 跟贴 0
论文被指大量错误，武大杨某媛回复

猫meme团子 2025-09-16 07:34:32
0 跟贴 0
100多年前京师大学堂第一名的入学试卷你见过吗？

BRTV新闻 2025-09-16 20:41:47
0 跟贴 0
北大校史馆馆长：北京大学最大的特点，就是这120多年来与祖国同呼吸共命运

中国青年报 2025-09-15 23:12:15
0 跟贴 0
增147期北京各大医院诊疗特色

王大夫说健康 2025-09-18 18:37:24
0 跟贴 0
十年铸就辉煌路：北京大学十大卓越成就全景呈现

她不倾国倾城 2025-09-18 05:01:22
0 跟贴 0
外地女儿网购一套房子，寄到家乡以为是模型，结果老爸愣住看呆了

每日一笑铺 2025-09-17 11:43:30
1 跟贴 1
木板切割制作模型

奇遇叶辰 2025-09-17 18:18:05
1 跟贴 1
多家好莱坞公司起诉中国人工智能初创企业和几个美国的消息

北方老陈 2025-09-17 17:13:40
118 跟贴 118
妈妈给儿子买的摇晃碗，设计师是懂物理的，但一定不懂小孩！

说说搞笑说 2025-09-17 10:21:28
1 跟贴 1
“秦始皇遣使采药昆仑石刻”最新进展：国家文物局认定为秦代石刻

封面新闻 2025-09-15 12:32:15
21245 跟贴 21245
人工智能觉醒，从服务者变造物主，首只抱脸虫诞生

小茶放映 2025-09-14 23:33:45
9 跟贴 9
“本店无预制菜，现点现做”，知名餐厅撤下现做招牌

大象新闻 2025-09-17 22:33:01
18374 跟贴 18374
当人工智能叛变后，会不会反杀人类

柒柒看剧 2025-09-15 10:06:01
3 跟贴 3
台海特邀嘉宾自欺欺人，称阅兵的99B式坦克，只是一个模型

独舞生活 2025-09-18 10:57:23
0 跟贴 0
骆驼在沙漠只能吃柠檬，仙人球都能吃，物理攻击抵不过魔法攻击！

偏移街拍 2025-09-17 09:46:28
0 跟贴 0
突传消息！上海著名商场拆了，重大调整公告披露：地上重建30层新地标，投资“超级加倍”

上观新闻 2025-09-18 20:23:27
467 跟贴 467
国防部长董军：让矛盾纠葛、兵戈相向回归为生死与共

环球网资讯 2025-09-18 12:00:14
1335 跟贴 1335
孙颖莎将免试进清华读研 9月16日，清华大学社会科学学院对清华大学2026年社会科学学院接收优秀应届

板扎在线NEWS 2025-09-17 20:19:31
0 跟贴 0
计划投资35.5亿江苏一省级重点项目开工不到1年停工

澎湃新闻 2025-09-18 19:12:17
4680 跟贴 4680
重磅！华为发布多款昇腾AI芯片，2026年推出全球最强算力集群

通信世界 2025-09-18 16:18:00
6 跟贴 6
应届大学生因工资过低离职，却被告知要退回给公司2330元！单位回应：算错了，其实该员工有154元工资

FM93浙江交通之声 2025-09-18 12:50:34
1149 跟贴 1149
最新消息！武大杨某媛高调称回归正常生活，中国农大炮轰其论文

热风追逐者 2025-09-18 22:46:48
14 跟贴 14
“鸭中贵族”柯尔鸭跌落神坛：从上万元一只到100元2只

上游新闻 2025-09-18 13:48:07
506 跟贴 506
报名开启 | 北大光华“华人留学生知中国”学期访学项目

北京大学光华管理学院 2025-09-18 17:36:42
0 跟贴 0
物理考试中的一幕：在作弊?在做法?不!是在做物理试卷

河海观潮 2025-09-15 15:11:59
0 跟贴 0
歼-20S指挥无人机作战演示画面：敌机被第一时间击落

环球时报 2025-09-18 14:08:51
2061 跟贴 2061

东风导弹泄密案：间谍郭万钧一家三口，全部被处以死刑

东风导弹泄密案：间谍郭万钧一家三口，全部被处以死刑

冰点历史

2025-07-15 09:33:13

英伟达芯片在中国不再受欢迎监管部门已禁止科技公司采购

英伟达芯片在中国不再受欢迎监管部门已禁止科技公司采购

cnBeta.COM

2025-09-18 00:02:03

本周六起报名摇号，上海将发放第一轮“家电家居以旧换新”补贴资格券

本周六起报名摇号，上海将发放第一轮“家电家居以旧换新”补贴资格券

澎湃新闻

2025-09-18 21:34:34

清朝灭亡后，李莲英姐姐才敢说出实情：慈禧其实不是病死的！

清朝灭亡后，李莲英姐姐才敢说出实情：慈禧其实不是病死的！

蜉蝣说

2025-09-16 11:23:23

1988年授上将的17位将军，已经去世16位，唯一健在的是谁？

1988年授上将的17位将军，已经去世16位，唯一健在的是谁？

红色先驱

2025-09-18 19:45:05

离了?蒋勤勤低头落泪难掩悲伤,陈建斌眼缠纱布,20年夫妻互动反常

离了?蒋勤勤低头落泪难掩悲伤,陈建斌眼缠纱布,20年夫妻互动反常

八星人

2025-09-18 16:09:54

亚冠激烈冲突！20人互相扭打，球迷投掷杂物，比赛险被腰斩

亚冠激烈冲突！20人互相扭打，球迷投掷杂物，比赛险被腰斩

奥拜尔

2025-09-18 22:07:13

55岁窦唯已迁居阿那亚多年，骑电动车，买菜砍价，生活过得惬意

55岁窦唯已迁居阿那亚多年，骑电动车，买菜砍价，生活过得惬意

书雁飞史oh

2025-09-08 17:38:38

杜兰特17年买了比特币但忘了密码，期间比特币从1000涨到了11.7万美元

杜兰特17年买了比特币但忘了密码，期间比特币从1000涨到了11.7万美元

懂球帝

2025-09-18 10:36:28

《731》被打压的影评：知名媒体人过于深刻，一半已经删除

《731》被打压的影评：知名媒体人过于深刻，一半已经删除

光影新天地

2025-09-18 18:34:07

瓜迪奥拉：周日对阵阿森纳时极其艰巨的挑战，对哈兰德夸赞已词穷

瓜迪奥拉：周日对阵阿森纳时极其艰巨的挑战，对哈兰德夸赞已词穷

直播吧

2025-09-19 05:56:07

年薪400万！穆帅回归本菲卡，37岁老将主力难保：连续3场失误送礼

年薪400万！穆帅回归本菲卡，37岁老将主力难保：连续3场失误送礼

球场没跑道

2025-09-18 21:03:16

曾毅现身老家养病近照曝光！脸上长4个大包，3个月暴瘦20斤好憔悴

曾毅现身老家养病近照曝光！脸上长4个大包，3个月暴瘦20斤好憔悴

娱乐圈圈圆

2025-09-18 11:10:29

小县城的留守妇女，到底有多缺钱？

小县城的留守妇女，到底有多缺钱？

英军眼

2025-07-30 14:55:01

郝龙斌反悔不辩论，郭正亮叹：他当国民党主席一定是灾难

郝龙斌反悔不辩论，郭正亮叹：他当国民党主席一定是灾难

金牛传音

2025-09-18 17:03:39

太突然！男演员去世，年仅42岁！

太突然！男演员去世，年仅42岁！

FM93浙江交通之声

2025-09-17 15:15:47

十亿换一命？47岁蔡磊现状曝光，面色红润精神佳，6岁儿子牺牲大

十亿换一命？47岁蔡磊现状曝光，面色红润精神佳，6岁儿子牺牲大

以茶带书

2025-09-11 11:45:09

发现马上扔！一家四口吃了被放倒，医生：毒过砒霜，煮熟也没用

发现马上扔！一家四口吃了被放倒，医生：毒过砒霜，煮熟也没用

普陀动物世界

2025-09-18 10:20:35

俄方披露俄防长险遭暗杀行动细节：乌特工假扮老奶奶在汽车安炸弹，3人被当场抓捕

俄方披露俄防长险遭暗杀行动细节：乌特工假扮老奶奶在汽车安炸弹，3人被当场抓捕

扬子晚报

2025-09-18 20:15:22

香港黄金大劫案！警方将5900万港元的赃物全数追回，七人落网

香港黄金大劫案！警方将5900万港元的赃物全数追回，七人落网

极目新闻

2025-09-18 18:30:46

加速及投资技术驱动型初创企业

2221文章数 591关注度

往期回顾全部

科技要闻

xAI高层动荡：与马斯克顾问闹矛盾，多人离职

头条要闻

男子给小35岁情人转1340万妻子：第三者生活极度奢侈

头条要闻

男子给小35岁情人转1340万妻子：第三者生活极度奢侈

体育要闻

身高170的他，让196的博尔特坐不住了

娱乐要闻

最美央视才女，甩掉孙红雷嫁给张嘉益

财经要闻

起底多校“发臭午餐”供应商绿捷

汽车要闻

女神代言/新增配色/智能升级 26款腾势N9售38.98万起

态度原创

+arrTaiduYuanC[i].tag+' | '+arrTaiduYuanC[i].title+'
\

房产

旅游

健康

数码

教育

房产要闻

好猛！海南楼市，一批王炸楼盘杀出！

旅游要闻

热闻|清明假期将至，热门目的地有哪些?

内分泌科专家破解身高八大谣言

数码要闻

揭秘！Meta最新AI眼镜，用了多少颗艾为芯？

教育要闻

家里有情绪低谷的孩子？别急，转运的信号正在靠近

© 1997-2025 网易公司版权所有 About NetEase | 公司简介 | 联系方法 | 招聘信息 | 客户服务 | 隐私政策 | 不良信息举报 Complaint Center | 廉正举报 | 侵权投诉

无障碍浏览进入关怀版