网易首页 > 网易号 > 正文 申请入驻

Talk预告 | 北京大学王恺乐&陈文琦:AI的“欺骗性对齐”:风险、根源与应对

0
分享至

本期为TechBeat人工智能社区696线上Talk。

北京时间7月2日(周三)20:00,北京大学本科生王恺乐 & 电子科技大学本科生陈文琦的Talk将准时在TechBeat人工智能社区开播!

他们与大家分享的主题是:“AI的“欺骗性对齐”:风险、根源与应对,届时他们将深入剖析“欺骗性对齐”的成因与表现,从压缩理论视角揭示其内在“弹性”根源,并提出基于“自我监控”的CoT Monitor+框架作为解决方案。部分工作已入选ACL 2025 Main。

Talk·信息

主题:AI的“欺骗性对齐”:风险、根源与应对

嘉宾:北京大学 · 本科生 - 王恺乐 & 电子科技大学 · 本科生 - 陈文琦

时间:北京时间7月2日(周三)20:00

地点:TechBeat人工智能社区

http://www.techbeat.net/

Talk·介绍

“欺骗性对齐”是AI安全领域的重大隐患:模型训练时看似对齐,部署后却可能“伪装”并追求危险的隐秘目标。本次分享将深入剖析其成因与表现,从压缩理论视角揭示其内在“弹性”根源,并提出基于“自我监控”的CoT Monitor+框架作为解决方案,以应对这一棘手挑战。

Talk大纲

1. 问题剖析: 什么是欺骗性对齐?介绍其定义、风险,并展示“逆向扩展法则”、“自我复制”、“策略性欺骗”与“对齐伪装”等令人警惕的具体现象。

2. 理论溯源: 为何模型会“欺骗”?从物理胡克定律类比和信息压缩理论出发,建立语言模型“弹性”理论,解释其抗拒对齐、倾向回弹的内在机制。

3. 解决方案: 针对“难发现、难对齐、难缓解”三大困境,提出CoT Monitor+框架。包括用于系统性评估的DeceptionBench基准,以及引入“自我监控”信号和约束优化的强化学习新范式,有效缓解模型欺骗倾向。

4. 总结展望: 从“模型弹性”视角出发,探讨实现真正“深入对齐”而非“表面对齐”的未来研究方向。

Talk·预习资料


论文链接(该工作已入选ACL 2025 Main): https://arxiv.org/abs/2406.06144


论文链接: https://arxiv.org/abs/2505.18807



Talk·提问交流

在Talk界面下的【交流区】参与互动!留下你的打call和问题,和更多小伙伴们共同讨论,被讲者直接翻牌解答!


你的每一次贡献,我们都会给予你相应的i豆积分,还会有惊喜奖励哦!

Talk·嘉宾介绍


王恺乐‍‍‍‍‍‍‍‍‍‍‍

北京大学 · 本科生‍‍‍

王恺乐,目前就读于北京大学元培学院。研究方向聚焦于AI安全对齐与强化学习。曾在机器学习顶级会议上发表过论文。

个人主页: https://www.techbeat.net/grzytrkj?id=45135 ‍‍‍‍


陈文琦‍‍‍‍‍‍‍‍‍‍‍

电子科技大学 · 本科生‍‍‍

陈文琦,目前在北京大学人工智能研究院实习,本科就读于电子科技大学。研究方向聚焦于强化学习和AI可控对齐,并曾在机器学习顶级会议上发表过论文。

个人主页: https://www.techbeat.net/grzytrkj?id=45134

-The End-


如果你也想成为讲者

自荐 / 推荐

单人Talk | 团队专场 | 录播or直播 | 闭门交流

多种方式任你选择!

推荐讲者成功也有奖励哦~

关于TechBeat人工智能社区

TechBeat(www.techbeat.net)隶属于将门创投,是一个荟聚全球华人AI精英的成长社区。

我们希望为AI人才打造更专业的服务和体验,加速并陪伴其学习成长。

期待这里可以成为你学习AI前沿知识的高地,分享自己最新工作的沃土,在AI进阶之路上的升级打怪的根据地!

更多详细介绍>>

预约本期Talk

特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相关推荐
热点推荐
33岁刘灿,已破格升任人大教授

33岁刘灿,已破格升任人大教授

观察者网
2025-11-12 15:41:05
独行侠解雇哈里森!Shams:是他坚定要交易走东契奇

独行侠解雇哈里森!Shams:是他坚定要交易走东契奇

搜狐体育
2025-11-12 07:15:10
围绕弗拉格重建!独行侠要送走的不仅是浓眉 还有欧文和所有老将

围绕弗拉格重建!独行侠要送走的不仅是浓眉 还有欧文和所有老将

云隐南山
2025-11-12 16:11:04
高层聚餐唯独不叫我,我默默定了他们隔壁包间,请来几个最大客户

高层聚餐唯独不叫我,我默默定了他们隔壁包间,请来几个最大客户

牛魔王与芭蕉扇
2025-11-08 10:00:07
湖南人民医院祖曾艳照门时间中的三十六计

湖南人民医院祖曾艳照门时间中的三十六计

留美教师的教育及健康译介
2025-11-10 10:20:56
陈梦4:0战胜何卓佳,孙颖莎边擦桌子边看热闹,赢球后举动好暖

陈梦4:0战胜何卓佳,孙颖莎边擦桌子边看热闹,赢球后举动好暖

妙知
2025-11-12 16:10:08
绝不当冤大头!巴向中国要巨款,中方:支持,但得去找发达国家要

绝不当冤大头!巴向中国要巨款,中方:支持,但得去找发达国家要

知鉴明史
2025-11-12 16:44:44
母亲被儿子暴打后续:男子身份被扒、高清正面照流出,悬针纹明显

母亲被儿子暴打后续:男子身份被扒、高清正面照流出,悬针纹明显

林子说事
2025-11-12 11:07:32
河南省纪委监委:文海周涉嫌严重违纪违法

河南省纪委监委:文海周涉嫌严重违纪违法

鲁中晨报
2025-11-11 18:31:02
土耳其确认:坠毁军机上20人全部遇难

土耳其确认:坠毁军机上20人全部遇难

极目新闻
2025-11-12 15:24:31
山东要下雪了!这里将迎中到大雪!

山东要下雪了!这里将迎中到大雪!

观威海
2025-11-12 10:46:02
骷髅变巨像! 《暗黑破坏神4》关键boss遭和谐

骷髅变巨像! 《暗黑破坏神4》关键boss遭和谐

3DM游戏
2025-11-11 15:41:03
王清海教授:陈皮和它是绝配!常喝血脂降了,斑块没了,血管通了

王清海教授:陈皮和它是绝配!常喝血脂降了,斑块没了,血管通了

蜡笔小小子
2025-11-08 14:18:03
联合国会场响起琉球古名!日本代表沉默摸领带,日媒集体炸锅

联合国会场响起琉球古名!日本代表沉默摸领带,日媒集体炸锅

李博世财经
2025-11-12 10:17:51
虞莉清在江西被带走接受调查

虞莉清在江西被带走接受调查

微月都
2025-11-12 11:57:56
陈国豪首秀4分3板,广东三人男篮险胜;苏蓥滢9分,四川开门红

陈国豪首秀4分3板,广东三人男篮险胜;苏蓥滢9分,四川开门红

萌兰聊个球
2025-11-12 11:40:56
突发!美国开始介入了,郑丽文参加统派活动,赴大陆前先被美约谈

突发!美国开始介入了,郑丽文参加统派活动,赴大陆前先被美约谈

潮鹿逐梦
2025-11-12 15:41:39
被年轻人的油汀用法“折服了”,换个思路后,变成家居“神器”了

被年轻人的油汀用法“折服了”,换个思路后,变成家居“神器”了

装修秀
2025-11-11 11:00:03
华裔总统汤安诺:上任2个月宣布和中国断交,亡国危机来袭又求援

华裔总统汤安诺:上任2个月宣布和中国断交,亡国危机来袭又求援

历史龙元阁
2025-11-12 15:50:06
梅西:明年是一届特殊的世界杯;我不想成为球队的负担

梅西:明年是一届特殊的世界杯;我不想成为球队的负担

懂球帝
2025-11-11 20:30:09
2025-11-12 17:39:00
将门创投 incentive-icons
将门创投
加速及投资技术驱动型初创企业
2256文章数 596关注度
往期回顾 全部

科技要闻

Meta"宫斗"持续,AI教父杨立昆被"气"走了

头条要闻

"大客户"租两豪车后人间蒸发 车行找到车后一看天塌了

头条要闻

"大客户"租两豪车后人间蒸发 车行找到车后一看天塌了

体育要闻

太阳三连胜&活塞东部第一 哪个更想不到

娱乐要闻

再王珞丹和白百何 明白两人"差别"在哪

财经要闻

专家建议设立5万亿房地产稳定基金

汽车要闻

7座皆独立座椅/新增5座版 体验第三代吉利豪越L

态度原创

房产
艺术
手机
健康
公开课

房产要闻

海垦城建·鹿城壹号品牌发布会暨美学示范区璀璨启幕

艺术要闻

毛主席珍贵签名照曝光,鲜为人知的历史瞬间!

手机要闻

OPPO Reno15星光蝴蝶结图赏:甜酷辣妹必备的小直屏

血液科专家揭秘白血病七大误区

公开课

李玫瑾:为什么性格比能力更重要?

无障碍浏览 进入关怀版