网易首页 > 网易号 > 正文 申请入驻

研究人员提出AI对齐新方法,通过交互式分解改善人类提供反馈过程

0
分享至

AI 对齐(AI alignment)是目前大模型训练与优化过程中不可或缺的环节,目前广泛使用的方法包括基于人类反馈的强化学习(RLHF,Reinforcement Learning from Human Feedback)和直接偏好优化(DPO,Direct Preference Optimization),都需要收集高质量的人类偏好反馈数据。然而,现有界面要求标注者直接对比长篇文本,这种方式在认知上具有挑战性,特别是当文本较长或内容不熟悉时,用户往往无法精细地阅读、记忆所有内容以及识别文本中的所有差异,导致反馈质量不高,从而影响到 AI 对齐的质量。

目前尚未有研究提出如何系统地改善这类反馈质量。在近期一项研究之中,人机交互学者史丹青博士从用户反馈的角度进行展开,希望解决的核心问题是:

• 如何提升人类反馈(特别是长篇文本比较场景)的准确性和质量?

• 如何减少用户在提供反馈过程中的认知负担和出错率?

为此,他和所在团队提出并采用了“分解原则”[2],这是指将复杂的问题分解成更小、更容易判断的单一信息点,分别对每个组成部分进行判断,然后将各组成部分的预测结合起来,得出最终预测结果。这种方法旨在简化复杂任务为, 在处理不确定性或复杂情况时特别有用,从而提高反馈质量。

据介绍,本研究基于分解原则提出了 DxHF 的方法,通过“交互式分解”的方式改善人类提供反馈的过程。具体成果包括:

• 交互式分解技术:将长篇文本分解成简洁易读的单个陈述,方便用户快速浏览和对比。

• 视觉辅助用户界面:通过对每个陈述信息进行相关性评分,并以视觉不透明度编码突出重点信息,同时连接语义相似的陈述信息,帮助用户快速识别关键差异。

实验中的关键发现包括:DxHF 显著提高了用户反馈的准确性(平均提高约 5%),特别是在用户对判断结果不确定时,准确性提升更明显(约 6.4%);虽然略微增加了反馈用时,但能有效提高决策信心并降低用户认知负担。

据介绍,整个研究过程可以分为三个主要阶段:

第一阶段包括研究问题定义与理论方法探索。研究团队对大模型对齐中收集高质量反馈数据困难的问题进行了深入的文献回顾和需求分析,从人机交互角度出发,明确提出要探索一种新型用户界面技术,以降低用户的认知负担,提升反馈质量。在确定研究方向之后,研究团队查阅大量辅助人类决策的相关文献,定位到了有助于人们作出更加准确的判断的“分解原则”。受此启发,研究团队提出将文本分解为独立的、易于理解的简单陈述信息,从而使反馈的比较过程变得更加容易掌握。

第二阶段为技术实现与界面设计。基于分解原则,研究团队通过反复的内部讨论、原型设计与迭代,测试了一系列交互界面。这一阶段涉及到大量具体的设计决策,比如如何准确地将长句分解为单一的语义单元,如何突出显示最关键的部分,以及如何将两组相似文本之间的语义联系直观呈现出来。在正式投入实验前,团队也进行了大量的设计尝试、前期预研与消融实验测试,希望清晰又不失整体性地呈现完整的分解信息。

第三阶段为技术仿真与实验验证。在投入正式的用户实验之前,研究团队通过仿真对技术进行评估。仿真过程中使用 AI 来模拟真实用户,通过调整 AI 用户的“理性程度”,研究人员清晰地看到了分解技术在不同决策能力用户中起到了积极的作用。随后研究团队实施了一项大规模的在线众包实验,超过 160 名参与者通过网络众包平台参与,提供真实的反馈数据。研究人员从众包实验数据中观察到明显的效果:DxHF 不仅显著提高了用户的反馈准确性,也帮助用户提升了决策信心。

在设计讨论过程中,项目面临如何同时兼顾文本整体性的理解与细节性的分析的问题。最终的设计灵感来自于一次研讨会上桌边的折叠宣传手册,他们发现可以通过折叠与拉伸的方法展示信息。于是,该团队借用该物理交互的隐喻来设计界面,不仅保留了整体阅读的完整性,也让用户可以自由地深入细节。在开展用户实验时,研究团队特别留意到参与者对这一设计的反应。参与者反馈了自己对于反馈中自由选择比较方式的偏好,对简单的问题比较无需展开细节减少了繁杂的信息负荷,而对复杂比较任务通过展开能够自由地探索更深层次的信息。

审稿人认为本研究所关注问题与当前 AI 领域关注的热点具有很强的相关性,其指出研究团队从人机交互的视角入手,探索如何缓解人类在 AI 对齐过程中所面临的复杂认知任务,并认为该方向十分具有前景。同时,审稿人认为本研究提出的方法不仅对 AI 对齐中高质量数据标注这一具体问题具有重要贡献,对长篇文本对比任务中人所面临的认知挑战方面具备更广泛的应用潜力,能够进一步拓展至其他需要用户快速做出多文本对比判断的场景,诸如法律文书比对、政策比较等信息检索和决策辅助领域中发挥作用,这些领域均对文本的精细比对提出了极高要求。

预计该方法可以广泛用于改进目前面向 AI 对齐的人类反馈数据采集流程,帮助构建更可靠、更符合人类偏好的大语言模型。另据悉,该项目的论文被用户界面软件与技术研讨会(UIST,User Interface Software and Technology)2025 接收,据了解 UIST 是是人机交互领域的顶会之一,将于 2025 年 9 月于韩国釜山召开,该会议方向主要集中在用户界面软件与硬件技术的创新。

本次论文的作者史丹青博士目前就职于英国剑桥大学工程系,担任副研究员(博士后),从事人智交互(Human-AI Interaction)的研究。此前,他曾就职于芬兰人工智能中心,博士毕业于同济大学,本科毕业于华东师范大学。他的研究致力于“让 AI 更懂人”,包含对人类行为计算建模与 AI 的交互式对齐。其学术成果多次获得人机交互与可视化领域顶级会议 CHI2025、CHI2024、PacificVis24 等最佳论文提名奖。

他与芬兰 Aalto 的 Antti Oulasvirta 教授和瑞典 KTH 的 Tino Weinkauf 教授组成的研究团队在人智交互领域长期合作,在该研究之前他们已经积累了一系列面向机器人领域的交互式 AI 对齐研究工作,包括通过交互式调节奖励函数来控制 Agent 的动作行为 [2],以及运用层次分组可视化技术提升 AI 对齐的效率 [3]。这次工作的重心则是希望将交互式 AI 对齐的工作从机器人领域扩展到大模型的应用中。

与此同时,本次研究项目是他在瑞士苏黎世联邦理工研究访问期间完成的,合作方的是 Mennatallah El-Assady 教授与程富瑞博士。Mennatallah El-Assady 教授和程富瑞博士在交互式机器学习和可解释性机器学习,尤其是在大模型的交互式文本分析上有着大量的研究积累,这次合作将双方团队的优势加以有效结合,成功地将交互式 AI 对齐用于了大模型的文本分析。

参考资料:

1.Shi, Danqing, Furui Cheng, Tino Weinkauf, Antti Oulasvirta, and Mennatallah El-Assady. DxHF: Providing High-Quality Human Feedback for LLM Alignment via Interactive Decomposition. To appear in UIST 2025.

2.Scott Armstrong, William B Denniston Jr, and Matt M Gordon. 1975. The use of the decomposition principle in making judgments.Organizational behavior and human performance14, 2 (1975), 257–263.

3.Shi, Danqing, Shibei Zhu, Tino Weinkauf, and Antti Oulasvirta. Interactive Reward Tuning: Interactive Visualization for Preference Elicitation. In 2024 IEEE/RSJ International Conference on Intelligent Robots and Systems (IROS), pp. 9254-9261. IEEE, 2024.

4.Kompatscher, Jan, Danqing Shi, Giovanna Varni, Tino Weinkauf, and Antti Oulasvirta. Interactive Groupwise Comparison for Reinforcement Learning from Human Feedback. arXiv preprint arXiv:2507.04340 (2025).

特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相关推荐
热点推荐
关于明天的重要提醒!

关于明天的重要提醒!

钧言堂
2026-06-02 22:22:04
天赐的大长腿

天赐的大长腿

乡野小珥
2026-06-04 15:56:36
河南女孩高考故意交白卷,怒写8000字抨击教育制度,后来怎样了?

河南女孩高考故意交白卷,怒写8000字抨击教育制度,后来怎样了?

莫地方
2026-06-04 01:55:05
世界上最流行的软件,快被AI冲垮了!

世界上最流行的软件,快被AI冲垮了!

码农翻身
2026-05-29 08:59:05
133票强行通过!匈投票结果公布,毛焦尔掀桌子,第一枪打向总统

133票强行通过!匈投票结果公布,毛焦尔掀桌子,第一枪打向总统

小小科普员
2026-06-04 14:54:48
凌晨卡点发动态,晒三冠又宣代言,樊振东这一夜,信息量很大

凌晨卡点发动态,晒三冠又宣代言,樊振东这一夜,信息量很大

酷侃体坛
2026-06-03 22:18:34
瞒了整整三个月!伊朗终于官宣大事,局势已彻底尘埃落定?

瞒了整整三个月!伊朗终于官宣大事,局势已彻底尘埃落定?

一网打尽全球焦点
2026-06-03 02:53:45
美国专家坦言:中国在中越战争中得到的东西,瞒过了全世界

美国专家坦言:中国在中越战争中得到的东西,瞒过了全世界

阿晭评论哥
2026-05-25 10:56:54
12年前,那个美国抓捕未果,入籍俄罗斯的斯诺登,如今过得怎样?

12年前,那个美国抓捕未果,入籍俄罗斯的斯诺登,如今过得怎样?

就一点
2026-03-08 23:09:47
1-4不敌欧洲劲旅,日本遭遇土伦杯首败,连续2轮不胜

1-4不敌欧洲劲旅,日本遭遇土伦杯首败,连续2轮不胜

侧身凌空斩
2026-06-03 23:07:44
为何啤酒厂从不禁止员工偷喝?老板揭秘:再贪嘴,最多撑一周

为何啤酒厂从不禁止员工偷喝?老板揭秘:再贪嘴,最多撑一周

老特有话说
2026-05-16 17:52:16
70万海归挤破头回国,一句“我们不承认”打回原形,董明珠说对了

70万海归挤破头回国,一句“我们不承认”打回原形,董明珠说对了

大鱼简科
2026-06-04 14:55:45
四川2名干部任市委常委

四川2名干部任市委常委

金台资讯
2026-06-04 13:00:46
1969年许世友为王近山求情,毛主席打趣:放虎归山,哪个军区敢要

1969年许世友为王近山求情,毛主席打趣:放虎归山,哪个军区敢要

磊子讲史
2026-05-26 18:56:24
绿茶被发现!医生:喝得越多,高血脂患者血管或越干净?真假?

绿茶被发现!医生:喝得越多,高血脂患者血管或越干净?真假?

医学科普汇
2026-06-03 21:20:03
陕西男子爬山失联超10天!背包被捡到,手机已经格式化,家属发声

陕西男子爬山失联超10天!背包被捡到,手机已经格式化,家属发声

青橘罐头
2026-06-04 07:47:56
全面升级!曼联中场锋线双线补强提速,身价6000万边路悍将坚决加盟

全面升级!曼联中场锋线双线补强提速,身价6000万边路悍将坚决加盟

宝哥精彩赛事
2026-06-04 19:26:09
全体致敬!37岁窦骁高调官宣喜讯,“豪门赘婿”已经彻底翻篇

全体致敬!37岁窦骁高调官宣喜讯,“豪门赘婿”已经彻底翻篇

翰飞观事
2026-06-04 09:40:32
王学成1983年驾机叛逃到台湾,邓丽君前去接见他时低声耳语

王学成1983年驾机叛逃到台湾,邓丽君前去接见他时低声耳语

唠叨说历史
2026-06-01 17:58:53
国羽3连败!混双新组合被逆转,2项剩独苗,李诗沣惨败,被轰21-6

国羽3连败!混双新组合被逆转,2项剩独苗,李诗沣惨败,被轰21-6

刘姚尧的文字城堡
2026-06-04 19:50:41
2026-06-04 21:11:00
DeepTech深科技 incentive-icons
DeepTech深科技
麻省理工科技评论独家合作
16794文章数 514996关注度
往期回顾 全部

科技要闻

历史最大IPO!马斯克下周冲击万亿富豪

头条要闻

92岁老人地铁口摆摊卖书 给病妻翻译的故事成其代表作

头条要闻

92岁老人地铁口摆摊卖书 给病妻翻译的故事成其代表作

体育要闻

欧冠决赛躺赢?他也曾是大巴黎的英雄

娱乐要闻

难怪奚梦瑶能嫁入豪门

财经要闻

SpaceX发行价135美元 6月12日上市交易

汽车要闻

北京现代5月销量强势反弹:国内17065辆 出口环比翻倍

态度原创

游戏
亲子
数码
艺术
公开课

官方确认《漫威金刚狼》纯线性!没有开放世界和蜘蛛侠

亲子要闻

科普丨宝宝人生第一场“考试”:听力筛查,您准备好了吗

数码要闻

618快乐屋进化指南! DIY装备限时直降,颜值性能一步到位

艺术要闻

唐寅『梅花册』

公开课

李玫瑾:为什么性格比能力更重要?

无障碍浏览 进入关怀版