网易首页 > 网易号 > 正文 申请入驻

研究人员提出AI对齐新方法,通过交互式分解改善人类提供反馈过程

0
分享至

AI 对齐(AI alignment)是目前大模型训练与优化过程中不可或缺的环节,目前广泛使用的方法包括基于人类反馈的强化学习(RLHF,Reinforcement Learning from Human Feedback)和直接偏好优化(DPO,Direct Preference Optimization),都需要收集高质量的人类偏好反馈数据。然而,现有界面要求标注者直接对比长篇文本,这种方式在认知上具有挑战性,特别是当文本较长或内容不熟悉时,用户往往无法精细地阅读、记忆所有内容以及识别文本中的所有差异,导致反馈质量不高,从而影响到 AI 对齐的质量。


(来源:资料图)

目前尚未有研究提出如何系统地改善这类反馈质量。在近期一项研究之中,人机交互学者史丹青博士从用户反馈的角度进行展开,希望解决的核心问题是:

• 如何提升人类反馈(特别是长篇文本比较场景)的准确性和质量?

• 如何减少用户在提供反馈过程中的认知负担和出错率?

为此,他和所在团队提出并采用了“分解原则”[2],这是指将复杂的问题分解成更小、更容易判断的单一信息点,分别对每个组成部分进行判断,然后将各组成部分的预测结合起来,得出最终预测结果。这种方法旨在简化复杂任务为, 在处理不确定性或复杂情况时特别有用,从而提高反馈质量。

据介绍,本研究基于分解原则提出了 DxHF 的方法,通过“交互式分解”的方式改善人类提供反馈的过程。具体成果包括:

• 交互式分解技术:将长篇文本分解成简洁易读的单个陈述,方便用户快速浏览和对比。

• 视觉辅助用户界面:通过对每个陈述信息进行相关性评分,并以视觉不透明度编码突出重点信息,同时连接语义相似的陈述信息,帮助用户快速识别关键差异。


(来源:资料图)

实验中的关键发现包括:DxHF 显著提高了用户反馈的准确性(平均提高约 5%),特别是在用户对判断结果不确定时,准确性提升更明显(约 6.4%);虽然略微增加了反馈用时,但能有效提高决策信心并降低用户认知负担。

据介绍,整个研究过程可以分为三个主要阶段:

第一阶段包括研究问题定义与理论方法探索。研究团队对大模型对齐中收集高质量反馈数据困难的问题进行了深入的文献回顾和需求分析,从人机交互角度出发,明确提出要探索一种新型用户界面技术,以降低用户的认知负担,提升反馈质量。在确定研究方向之后,研究团队查阅大量辅助人类决策的相关文献,定位到了有助于人们作出更加准确的判断的“分解原则”。受此启发,研究团队提出将文本分解为独立的、易于理解的简单陈述信息,从而使反馈的比较过程变得更加容易掌握。

第二阶段为技术实现与界面设计。基于分解原则,研究团队通过反复的内部讨论、原型设计与迭代,测试了一系列交互界面。这一阶段涉及到大量具体的设计决策,比如如何准确地将长句分解为单一的语义单元,如何突出显示最关键的部分,以及如何将两组相似文本之间的语义联系直观呈现出来。在正式投入实验前,团队也进行了大量的设计尝试、前期预研与消融实验测试,希望清晰又不失整体性地呈现完整的分解信息。


(来源:资料图)

第三阶段为技术仿真与实验验证。在投入正式的用户实验之前,研究团队通过仿真对技术进行评估。仿真过程中使用 AI 来模拟真实用户,通过调整 AI 用户的“理性程度”,研究人员清晰地看到了分解技术在不同决策能力用户中起到了积极的作用。随后研究团队实施了一项大规模的在线众包实验,超过 160 名参与者通过网络众包平台参与,提供真实的反馈数据。研究人员从众包实验数据中观察到明显的效果:DxHF 不仅显著提高了用户的反馈准确性,也帮助用户提升了决策信心。

在设计讨论过程中,项目面临如何同时兼顾文本整体性的理解与细节性的分析的问题。最终的设计灵感来自于一次研讨会上桌边的折叠宣传手册,他们发现可以通过折叠与拉伸的方法展示信息。于是,该团队借用该物理交互的隐喻来设计界面,不仅保留了整体阅读的完整性,也让用户可以自由地深入细节。在开展用户实验时,研究团队特别留意到参与者对这一设计的反应。参与者反馈了自己对于反馈中自由选择比较方式的偏好,对简单的问题比较无需展开细节减少了繁杂的信息负荷,而对复杂比较任务通过展开能够自由地探索更深层次的信息。


(来源:资料图)

审稿人认为本研究所关注问题与当前 AI 领域关注的热点具有很强的相关性,其指出研究团队从人机交互的视角入手,探索如何缓解人类在 AI 对齐过程中所面临的复杂认知任务,并认为该方向十分具有前景。同时,审稿人认为本研究提出的方法不仅对 AI 对齐中高质量数据标注这一具体问题具有重要贡献,对长篇文本对比任务中人所面临的认知挑战方面具备更广泛的应用潜力,能够进一步拓展至其他需要用户快速做出多文本对比判断的场景,诸如法律文书比对、政策比较等信息检索和决策辅助领域中发挥作用,这些领域均对文本的精细比对提出了极高要求。

预计该方法可以广泛用于改进目前面向 AI 对齐的人类反馈数据采集流程,帮助构建更可靠、更符合人类偏好的大语言模型。另据悉,该项目的论文被用户界面软件与技术研讨会(UIST,User Interface Software and Technology)2025 接收,据了解 UIST 是是人机交互领域的顶会之一,将于 2025 年 9 月于韩国釜山召开,该会议方向主要集中在用户界面软件与硬件技术的创新。


图 | 史丹青(来源:sdq.github.io)

本次论文的作者史丹青博士目前就职于英国剑桥大学工程系,担任副研究员(博士后),从事人智交互(Human-AI Interaction)的研究。此前,他曾就职于芬兰人工智能中心,博士毕业于同济大学,本科毕业于华东师范大学。他的研究致力于“让 AI 更懂人”,包含对人类行为计算建模与 AI 的交互式对齐。其学术成果多次获得人机交互与可视化领域顶级会议 CHI2025、CHI2024、PacificVis24 等最佳论文提名奖。

他与芬兰 Aalto 的 Antti Oulasvirta 教授和瑞典 KTH 的 Tino Weinkauf 教授组成的研究团队在人智交互领域长期合作,在该研究之前他们已经积累了一系列面向机器人领域的交互式 AI 对齐研究工作,包括通过交互式调节奖励函数来控制 Agent 的动作行为 [2],以及运用层次分组可视化技术提升 AI 对齐的效率 [3]。这次工作的重心则是希望将交互式 AI 对齐的工作从机器人领域扩展到大模型的应用中。


(来源:资料图)


图 | 运用层次分组可视化技术提升对齐的效率 [4](来源:资料图)

与此同时,本次研究项目是他在瑞士苏黎世联邦理工研究访问期间完成的,合作方的是 Mennatallah El-Assady 教授与程富瑞博士。Mennatallah El-Assady 教授和程富瑞博士在交互式机器学习和可解释性机器学习,尤其是在大模型的交互式文本分析上有着大量的研究积累,这次合作将双方团队的优势加以有效结合,成功地将交互式 AI 对齐用于了大模型的文本分析。

参考资料:

1.Shi, Danqing, Furui Cheng, Tino Weinkauf, Antti Oulasvirta, and Mennatallah El-Assady. DxHF: Providing High-Quality Human Feedback for LLM Alignment via Interactive Decomposition. To appear in UIST 2025.

2.Scott Armstrong, William B Denniston Jr, and Matt M Gordon. 1975. The use of the decomposition principle in making judgments.Organizational behavior and human performance14, 2 (1975), 257–263.

3.Shi, Danqing, Shibei Zhu, Tino Weinkauf, and Antti Oulasvirta. Interactive Reward Tuning: Interactive Visualization for Preference Elicitation. In 2024 IEEE/RSJ International Conference on Intelligent Robots and Systems (IROS), pp. 9254-9261. IEEE, 2024.

4.Kompatscher, Jan, Danqing Shi, Giovanna Varni, Tino Weinkauf, and Antti Oulasvirta. Interactive Groupwise Comparison for Reinforcement Learning from Human Feedback. arXiv preprint arXiv:2507.04340 (2025).

特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相关推荐
热点推荐
凌晨4:00,皇马再战本菲卡,2亿巨星复出,穆里尼奥能否再演奇迹

凌晨4:00,皇马再战本菲卡,2亿巨星复出,穆里尼奥能否再演奇迹

郝小小看体育
2026-02-17 06:55:26
虎口救羊!2026年的第一场硬仗,中方严厉警告,立威之战已打响?

虎口救羊!2026年的第一场硬仗,中方严厉警告,立威之战已打响?

史智文道
2026-01-30 22:36:38
上海外资大跌30%,占比反而更高?真相太反直觉

上海外资大跌30%,占比反而更高?真相太反直觉

流苏晚晴
2026-02-16 17:46:01
3个亿砸给一个网红,换来14年牢饭,这个富二代到底哪儿疯了?

3个亿砸给一个网红,换来14年牢饭,这个富二代到底哪儿疯了?

流云随风去远方
2026-01-25 08:49:43
中戏风波持续发酵!王鑫在职期间3人免试入编,易烊千玺饱受质疑

中戏风波持续发酵!王鑫在职期间3人免试入编,易烊千玺饱受质疑

陈意小可爱
2026-02-16 02:25:04
高市将访华消息一出,中日航线骤减,中方开始算总账

高市将访华消息一出,中日航线骤减,中方开始算总账

清欢百味
2026-02-15 23:12:34
王菲当年在大理被堵,推开李嫣自己冲向人堆的视频,你们谁还记得

王菲当年在大理被堵,推开李嫣自己冲向人堆的视频,你们谁还记得

西楼知趣杂谈
2026-02-11 22:13:21
行家预言:到2030年,房价将是现在4-5倍,真的假的?

行家预言:到2030年,房价将是现在4-5倍,真的假的?

巢客HOME
2026-02-17 05:05:03
易梦玲一双金灿灿的大灯,明艳晃眼

易梦玲一双金灿灿的大灯,明艳晃眼

吃瓜党二号头目
2026-02-13 08:13:30
解放军报:一名战士给父母打电话聊天,多说了些部队的情况,主动找指导员承认错误

解放军报:一名战士给父母打电话聊天,多说了些部队的情况,主动找指导员承认错误

上观新闻
2026-02-14 17:16:03
唐嫣在国外很豪放!穿连体衣下面不系扣,难道不好好穿衣就时髦?

唐嫣在国外很豪放!穿连体衣下面不系扣,难道不好好穿衣就时髦?

蓓小西
2026-01-05 09:12:05
越南不恨美国,不恨日本,就连殖民几十年的法国都不恨,只恨中国

越南不恨美国,不恨日本,就连殖民几十年的法国都不恨,只恨中国

安安说
2026-01-06 11:48:33
马斯克:编程或将在今年消亡

马斯克:编程或将在今年消亡

界面新闻
2026-02-15 14:15:44
李凯馨:原来“大粗腿”才是性感天花板!

李凯馨:原来“大粗腿”才是性感天花板!

白色得季节
2026-02-03 13:20:01
3年大合同+全家迁居!张本智和官宣震撼抉择,日本队慌了

3年大合同+全家迁居!张本智和官宣震撼抉择,日本队慌了

卿子书
2026-02-02 08:59:31
马伊琍做梦也想不到,43岁姚笛走了和文章一样的路,实现口碑暴涨

马伊琍做梦也想不到,43岁姚笛走了和文章一样的路,实现口碑暴涨

秋姐居
2026-02-07 09:36:47
徐峥陶红的女儿,真是一点都没遗传陶红的美貌,和徐峥长得太像了

徐峥陶红的女儿,真是一点都没遗传陶红的美貌,和徐峥长得太像了

小老头奇闻
2026-01-06 09:01:41
川南曾存在过一条黄泉路,如今已被禁止进入,当地村民:有来无回

川南曾存在过一条黄泉路,如今已被禁止进入,当地村民:有来无回

古怪奇谈录
2025-08-22 10:01:46
无法认同!“民族英雄”追封,我们究竟该以何种标准衡量?

无法认同!“民族英雄”追封,我们究竟该以何种标准衡量?

会跳的加菲猫
2026-02-17 09:18:05
终于有个日本将军说实话,如今中日局势:再打仗,日本可能就没了

终于有个日本将军说实话,如今中日局势:再打仗,日本可能就没了

霁寒飘雪
2026-02-15 09:27:53
2026-02-17 12:00:49
DeepTech深科技 incentive-icons
DeepTech深科技
麻省理工科技评论独家合作
16276文章数 514615关注度
往期回顾 全部

科技要闻

春晚这些机器人是怎样做到的?

头条要闻

蔡磊一家三口出镜送祝福 儿子将手放在他手上轻轻抚摸

头条要闻

蔡磊一家三口出镜送祝福 儿子将手放在他手上轻轻抚摸

体育要闻

谷爱凌:'不小心"拿到了银牌 祝大家马年大吉

娱乐要闻

春晚三大感人瞬间:周深于和伟上榜

财经要闻

大年初一,这三件事很不寻常

汽车要闻

问界M6更多信息:乾崑智驾ADS4.0+鸿蒙座舱5.0

态度原创

时尚
艺术
健康
公开课
军事航空

今年春天最流行的4组配色,过年穿时髦又高级!

艺术要闻

这幅字调查百人,无人识别,竟如此难懂!

转头就晕的耳石症,能开车上班吗?

公开课

李玫瑾:为什么性格比能力更重要?

军事要闻

慕安会美国角色逆转 中国议题"打满全场"

无障碍浏览 进入关怀版