网易首页 > 网易号 > 正文 申请入驻

研究人员提出AI对齐新方法,通过交互式分解改善人类提供反馈过程

0
分享至

AI 对齐(AI alignment)是目前大模型训练与优化过程中不可或缺的环节,目前广泛使用的方法包括基于人类反馈的强化学习(RLHF,Reinforcement Learning from Human Feedback)和直接偏好优化(DPO,Direct Preference Optimization),都需要收集高质量的人类偏好反馈数据。然而,现有界面要求标注者直接对比长篇文本,这种方式在认知上具有挑战性,特别是当文本较长或内容不熟悉时,用户往往无法精细地阅读、记忆所有内容以及识别文本中的所有差异,导致反馈质量不高,从而影响到 AI 对齐的质量。


(来源:资料图)

目前尚未有研究提出如何系统地改善这类反馈质量。在近期一项研究之中,人机交互学者史丹青博士从用户反馈的角度进行展开,希望解决的核心问题是:

• 如何提升人类反馈(特别是长篇文本比较场景)的准确性和质量?

• 如何减少用户在提供反馈过程中的认知负担和出错率?

为此,他和所在团队提出并采用了“分解原则”[2],这是指将复杂的问题分解成更小、更容易判断的单一信息点,分别对每个组成部分进行判断,然后将各组成部分的预测结合起来,得出最终预测结果。这种方法旨在简化复杂任务为, 在处理不确定性或复杂情况时特别有用,从而提高反馈质量。

据介绍,本研究基于分解原则提出了 DxHF 的方法,通过“交互式分解”的方式改善人类提供反馈的过程。具体成果包括:

• 交互式分解技术:将长篇文本分解成简洁易读的单个陈述,方便用户快速浏览和对比。

• 视觉辅助用户界面:通过对每个陈述信息进行相关性评分,并以视觉不透明度编码突出重点信息,同时连接语义相似的陈述信息,帮助用户快速识别关键差异。


(来源:资料图)

实验中的关键发现包括:DxHF 显著提高了用户反馈的准确性(平均提高约 5%),特别是在用户对判断结果不确定时,准确性提升更明显(约 6.4%);虽然略微增加了反馈用时,但能有效提高决策信心并降低用户认知负担。

据介绍,整个研究过程可以分为三个主要阶段:

第一阶段包括研究问题定义与理论方法探索。研究团队对大模型对齐中收集高质量反馈数据困难的问题进行了深入的文献回顾和需求分析,从人机交互角度出发,明确提出要探索一种新型用户界面技术,以降低用户的认知负担,提升反馈质量。在确定研究方向之后,研究团队查阅大量辅助人类决策的相关文献,定位到了有助于人们作出更加准确的判断的“分解原则”。受此启发,研究团队提出将文本分解为独立的、易于理解的简单陈述信息,从而使反馈的比较过程变得更加容易掌握。

第二阶段为技术实现与界面设计。基于分解原则,研究团队通过反复的内部讨论、原型设计与迭代,测试了一系列交互界面。这一阶段涉及到大量具体的设计决策,比如如何准确地将长句分解为单一的语义单元,如何突出显示最关键的部分,以及如何将两组相似文本之间的语义联系直观呈现出来。在正式投入实验前,团队也进行了大量的设计尝试、前期预研与消融实验测试,希望清晰又不失整体性地呈现完整的分解信息。


(来源:资料图)

第三阶段为技术仿真与实验验证。在投入正式的用户实验之前,研究团队通过仿真对技术进行评估。仿真过程中使用 AI 来模拟真实用户,通过调整 AI 用户的“理性程度”,研究人员清晰地看到了分解技术在不同决策能力用户中起到了积极的作用。随后研究团队实施了一项大规模的在线众包实验,超过 160 名参与者通过网络众包平台参与,提供真实的反馈数据。研究人员从众包实验数据中观察到明显的效果:DxHF 不仅显著提高了用户的反馈准确性,也帮助用户提升了决策信心。

在设计讨论过程中,项目面临如何同时兼顾文本整体性的理解与细节性的分析的问题。最终的设计灵感来自于一次研讨会上桌边的折叠宣传手册,他们发现可以通过折叠与拉伸的方法展示信息。于是,该团队借用该物理交互的隐喻来设计界面,不仅保留了整体阅读的完整性,也让用户可以自由地深入细节。在开展用户实验时,研究团队特别留意到参与者对这一设计的反应。参与者反馈了自己对于反馈中自由选择比较方式的偏好,对简单的问题比较无需展开细节减少了繁杂的信息负荷,而对复杂比较任务通过展开能够自由地探索更深层次的信息。


(来源:资料图)

审稿人认为本研究所关注问题与当前 AI 领域关注的热点具有很强的相关性,其指出研究团队从人机交互的视角入手,探索如何缓解人类在 AI 对齐过程中所面临的复杂认知任务,并认为该方向十分具有前景。同时,审稿人认为本研究提出的方法不仅对 AI 对齐中高质量数据标注这一具体问题具有重要贡献,对长篇文本对比任务中人所面临的认知挑战方面具备更广泛的应用潜力,能够进一步拓展至其他需要用户快速做出多文本对比判断的场景,诸如法律文书比对、政策比较等信息检索和决策辅助领域中发挥作用,这些领域均对文本的精细比对提出了极高要求。

预计该方法可以广泛用于改进目前面向 AI 对齐的人类反馈数据采集流程,帮助构建更可靠、更符合人类偏好的大语言模型。另据悉,该项目的论文被用户界面软件与技术研讨会(UIST,User Interface Software and Technology)2025 接收,据了解 UIST 是是人机交互领域的顶会之一,将于 2025 年 9 月于韩国釜山召开,该会议方向主要集中在用户界面软件与硬件技术的创新。


图 | 史丹青(来源:sdq.github.io)

本次论文的作者史丹青博士目前就职于英国剑桥大学工程系,担任副研究员(博士后),从事人智交互(Human-AI Interaction)的研究。此前,他曾就职于芬兰人工智能中心,博士毕业于同济大学,本科毕业于华东师范大学。他的研究致力于“让 AI 更懂人”,包含对人类行为计算建模与 AI 的交互式对齐。其学术成果多次获得人机交互与可视化领域顶级会议 CHI2025、CHI2024、PacificVis24 等最佳论文提名奖。

他与芬兰 Aalto 的 Antti Oulasvirta 教授和瑞典 KTH 的 Tino Weinkauf 教授组成的研究团队在人智交互领域长期合作,在该研究之前他们已经积累了一系列面向机器人领域的交互式 AI 对齐研究工作,包括通过交互式调节奖励函数来控制 Agent 的动作行为 [2],以及运用层次分组可视化技术提升 AI 对齐的效率 [3]。这次工作的重心则是希望将交互式 AI 对齐的工作从机器人领域扩展到大模型的应用中。


(来源:资料图)


图 | 运用层次分组可视化技术提升对齐的效率 [4](来源:资料图)

与此同时,本次研究项目是他在瑞士苏黎世联邦理工研究访问期间完成的,合作方的是 Mennatallah El-Assady 教授与程富瑞博士。Mennatallah El-Assady 教授和程富瑞博士在交互式机器学习和可解释性机器学习,尤其是在大模型的交互式文本分析上有着大量的研究积累,这次合作将双方团队的优势加以有效结合,成功地将交互式 AI 对齐用于了大模型的文本分析。

参考资料:

1.Shi, Danqing, Furui Cheng, Tino Weinkauf, Antti Oulasvirta, and Mennatallah El-Assady. DxHF: Providing High-Quality Human Feedback for LLM Alignment via Interactive Decomposition. To appear in UIST 2025.

2.Scott Armstrong, William B Denniston Jr, and Matt M Gordon. 1975. The use of the decomposition principle in making judgments.Organizational behavior and human performance14, 2 (1975), 257–263.

3.Shi, Danqing, Shibei Zhu, Tino Weinkauf, and Antti Oulasvirta. Interactive Reward Tuning: Interactive Visualization for Preference Elicitation. In 2024 IEEE/RSJ International Conference on Intelligent Robots and Systems (IROS), pp. 9254-9261. IEEE, 2024.

4.Kompatscher, Jan, Danqing Shi, Giovanna Varni, Tino Weinkauf, and Antti Oulasvirta. Interactive Groupwise Comparison for Reinforcement Learning from Human Feedback. arXiv preprint arXiv:2507.04340 (2025).

特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相关推荐
热点推荐
世预赛欧洲区德国战平斯洛伐克,同积12分德国出线仅需平局

世预赛欧洲区德国战平斯洛伐克,同积12分德国出线仅需平局

徐徐解说
2025-11-18 00:29:30
两只“大牛股”!300300,000592,停牌核查!

两只“大牛股”!300300,000592,停牌核查!

证券时报e公司
2025-11-17 22:56:19
谁给张碧晨出的馊主意?这么有想象力衣服,太天马行空了!

谁给张碧晨出的馊主意?这么有想象力衣服,太天马行空了!

老吴教育课堂
2025-11-16 09:12:40
广东女篮金牌奖金曝光,比男篮少太多,郑薇亲手将李梦踢出国家队

广东女篮金牌奖金曝光,比男篮少太多,郑薇亲手将李梦踢出国家队

宗介说体育
2025-11-17 13:20:04
金正恩跪献鲜花毛岸英墓前,中朝友谊75年风雨,日方威胁下的回应

金正恩跪献鲜花毛岸英墓前,中朝友谊75年风雨,日方威胁下的回应

文诩历史
2025-11-17 14:24:13
捅完琉球窝!中国再掀北海道老底,日本80年前埋的雷,炸了

捅完琉球窝!中国再掀北海道老底,日本80年前埋的雷,炸了

南宫一二
2025-11-17 07:17:39
经历丧子之痛后,她也因病离开人世,留下遗言让丈夫悲痛欲绝

经历丧子之痛后,她也因病离开人世,留下遗言让丈夫悲痛欲绝

鲸探所长
2025-11-17 19:30:41
俄罗斯什么时候会停止战争?没钱打仗的时候

俄罗斯什么时候会停止战争?没钱打仗的时候

山河路口
2025-11-16 12:44:41
全运会最新金牌榜:山东40金与广东拉开差距,浙江反超江苏

全运会最新金牌榜:山东40金与广东拉开差距,浙江反超江苏

佳佳说奇事故事
2025-11-17 23:53:35
苹果将自2026年起改为春秋两季发布iPhone

苹果将自2026年起改为春秋两季发布iPhone

新浪财经
2025-11-16 23:31:38
韩国政府宣布:中国排日本前面

韩国政府宣布:中国排日本前面

政知新媒体
2025-11-16 16:09:54
乌前总理称美已在物色泽连斯基继任者!美威胁与俄贸易面临500%关税,特朗普首次表态

乌前总理称美已在物色泽连斯基继任者!美威胁与俄贸易面临500%关税,特朗普首次表态

红星新闻
2025-11-17 19:06:52
雷军真的急了!大周末发帖小米SU7很安全,翻出多篇文章自证清白

雷军真的急了!大周末发帖小米SU7很安全,翻出多篇文章自证清白

火山诗话
2025-11-16 15:33:35
南京楼市的故事结束了,南京待售二手房从153512套变成了152538套

南京楼市的故事结束了,南京待售二手房从153512套变成了152538套

有事问彭叔
2025-11-16 19:08:07
西芒杜铁矿投产,中国手握“钢铁粮仓”,不用再看别人脸色

西芒杜铁矿投产,中国手握“钢铁粮仓”,不用再看别人脸色

保德全
2025-11-17 19:00:03
中国,为什么不能打第一枪?

中国,为什么不能打第一枪?

钧言堂
2025-11-15 21:29:43
中国航母开始下饺子!004大连开建003A上海动工 计划2028年服役

中国航母开始下饺子!004大连开建003A上海动工 计划2028年服役

军评陈光文
2025-11-17 23:36:55
四川女富商程海燕因杀夫被注射死刑,临刑前绝望挣扎

四川女富商程海燕因杀夫被注射死刑,临刑前绝望挣扎

知否否
2024-03-13 08:34:16
关闭全部门店,盒马创始人又失败了

关闭全部门店,盒马创始人又失败了

邱处机
2025-11-17 19:06:09
赢过惠英红,获奖感言忘词,她捂脸假哭没人买账,台下众星绷不住

赢过惠英红,获奖感言忘词,她捂脸假哭没人买账,台下众星绷不住

冷紫葉
2025-11-17 15:07:46
2025-11-18 03:55:00
DeepTech深科技 incentive-icons
DeepTech深科技
麻省理工科技评论独家合作
15867文章数 514306关注度
往期回顾 全部

科技要闻

京东外卖要“独立” 刘强东还宣战“点评”

头条要闻

该聊聊琉球问题了 日本国内集体破大防

头条要闻

该聊聊琉球问题了 日本国内集体破大防

体育要闻

当家球星受伤后,球迷乐翻了天?

娱乐要闻

金鸡奖是“照妖镜”,揭露人情冷暖?

财经要闻

高市早苗的算计,将让日本割肉5000亿

汽车要闻

新增CDC后变化大吗? 试驾特斯拉model Y L

态度原创

艺术
教育
游戏
房产
公开课

艺术要闻

惊艳!全球百大美女变身顶级辣妈,居然在中国!

教育要闻

课后延时服务引发诸多矛盾,该考虑取消了!

魔坛节奏丨魔兽操作之神,Happy 4-3力克浪漫夺得少帅杯冠军

房产要闻

首开狂卖6.68亿!海口这个顶级教育红盘,引爆海口楼市!

公开课

李玫瑾:为什么性格比能力更重要?

无障碍浏览 进入关怀版