网易首页 > 网易号 > 正文 申请入驻

卡耐基梅隆大学AI团队破解人机协作密码:让AI懂得何时"请示汇报"

0
分享至

来源:市场资讯

(来源:科技行者)


当你在网上购物时,有没有遇到过这样的情况:购物助手机器人要么完全不理你的意见,一意孤行地推荐商品;要么每一步都要征求你的同意,让人感到厌烦?卡耐基梅隆大学的研究团队最近发表了一项突破性研究,专门解决这个令人头疼的问题。这项发表于2026年2月的研究成果(论文编号arXiv:2602.17588v1),首次系统性地研究了人类何时会想要介入AI的决策过程,并创建了一个让AI变得更加"察言观色"的智能系统。

研究背景其实很贴近我们的日常生活。就好比你雇了一个新助手帮你整理家务,这个助手要么太过独断专行,把你的重要文件都扔了;要么过于谨慎,连倒垃圾都要问你一遍。现有的AI助手就面临着同样的尴尬局面。它们要么过于自信地执行任务,忽视用户可能想要改变方向的信号;要么过于频繁地打断用户寻求确认,让人觉得比自己亲自动手还麻烦。

研究团队意识到,真正有用的AI助手应该像一个经验丰富的管家一样,既能独立处理大部分工作,又能在关键时刻主动请示主人的意见。但问题是,AI怎么知道什么时候该"察言观色"呢?这就是这项研究要解决的核心问题。

为了找到答案,研究团队进行了一场大规模的"人机协作观察实验"。他们邀请了20位志愿者,让每个人与AI助手协作完成400个不同的网页任务,比如在线订机票、搜索餐厅、购买商品等。这些任务既包括标准化的常见任务,也包括用户自由选择的个性化任务。整个实验过程就像给人机协作拍了一部"纪录片",详细记录了超过4200次人类和AI之间的互动。

通过分析这些互动数据,研究团队发现了人类介入AI决策的三大主要原因,就好比家里的管家需要请示主人的三种典型情况。

第一种情况是"纠错救场"。当AI犯了明显错误或者陷入困境时,用户会立即接管。就像管家把盐当成糖放进咖啡里,或者在同一个地方重复打扫却怎么都打扫不干净时,主人自然会出手干预。在网页操作中,这通常发生在AI点击了错误的按钮,或者在某个页面上反复执行无效操作时。

第二种情况是"偏好调整"。有时候AI的操作本身没有错,但不符合用户的具体喜好。比如用户想买"100美元以下的运动鞋",但AI推荐的都是200美元以上的款式。这就像管家按照一般标准整理房间,但主人有自己特殊的整理习惯一样。

第三种情况是"复杂环境援助"。当遇到特别复杂的网页界面、验证码或者技术故障时,用户会主动接管,因为他们知道AI在这些情况下容易出错。这就像管家面对特别复杂的古董家具时,明智的做法是请主人亲自处理。

更有趣的是,研究团队发现不同的用户有着截然不同的协作风格。他们把用户分成了四种典型的"协作人格",就像不同性格的人管理家务助手的方式完全不同。

"放手型"用户就像很忙的老板,基本上完全信任AI,很少干预,让助手自由发挥。这类用户通常对结果要求不是特别严格,更看重效率。

"接管型"用户则像控制欲很强的管理者,一旦发现问题就会完全接管任务,而且接管后很少再把控制权交还给AI。他们更愿意自己亲自完成重要部分。

"密切监督型"用户就像严格的导师,会频繁地监督和调整AI的行为,但同时也会适时地把控制权交还给AI继续工作。这种协作模式下,人机之间的控制权转换最为频繁。

"协作型"用户则像理想的合作伙伴,会选择性地在关键节点进行干预,提供指导后就让AI继续执行。这类用户既不会过度干预,也不会完全放任不管,体现了最佳的协作平衡。

基于这些发现,研究团队开发了一套"AI读心术"系统。这个系统能够根据当前的任务状态、历史互动记录和用户的协作风格,预测用户是否可能想要介入。就好比训练管家学会察言观色,在主人可能有意见的时候主动询问,而在主人明显很满意的时候就安静地继续工作。

具体来说,这套系统会综合考虑多个"线索"。包括当前网页的复杂程度、AI即将执行的操作类型、用户之前在类似情况下的反应模式,以及任务进行到了哪个阶段等。系统会为每个即将执行的操作打一个"需要请示"的分数,分数高的时候就主动暂停请示用户,分数低的时候就放心大胆地继续执行。

为了验证这套系统的效果,研究团队进行了严格的测试对比。他们将新系统与传统的AI助手进行了详细对比,结果令人印象深刻。传统的AI助手要么从不询问用户意见,要么每个步骤都要确认,而新系统能够在61.4%到63.4%的情况下准确预测用户是否想要干预,这比传统系统有了显著的提升。

更重要的是实际使用效果。研究团队将这套"察言观色"的AI系统集成到了一个名为PlowPilot的浏览器插件中,让真实用户在日常网页任务中使用。结果显示,用户对这个新系统的满意度比传统AI助手提高了26.5%。用户普遍反映,新系统既减少了不必要的打扰,又能在需要帮助的时候及时停下来征求意见,使用体验大大改善。

用户反馈中特别值得注意的是两个方面。一方面,用户感觉不再需要时刻盯着AI的每一个操作,因为系统会在关键时刻自动停下来。另一方面,用户觉得自己仍然掌握着主导权,不会被AI牵着鼻子走。这种"既轻松又有控制感"的体验正是理想人机协作的精髓所在。

这项研究的创新性还体现在数据集的构建上。研究团队创建的COWCORPUS数据集是首个专门记录人机协作过程的大规模数据库,包含了400个完整的协作任务轨迹,详细记录了人类何时、为何以及如何介入AI的决策过程。这个数据集就像人机协作的"百科全书",为未来相关研究奠定了重要基础。

技术实现方面,研究团队采用了多种先进的机器学习方法。他们不仅使用了传统的语言模型,还专门针对不同的协作风格训练了定制化的预测模型。这就好比为不同性格的主人培训专门的管家,让每个管家都能完美适应自己主人的习惯和偏好。

实验结果还揭示了一个有趣现象:那些最先进的通用AI模型(比如GPT-4、Claude等)在这个任务上的表现反而不如专门训练的小模型。这说明在特定的人机协作场景中,"术业有专攻"比"样样都懂"更重要。就像专业的管家比万能的机器人更适合家庭服务一样。

从更广泛的意义来看,这项研究揭示了未来AI发展的一个重要方向:从追求完全自主的"独行侠"模式,转向善于协作的"团队合作"模式。研究结果表明,真正有用的AI不是要完全替代人类,而是要学会与人类和谐共处,在合适的时候提供帮助,在需要的时候主动后退。

这种转变对整个AI行业都有着深刻的启示意义。当前很多AI产品都存在类似的问题:要么过于激进地试图完全替代人类决策,要么过于保守地不停寻求人类确认。而这项研究提出的解决方案为构建更加人性化、更加实用的AI系统提供了科学依据和技术路径。

研究团队在论文中特别强调,他们的方法不仅适用于网页操作,还可以推广到其他需要人机协作的场景中,比如智能客服、自动驾驶、医疗诊断等。任何需要AI与人类密切配合的领域,都可以借鉴这套"察言观色"的方法论。

值得一提的是,这项研究还考虑了隐私保护和用户控制权的问题。系统在学习用户行为模式的同时,确保用户始终拥有最终的决策权。这种设计哲学体现了研究团队对AI伦理问题的深度思考,确保技术进步不会以牺牲用户自主权为代价。

说到底,这项研究解决的是一个看似简单但实际复杂的问题:如何让AI变得更有"人情味"。通过科学的方法分析人机互动模式,训练AI学会适时的"察言观色",研究团队为我们展示了一种全新的AI设计理念。这不仅让AI变得更加实用,更重要的是让人机协作变得更加和谐。

对于普通用户来说,这意味着未来的AI助手会变得更加贴心和智能。它们不会再像现在这样要么完全不理你,要么烦人地什么都要问一遍,而是会像一个默契的老朋友一样,知道什么时候该主动帮忙,什么时候该安静待命。这样的AI才真正符合我们对智能助手的期待:既能分担工作,又不会剥夺我们的主导权。

Q&A

Q1:COWCORPUS数据集包含什么内容?

A:COWCORPUS是首个专门记录人机协作过程的大规模数据集,包含400个完整的协作任务轨迹,详细记录了超过4200次人类和AI之间的互动,涵盖了人类何时、为何以及如何介入AI决策的完整过程。

Q2:这套AI系统如何预测用户是否想要干预?

A:系统会综合考虑当前网页复杂程度、AI即将执行的操作类型、用户历史反应模式以及任务进展阶段等多个线索,为每个操作打出"需要请示"的分数,分数高时主动暂停请示用户,分数低时继续执行。

Q3:PlowPilot相比传统AI助手有什么优势?

A:PlowPilot能够在61.4%到63.4%的情况下准确预测用户干预需求,用户满意度比传统AI助手提高了26.5%。它既减少了不必要的打扰,又能在关键时刻及时征求用户意见,实现了理想的人机协作平衡。

特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相关推荐
热点推荐
巴拿马强行接管长和两港口,香港特区政府严正抗议,中方坚决维护企业权益

巴拿马强行接管长和两港口,香港特区政府严正抗议,中方坚决维护企业权益

环球网资讯
2026-02-25 07:03:22
俄乌战争四周年,为什么开始强调援助乌克兰?

俄乌战争四周年,为什么开始强调援助乌克兰?

作家加野
2026-02-26 10:21:34
和宋美龄吃饭感觉怎么样?客人们纷纷表示受不了,蒋介石也很无奈

和宋美龄吃饭感觉怎么样?客人们纷纷表示受不了,蒋介石也很无奈

寻史微鉴
2026-02-23 16:17:34
美国也没想到,转为中国籍仅6年,谷爱凌竟已成美国头号劲敌

美国也没想到,转为中国籍仅6年,谷爱凌竟已成美国头号劲敌

削桐作琴
2026-02-25 18:15:14
赘婿船上不行被白富美抛弃!妲己男友得病了!

赘婿船上不行被白富美抛弃!妲己男友得病了!

八卦疯叔
2026-02-26 11:39:31
山东高校改名天花板VS地板:一个封神,一个可惜

山东高校改名天花板VS地板:一个封神,一个可惜

鬼菜生活
2026-02-25 16:41:29
2026年最旺偏财生肖曝光!这类人突然变富,不是错觉

2026年最旺偏财生肖曝光!这类人突然变富,不是错觉

毅谈生肖
2026-02-26 12:29:21
伊朗总统靠边站了?极不寻常,哈梅内伊一旦遇刺:此人将接管国家

伊朗总统靠边站了?极不寻常,哈梅内伊一旦遇刺:此人将接管国家

时尚的弄潮
2026-02-26 13:16:40
我出12万6带一家人新疆自驾游,上车却发现多了4个人,我:不去了!

我出12万6带一家人新疆自驾游,上车却发现多了4个人,我:不去了!

奶茶麦子
2026-02-26 13:27:14
上海这晚,57岁周涛秒了30岁李雪琴,不愧是央视严选的国泰民安脸

上海这晚,57岁周涛秒了30岁李雪琴,不愧是央视严选的国泰民安脸

大铁猫娱乐
2026-02-08 00:10:03
马云无眠张纪中泪目!半个商圈大佬齐聚送别,这个男人啥来头?

马云无眠张纪中泪目!半个商圈大佬齐聚送别,这个男人啥来头?

老特有话说
2026-01-17 16:26:05
世界最大帝陵:修了107年,凿空1200米大山,面积是秦始皇陵的3倍

世界最大帝陵:修了107年,凿空1200米大山,面积是秦始皇陵的3倍

老谢谈史
2026-02-24 09:30:04
男篮战日本前踩场训练曝光:余嘉豪领衔三大中锋同框 有望统治禁区

男篮战日本前踩场训练曝光:余嘉豪领衔三大中锋同框 有望统治禁区

狼叔评论
2026-02-26 13:14:08
蒋介石曾孙蒋友青:出生在加拿大,如今却重回大陆,扎根母亲故乡

蒋介石曾孙蒋友青:出生在加拿大,如今却重回大陆,扎根母亲故乡

阿讯说天下
2026-02-25 15:20:08
张艺兴发素颜照,年夜饭没滤镜,网友说这才是真过年

张艺兴发素颜照,年夜饭没滤镜,网友说这才是真过年

甜菊汽水
2026-02-25 11:50:21
大妈家门口丢失30克金手镯,监控显示邻居捡走,对方:捡的是棍子

大妈家门口丢失30克金手镯,监控显示邻居捡走,对方:捡的是棍子

大鱼简科
2026-02-13 16:30:54
当不成总统了?日本逮捕美军士兵,特朗普下令撤侨,14国向美施压

当不成总统了?日本逮捕美军士兵,特朗普下令撤侨,14国向美施压

阿离家居
2026-02-25 19:55:08
华为正式官宣:2月26日,新机全球发布!

华为正式官宣:2月26日,新机全球发布!

科技堡垒
2026-02-25 13:18:13
美媒:20岁华裔选手粉丝数远超谷爱凌 她拒绝中国招募 对美国忠诚

美媒:20岁华裔选手粉丝数远超谷爱凌 她拒绝中国招募 对美国忠诚

念洲
2026-02-25 11:46:11
中国留学生刚落地澳洲, 当场被逮捕, 遣返! 机场正在严查, 许多留学生还没入境就被拉黑

中国留学生刚落地澳洲, 当场被逮捕, 遣返! 机场正在严查, 许多留学生还没入境就被拉黑

澳洲红领巾
2026-02-26 13:16:02
2026-02-26 14:31:01
新浪财经 incentive-icons
新浪财经
新浪财经是一家创建于1999年8月的财经平台
2271228文章数 5546关注度
往期回顾 全部

科技要闻

单季营收681亿净利429亿!英伟达再次炸裂

头条要闻

赖清德改口称“大陆”被指释出善意 国民党发言人表态

头条要闻

赖清德改口称“大陆”被指释出善意 国民党发言人表态

体育要闻

从排球少女到冰壶女神,她在米兰冬奥练出6块腹肌

娱乐要闻

尼格买提撒贝宁滑雪被偶遇 17年老友情

财经要闻

短剧市场风云突变!有人投百万赔得精光

汽车要闻

第五代宏光MINIEV焕新 四门玩趣代步车来袭

态度原创

本地
时尚
手机
公开课
军事航空

本地新闻

津南好·四时总相宜

伦敦时装周|2026秋冬流行趋势早知道

手机要闻

苹果官方上线测速功能,「Apple 支持」App新增实用工具

公开课

李玫瑾:为什么性格比能力更重要?

军事要闻

美政府给新伊核协议设限内容遭披露

无障碍浏览 进入关怀版