网易首页 > 网易号 > 正文 申请入驻

人类与AI协作,还不如各自安好?如何有效整合人类与AI的力量?

0
分享至

一般来说,我们倾向于认为,虽然 AI 越来越强大,但只有人类与 AI 进行协作,将人类的创造力、直觉和情境理解与人工智能的速度、可扩展性和分析能力等优势相结合,才能充分发挥 AI 的作用,提升人类的能力。

在此前的文章中,我们也提到,AI 并不能取代人类,相反更多的是人类思维的扩展。

然而,一系列研究表明,由于沟通障碍、信任问题、道德问题等相关因素,与人类或单独的 AI 系统相比,人类与人工智能的协作不一定能取得更好的结果。

例如,有研究就发现,在行为风险评估方面,人类与风险预测系统的协作就不一定表现更好。

一方面,当算法和人类做出相似的决策时,二者的合作并不能互补提高预测的准确性。另一方面,当算法失败时,人类也可能无法弥补他们的错误。

图丨相关论文(来源:Communications of the ACM)

这一系列矛盾让我们产生疑问,人类和人工智能究竟是否互补?二者的协作能起到多大的效果?

近期,来自麻省理工学院的一支研究团队就对这些问题进行了综合研究,对人类-AI 系统的协同作用进行了量化,并对其在不同环境中不同表现的原因进行了解释。

图丨相关论文(来源:arXiv)

研究将人类-AI 的协作模式分为两类:强协同与弱协同。强协同情况下,人类-AI 协作的表现超越单独的人类及 AI;而弱协同则指该组合优于其中之一,但未能同时超过两者的最佳表现。

尽管在受法律、伦理、安全等因素所限而无法全部实现自动化的场景中,弱协同模式也具有重要意义。

但许多人对人类-AI 协作系统的期待,是认为它应该超越二者各自的单一能力,即追求强协同效益,毕竟,“团结力量大”嘛。所以,强协同模式也越来越受到关注。

团队回顾了 2020 年至 2023 年间 106 个实验的 370 个不同系统中纯人类、纯 AI 及人类-AI 协作系统的表现。

结果显示,在强协同模式下,即以单独人类或 AI 的最佳表现为基准,人类-AI 协作系统的表现要比基线标准差得多,总体汇总效应为负(g=−0.23,属于较小效应)。

而将人类-AI协作的成绩与纯人类表现单独对比时,人类-AI 协作明显超越了纯人类操作的水平,此处汇总效应值为正(g= 0.64,属于中到大等效应)。

也就是说,多数人类-AI 协作相较于单个人类有所提升,但不能全面超越单独最佳的人类或 AI 表现。

图丨团队所分析相关研究的所有效应大小的森林图,负效应大小值为红色,正效应大小值为绿色(来源:arXiv)

所以,人类与 AI 的协作在平均水平上并未展现出我们预期中的强大协同优势。不过,相较于人类单独工作,确实还是提升了我们的效能。

课题组认为,其原因可能有两个方面,一方面一些人可能过度依赖 AI,不加反思地信任 AI,而忽略了深入探究的必要性;另一方面,也可能出于对自动化的偏见而忽视 AI 即与的建议等。

通常我们会觉得,人类与 AI 各自在不同类型的工作,或面临不同的数据类型时,二者各有所长。例如,人类更有创造力、AI 更“理性”等,所以二者的结合或许才有更好的效果。

那么,在不同情境下人类-AI 协同的表现到底如何呢?

研究表明,任务类型对人类与 AI 强协同效应具有显著的影响。

图丨调节变量的三级元回归模型的结果(来源:arXiv)

具体而言,在进行决策类任务时,即要求参与者从预设选项中做选择的任务,人类与 AI 的配合实际上导致了效率降低,其强协同效应呈负值。

这或许是因为,在多数决策任务中,虽然人与 AI 共同参与决策过程,但最终决断权往往掌握在人类手中,AI 的协同并不能够发挥充分的作用。

相反,在创造性任务中,即参与者需产出开放性答案时,强协同效应就转为了正值,所以在这类任务中,人类与 AI 协作可以带来显著的正面影响。这也在一定程度上符号我们的通常认知。

另外,团队观察到人类与 AI 各自表现的相对水平对两种协同效应有重要影响。

当人类单独的表现超过 AI 时,人类-AI 协作的表现超越了双方单独表现,强协同效应的平均值为正向的(g=0.46,属于中等效应)。

相反,当 AI 单独的表现超过人类时,人类-AI 协作的表现相较于单独的 AI 反而下滑,强协同效应的负面值为(g=-0.54,同样为中等效应)。

课题组认为,这可能是因为,当人类整体上优于算法时,他们不仅在任务执行上更为出色,也更擅长判断何时信赖自己的直觉、何时采纳算法的建议。

例如,在此前的一项研究中,人类与 AI 协作进行虚假酒店评论识别时,AI 单独识别的准确率为 73%,人类的准确率为 55%,而人机协作的准确率却降为 69%。

这或许就是因为人类总体准确度低于 AI,而他们在何时信任自己判断、何时依赖 AI 方面也不够熟练,导致了整体效能不增反减。

而在鸟类图像分类任务中,AI 单独准确率为 73%,人类单独高达 81%,而人类-AI 协作的准确率则提高至 90%。

在这一项任务中,人类个体表现超越了 AI,人类在判断何时依靠自身判断和何时采纳 AI 建议上也更为精准,从而促成了协作的综合性能提升。

图丨按任务和条件分列的参与者平均准确率(来源:Proceedings of the ACM on Human-Computer Interaction)

另外,人类与 AI 的相对性能也同样影响人类-AI 系统中弱协同模式的效应。

当 AI 的表现超越人类时,人类-AI 系统相比于人类单独工作所展现出的增益更为显著(p<0.0001),且这种弱协同的总效应值为正,幅度达到了中到大的范围(g=0.74)。

尽管研究表明,人类与 AI 的结合效果可能并不一定尽如人意,但这并非否定两者的合作价值。

相反,团队强调未来应该更加深入和高效地将人类智慧与人工智能技术结合起来。

具体而言,有以下几点建议。

首先,研究发现,在实验样本分析中,有大约 85% 的相关评估集中于决策任务,仅约 10% 的研究有关于创造性任务,而恰恰正是在后一类工作中,人类与 AI 的协作才表现得更为突出。所以,团队认为要推进生成式 AI 在创造性任务中的应用。

其次,要实现人类与 AI 的有效协同,关键在于辨明任务各部分中人的优势所在与 AI 擅长的领域,并构建一个系统,根据不同子任务特性,将其恰当地分配给最适合的执行者,其重要性不亚于技术创新本身。

再次,需要建立更全面的评估框架以衡量人类-AI 协作的性能表现。在当前研究中,众多实验单纯依赖单一的整体准确性指标来评判性能,却忽略了多样化的现实因素等关键属性。

例如,在放射学诊断等高风险情境下,其准确性要求就非常高,即便只是较小的概率,一旦发生错误,后果极为严重。

所以,需要构建复合性能指标,综合考量各类错误的潜在成本。

最后,团队呼吁建立统一的衡量基准,以促进研究间的系统性比较并追踪人类与 AI 协同领域的进步,包括任务架构、质量标准、交互协议、评估体系等。

参考资料:

[1].https://arxiv.org/abs/2405.06087

本文内容不代表平台立场,不构成任何投资意见和建议,以个人官网/官方/公司公告为准。

特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相关推荐
热点推荐
爵士榜眼签试训热门新秀布泽尔

爵士榜眼签试训热门新秀布泽尔

体坛周报
2026-06-13 00:08:48
央企“最牛女副处长”落马:两年与上司开房410次,细节曝光

央企“最牛女副处长”落马:两年与上司开房410次,细节曝光

西门老爹
2025-12-16 15:35:31
美媒痛批特朗普:最愚蠢的错误,就是将中国定义为"同等级"对手

美媒痛批特朗普:最愚蠢的错误,就是将中国定义为"同等级"对手

蜉蝣说
2026-06-12 11:39:39
霍尔希望加盟曼联,曝因无缘世界杯与纽卡闹翻!转会费至少5000万

霍尔希望加盟曼联,曝因无缘世界杯与纽卡闹翻!转会费至少5000万

罗米的曼联博客
2026-06-12 12:05:53
谁才是真正的科研王者?美国大学经费榜:JHU断层第一,哈佛仅排第19

谁才是真正的科研王者?美国大学经费榜:JHU断层第一,哈佛仅排第19

留学咖啡馆
2026-06-11 08:35:40
不该让福克斯文班背锅?名记指出马刺最大毒瘤,被完爆却仍自信

不该让福克斯文班背锅?名记指出马刺最大毒瘤,被完爆却仍自信

你的篮球频道
2026-06-12 09:55:26
赌王二太蓝琼缨年轻时的照片一经曝光,她的美貌不逊于一众女星

赌王二太蓝琼缨年轻时的照片一经曝光,她的美貌不逊于一众女星

凛若秋霜
2026-06-10 05:23:38
1957年,黄百韬之子被判死刑,其母亲求见宋美龄:我只有一个要求

1957年,黄百韬之子被判死刑,其母亲求见宋美龄:我只有一个要求

历史龙元阁
2026-06-11 16:30:19
中国男网传捷报!张之臻爆冷6号种子,轰11记ACE球,创造新纪录!

中国男网传捷报!张之臻爆冷6号种子,轰11记ACE球,创造新纪录!

刘姚尧的文字城堡
2026-06-12 07:55:24
笑话:贪色

笑话:贪色

乡村中原风
2026-06-12 14:30:03
穆帅考察居莱尔 将打造皇马新阵

穆帅考察居莱尔 将打造皇马新阵

体坛周报
2026-06-12 23:35:47
调查发现:常年坚持锻炼的人,熬过73岁后,大多逃不过这5种结局

调查发现:常年坚持锻炼的人,熬过73岁后,大多逃不过这5种结局

周哥一影视
2026-06-11 13:07:20
当年风靡一时的6部高分神剧,最后一部当年万人空巷

当年风靡一时的6部高分神剧,最后一部当年万人空巷

小Q侃电影
2026-06-12 23:33:47
在荷兰上班的华人感慨:不要信媒体,荷兰已经相当于我国二线城市

在荷兰上班的华人感慨:不要信媒体,荷兰已经相当于我国二线城市

残梦重生来
2026-06-12 11:06:10
梅毒患者难辨认?医生提示:看到2种人,还是小心些为好

梅毒患者难辨认?医生提示:看到2种人,还是小心些为好

健康之光
2026-06-07 14:35:07
有些央国企降本增效最大的荒唐,裁正式员工,却砸大钱养外包!

有些央国企降本增效最大的荒唐,裁正式员工,却砸大钱养外包!

细说职场
2026-06-12 14:26:56
俄伤亡人数突破138万,乌军釜底抽薪步步杀机

俄伤亡人数突破138万,乌军釜底抽薪步步杀机

史政先锋
2026-06-12 17:16:29
香珀特说“那根本不算盖帽”:为福克斯发声,裁判报告却另有说法

香珀特说“那根本不算盖帽”:为福克斯发声,裁判报告却另有说法

绿茵狂热者
2026-06-13 00:50:48
中国成功举办世界杯需要几步?现在申请大概什么时候可以办?

中国成功举办世界杯需要几步?现在申请大概什么时候可以办?

真猫爷的渔场
2026-06-12 20:39:13
北京93岁老人终身未娶、无儿无女,去世前将千万财产赠与照顾其12年的邻居,法院判了

北京93岁老人终身未娶、无儿无女,去世前将千万财产赠与照顾其12年的邻居,法院判了

大风新闻
2026-02-24 23:13:12
2026-06-13 01:24:49
络绎科学 incentive-icons
络绎科学
专业的科研成果转化社区
105文章数 3关注度
往期回顾 全部

科技要闻

刚刚,人类历史上首位万亿美元富豪诞生!

头条要闻

美加墨世界杯第二场比赛就现空座 英媒:尴尬

头条要闻

美加墨世界杯第二场比赛就现空座 英媒:尴尬

体育要闻

欧洲恐韩?肉德维德?

娱乐要闻

一天4个瓜,肖战热巴最意外

财经要闻

万亿美元顺差背后,透露这些信号

汽车要闻

标配激光雷达/双动力可选 昊铂S600限时售17.99万起

态度原创

健康
本地
教育
公开课
军事航空

老人、小孩、孕妇,吃粽子有啥风险

本地新闻

AK刘彰邂逅河北南大港湿地

教育要闻

家长成了“疯女人”,被女儿作业搞崩溃,网友:太真实

公开课

李玫瑾:为什么性格比能力更重要?

军事要闻

伊朗媒体:已故最高领袖葬礼推迟举行

无障碍浏览 进入关怀版