网易首页 > 网易号 > 正文 申请入驻

微软:AI聊天机器人越聊越“笨”,复杂对话中不可靠性增长112%

0
分享至

来源:市场资讯

(来源:IT之家)

IT之家 2 月 20 日消息,当用户与 AI 聊天机器人进行长对话时,可能会感觉它们变得越来越“笨”,而这种感觉如今有了科学依据。

据 Windows Central 今日报道,微软研究院与赛富时(Salesforce)联合发表的一项研究证实,即使是目前最先进的大语言模型,在多轮对话中的可靠性也会急剧下降。


研究人员对包括 GPT-4.1、Gemini 2.5 Pro、Claude 3.7 Sonnet、o3、DeepSeek R1 和 Llama 4 在内的 15 款顶尖模型进行了超过 20 万次模拟对话分析,揭示出一个被称为“迷失会话”的系统性缺陷。

数据显示,这些模型在单次提示任务中的成功率可达 90%,但当同样的任务被拆解成多轮自然对话后,成功率骤降至约 65%。

研究指出,模型的“智力”本身并未显著下降 —— 其核心能力仅降低约 15%—— 但“不可靠性”却飙升 112%。也就是说,AI 大模型仍然具备解决问题的能力,但在多轮对话中变得高度不稳定,难以持续跟踪上下文。

报告指出,当前大多数模型主要在“单轮”基准测试下进行评估,即一次性接收全部指令的理想实验环境。但现实中的人类交流通常是渐进式的,信息在多轮互动中逐步补充。研究发现,一旦任务被“拆分”到多个回合中,即便是最先进的模型,也容易出现系统性失误。

研究人员进一步分析了造成性能下降的行为机制。

令人意外的是,即使是配备了额外“思考词元”(thinking tokens)的新一代推理模型,如 OpenAI o3 和 DeepSeek R1,也未能显著改善在多轮对话中的表现。研究还发现,将模型温度参数设置为 0—— 这一常用于确保一致性的技巧 —— 对此类对话衰减几乎没有防护作用。


这一发现对当前 AI 行业的评估方式提出了质疑。研究人员指出,现有的基准测试主要基于理想的单轮场景,忽略了模型在真实世界中的行为。对于依赖 AI 构建复杂对话流程或智能体的开发者而言,这一结论意味着严峻挑战。


目前最有效的应对方式反而是减少多轮往返交流,将所有必要数据、约束条件和指令一次性在单个完整提示中提供,以提高输出一致性。

特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相关推荐
热点推荐
邮报:北伦敦德比上半场裁判设备出现问题是因为频率受到干扰

邮报:北伦敦德比上半场裁判设备出现问题是因为频率受到干扰

懂球帝
2026-02-23 22:06:54
普雷斯蒂安尼遭临时禁赛1场,坐实歧视将被重罚,穆里尼奥遭打击

普雷斯蒂安尼遭临时禁赛1场,坐实歧视将被重罚,穆里尼奥遭打击

夏侯看英超
2026-02-23 23:26:29
刚刚,突发大涨!

刚刚,突发大涨!

格隆汇
2026-02-23 15:33:09
一手好牌打稀烂,俄罗斯发动战争不是侵略,是乌克兰故意找揍?

一手好牌打稀烂,俄罗斯发动战争不是侵略,是乌克兰故意找揍?

东极妙严
2026-02-18 19:39:25
辞去央视铁饭碗,带着儿子嫁给张译,20年过去,才知道她有多明智

辞去央视铁饭碗,带着儿子嫁给张译,20年过去,才知道她有多明智

阿废冷眼观察所
2026-02-21 13:48:22
美军在东太平洋发动袭击

美军在东太平洋发动袭击

第一财经资讯
2026-02-21 17:50:58
朝鲜劳动党九大选举金正恩为总书记

朝鲜劳动党九大选举金正恩为总书记

新华社
2026-02-23 08:07:03
中国游客“消失”两个月后:日本旅游业崩盘,银座百货大楼慌了

中国游客“消失”两个月后:日本旅游业崩盘,银座百货大楼慌了

福建平子
2026-02-23 10:35:11
为了“掏空”老百姓家底,而编造出来的“4大谎言”,谁信谁倒霉

为了“掏空”老百姓家底,而编造出来的“4大谎言”,谁信谁倒霉

平说财经
2026-02-18 08:38:03
两个小药丸儿,一个助硬,一个延时长,在家门口的药店就能买到

两个小药丸儿,一个助硬,一个延时长,在家门口的药店就能买到

中医陈旺医生
2025-11-14 10:43:05
深夜返家!王力宏扛行李回李靓蕾家,复婚铺垫到位,明年巡演复出

深夜返家!王力宏扛行李回李靓蕾家,复婚铺垫到位,明年巡演复出

扒星人
2026-02-23 11:32:22
中国创造5000公里绝杀航母奇迹,美俄望尘莫及

中国创造5000公里绝杀航母奇迹,美俄望尘莫及

聚焦热点内幕
2026-02-22 09:14:03
monies巴黎旗舰店员工:王菲同款水滴耳环官网和巴黎门店库存已空,她去年在春晚戴的“虾片耳环”也没货了

monies巴黎旗舰店员工:王菲同款水滴耳环官网和巴黎门店库存已空,她去年在春晚戴的“虾片耳环”也没货了

大风新闻
2026-02-22 12:06:17
“性萧条”才是这个时代真正的危机

“性萧条”才是这个时代真正的危机

深蓝夜读
2025-09-24 16:00:09
春晚机器人翻跟头很帅,但它连茶杯倒了都不会扶,王兴兴说它像10岁孩子,能听指令却不懂人话

春晚机器人翻跟头很帅,但它连茶杯倒了都不会扶,王兴兴说它像10岁孩子,能听指令却不懂人话

网络易不易
2026-02-23 14:40:42
从左权之妻到改嫁左权秘书,再到山西夺权,刘志兰究竟经历了什么

从左权之妻到改嫁左权秘书,再到山西夺权,刘志兰究竟经历了什么

旧书卷里的长安
2026-02-22 00:08:58
女神有时候也会变成舔狗

女神有时候也会变成舔狗

微微热评
2026-02-22 20:41:43
2026春晚节目收视率排行榜出炉,结果叫人意外,赵本山的话应验了

2026春晚节目收视率排行榜出炉,结果叫人意外,赵本山的话应验了

查尔菲的笔记
2026-02-23 21:03:40
一年流出视频294部的小宝到底探过多少朵花?

一年流出视频294部的小宝到底探过多少朵花?

挪威森林
2026-01-25 17:18:42
林子祥叶倩文越南过年,满头白发超时髦,紧牵无血缘孙女太好磕

林子祥叶倩文越南过年,满头白发超时髦,紧牵无血缘孙女太好磕

一窥究竟
2026-02-23 05:37:45
2026-02-24 00:20:49
新浪财经 incentive-icons
新浪财经
新浪财经是一家创建于1999年8月的财经平台
2234509文章数 5518关注度
往期回顾 全部

科技要闻

智谱、MiniMax合计蒸发近千亿市值,为何?

头条要闻

外交部回应"中国只需打一个电话就能结束俄乌冲突"

头条要闻

外交部回应"中国只需打一个电话就能结束俄乌冲突"

体育要闻

哈登版骑士首败:雷霆的冠军课

娱乐要闻

那艺娜账号被禁止关注,视频已清空!

财经要闻

美国海关将停止征收被裁定违法的关税

汽车要闻

续航1810km!smart精灵#6 EHD超级电混2026年上市

态度原创

本地
手机
艺术
公开课
军事航空

本地新闻

春花齐放2026:《骏马奔腾迎新岁》

手机要闻

iPhone 18 Pro进入量产测试阶段 今年秋季发布

艺术要闻

十大名家画春,送给春天的你!

公开课

李玫瑾:为什么性格比能力更重要?

军事要闻

美军重兵集结蓄力作战之际 新一轮美伊谈判时间“敲定”

无障碍浏览 进入关怀版