网易首页 > 网易号 > 正文 申请入驻

微软:AI聊天机器人越聊越“笨”,复杂对话中不可靠性增长112%

0
分享至

IT之家 2 月 20 日消息,当用户与 AI 聊天机器人进行长对话时,可能会感觉它们变得越来越“笨”,而这种感觉如今有了科学依据。

据 Windows Central 今日报道,微软研究院与赛富时(Salesforce)联合发表的一项研究证实,即使是目前最先进的大语言模型,在多轮对话中的可靠性也会急剧下降。


研究人员对包括 GPT-4.1、Gemini 2.5 Pro、Claude 3.7 Sonnet、o3、DeepSeek R1 和 Llama 4 在内的 15 款顶尖模型进行了超过 20 万次模拟对话分析,揭示出一个被称为“迷失会话”的系统性缺陷。

数据显示,这些模型在单次提示任务中的成功率可达 90%,但当同样的任务被拆解成多轮自然对话后,成功率骤降至约 65%。

研究指出,模型的“智力”本身并未显著下降 —— 其核心能力仅降低约 15%—— 但“不可靠性”却飙升 112%。也就是说,AI 大模型仍然具备解决问题的能力,但在多轮对话中变得高度不稳定,难以持续跟踪上下文。

报告指出,当前大多数模型主要在“单轮”基准测试下进行评估,即一次性接收全部指令的理想实验环境。但现实中的人类交流通常是渐进式的,信息在多轮互动中逐步补充。研究发现,一旦任务被“拆分”到多个回合中,即便是最先进的模型,也容易出现系统性失误。

研究人员进一步分析了造成性能下降的行为机制。

  • 首先是“过早生成”:模型往往在用户尚未完整说明需求前就尝试给出最终答案。一旦在早期回合中形成错误假设(IT之家注:可能是指第一印象),模型后续便会在该错误的基础上继续推理,而不是随着新信息的加入进行修正,从而导致错误逐步放大。
  • 其次是“答案膨胀”。在多轮对话中,模型的回复长度比单轮对话增加了 20% 至 300%。更长的回答往往包含更多假设与“幻觉”,这些内容随后被纳入对话的持续上下文,从而进一步影响后续推理的准确性。

令人意外的是,即使是配备了额外“思考词元”(thinking tokens)的新一代推理模型,如 OpenAI o3 和 DeepSeek R1,也未能显著改善在多轮对话中的表现。研究还发现,将模型温度参数设置为 0—— 这一常用于确保一致性的技巧 —— 对此类对话衰减几乎没有防护作用。


这一发现对当前 AI 行业的评估方式提出了质疑。研究人员指出,现有的基准测试主要基于理想的单轮场景,忽略了模型在真实世界中的行为。对于依赖 AI 构建复杂对话流程或智能体的开发者而言,这一结论意味着严峻挑战。


目前最有效的应对方式反而是减少多轮往返交流,将所有必要数据、约束条件和指令一次性在单个完整提示中提供,以提高输出一致性。

特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相关推荐
热点推荐
7名中国游客贝加尔湖遇难,目击者发声:车两三分钟就沉了;有旅行社“贝加尔湖冬日游”人均16888元起

7名中国游客贝加尔湖遇难,目击者发声:车两三分钟就沉了;有旅行社“贝加尔湖冬日游”人均16888元起

极目新闻
2026-02-20 23:13:15
谷爱凌回击万斯批评:很多人代表他国参赛,我只是他们的出气筒

谷爱凌回击万斯批评:很多人代表他国参赛,我只是他们的出气筒

全景体育V
2026-02-20 12:09:01
A股:股民要系好安全带了,从节后2月24日起,股市或将再次历史重演!

A股:股民要系好安全带了,从节后2月24日起,股市或将再次历史重演!

股市皆大事
2026-02-20 19:25:51
将女友单独留山顶致其冻死,奥地利男子被判过失杀人罪 前女友作证:他也曾这样丢下我

将女友单独留山顶致其冻死,奥地利男子被判过失杀人罪 前女友作证:他也曾这样丢下我

红星新闻
2026-02-20 18:18:10
湖南新化6名消防员随车坠崖牺牲,当地村民:事发处山路又弯又陡,车头变形严重,多人步行抬担架救援

湖南新化6名消防员随车坠崖牺牲,当地村民:事发处山路又弯又陡,车头变形严重,多人步行抬担架救援

极目新闻
2026-02-20 15:48:20
20岁华裔选手夺金!美国网友网暴谷爱凌:叛徒 贪婪的机会主义者

20岁华裔选手夺金!美国网友网暴谷爱凌:叛徒 贪婪的机会主义者

念洲
2026-02-20 08:20:53
上海游客在东北突遇冰面开裂!父子先后坠湖,水已没过脖子…救命恩人身份曝光

上海游客在东北突遇冰面开裂!父子先后坠湖,水已没过脖子…救命恩人身份曝光

上观新闻
2026-02-20 10:19:09
你如果知道这些,就一定会理解22岁苏翊鸣为何在夺冠后泪流满面!

你如果知道这些,就一定会理解22岁苏翊鸣为何在夺冠后泪流满面!

田先生篮球
2026-02-19 21:45:27
连涨3天,电影《镖人》成春节档首部实现单日票房逆跌新片,其主演吴京电影票房成绩突破350亿元,位列华语男演员票房榜第二位

连涨3天,电影《镖人》成春节档首部实现单日票房逆跌新片,其主演吴京电影票房成绩突破350亿元,位列华语男演员票房榜第二位

大风新闻
2026-02-20 10:26:04
俄紧急情况部:已发现7名遇难者遗体,计划展开打捞作业

俄紧急情况部:已发现7名遇难者遗体,计划展开打捞作业

界面新闻
2026-02-20 20:05:01
7名中国游客沉入贝加尔湖溺亡,该旅游团涉嫌未正式注册,目击者:疑因司机强闯冰面裂缝;系1个月内第二起涉中国游客安全事故

7名中国游客沉入贝加尔湖溺亡,该旅游团涉嫌未正式注册,目击者:疑因司机强闯冰面裂缝;系1个月内第二起涉中国游客安全事故

大象新闻
2026-02-20 21:52:07
呼唤金牌教练李琰回归短道速滑队前,请先反思她当年为什么离开!

呼唤金牌教练李琰回归短道速滑队前,请先反思她当年为什么离开!

杨华评论
2026-02-20 18:28:11
贝加尔湖事故遇难者遗体已被发现,涉事司机为44岁当地男子,系私下接单;获救者是来自江苏省的一位男性

贝加尔湖事故遇难者遗体已被发现,涉事司机为44岁当地男子,系私下接单;获救者是来自江苏省的一位男性

都市快报橙柿互动
2026-02-21 00:08:59
大年初五“破五节”,老人说:初五5不吃,不富也安康,5不吃指啥

大年初五“破五节”,老人说:初五5不吃,不富也安康,5不吃指啥

阿龙美食记
2026-02-20 11:39:40
当年这张照片,不要说王石心动,是个男人都会心动

当年这张照片,不要说王石心动,是个男人都会心动

情感大头说说
2026-02-21 00:20:52
“这很难,但我相信你们”!黄仁勋上周宴请SK海力士工程师,亲自敬酒,敦促“无延迟交付HBM4”

“这很难,但我相信你们”!黄仁勋上周宴请SK海力士工程师,亲自敬酒,敦促“无延迟交付HBM4”

华尔街见闻官方
2026-02-19 12:04:56
刚签完协议就反水?阿根廷外长摊牌,对华喊话:不排除中国投资

刚签完协议就反水?阿根廷外长摊牌,对华喊话:不排除中国投资

南风不及你温柔
2026-02-21 02:35:28
两名初中生扶摔倒女子,交警认定负次责,被索赔22万,依据在哪?

两名初中生扶摔倒女子,交警认定负次责,被索赔22万,依据在哪?

谭浩俊
2026-02-20 04:32:25
上海瑞金、仁济医院等提醒:胰腺炎患者正在增加!千万注意,严重者危及生命

上海瑞金、仁济医院等提醒:胰腺炎患者正在增加!千万注意,严重者危及生命

环球网资讯
2026-02-20 15:59:10
第三次提交WTO改革文件,要求尊重经济体制

第三次提交WTO改革文件,要求尊重经济体制

家传编辑部
2026-02-20 19:57:13
2026-02-21 03:32:50
IT之家
IT之家
爱科技,爱这里 - 前沿科技人气平台
330376文章数 607010关注度
往期回顾 全部

科技要闻

莫迪举手欢呼 两大AI掌门人却握拳尴尬对峙

头条要闻

贝加尔湖遇难者遗体已被发现 涉事司机系私下接单

头条要闻

贝加尔湖遇难者遗体已被发现 涉事司机系私下接单

体育要闻

金牌夫妻!王心迪徐梦桃赛后拥抱太甜了

娱乐要闻

《将门独后》开拍,王鹤棣孟子义主演

财经要闻

特朗普全球关税被推翻!有何影响?

汽车要闻

比亚迪的“颜值担当”来了 方程豹首款轿车路跑信息曝光

态度原创

旅游
教育
房产
游戏
数码

旅游要闻

游人如织,新天地解锁马年最热闹的新春模样

教育要闻

170所大学,面临破产!

房产要闻

春节三亚楼市再放大招!千亿巨头,重磅推出超性价比海景现房

《战神》新作真要去埃及?关键线索:雅典娜 埃及猫现身

数码要闻

AMD "Zen 6" MSDT主流桌面处理器被曝最快2027年推出

无障碍浏览 进入关怀版