网易首页 > 网易号 > 正文 申请入驻

AI聊天机器人越聊越“笨”?可能真不是错觉

0
分享至

不知道大家有没有这种感觉:和AI机器人短时间聊天的话还行,时间一长,就感觉对话开始变的前言不搭后语、逻辑不通。

其实这种感觉并不是错觉。

最近,微软发表的一项研究证实,即使是目前最先进的大语言模型,在多轮对话中的可靠性也会急剧下降。


研究人员对包括 GPT-4.1、Gemini 2.5 Pro、Claude 3.7 Sonnet、o3、DeepSeek R1 和 Llama 4 在内的 15 款顶尖模型进行了超过 20 万次模拟对话分析,揭示出一个被称为“迷失会话”的系统性缺陷。


数据显示,这些模型在单次提示任务中的成功率可达 90%,但当同样的任务被拆解成多轮自然对话后,成功率骤降至约 65%。

研究指出,模型的核心能力仅降低约 15%,但“不可靠性”却飙升 112%。

也就是说,AI 大模型仍然具备解决问题的能力,但在多轮对话中变得高度不稳定,难以持续跟踪上下文。


研究人员进一步分析了造成性能下降的行为机制。

首先是“过早生成”。模型在用户尚未完整说明需求前就尝试给出最终答案。一旦在早期回合中形成错误假设,模型后续便会在该错误的基础上继续推理,而不是随着新信息的加入进行修正,从而导致错误逐步放大。

其次是“答案膨胀”。在多轮对话中,模型的回复长度比单轮对话增加了 20% 至 300%。更长的回答往往包含更多假设与“幻觉”,这些内容随后被纳入对话的持续上下文,从而进一步影响后续推理的准确性。


令人意外的是,即使是配备了额外“思考词元”(thinking tokens)的新一代推理模型,如 OpenAI o3 和 DeepSeek R1,也未能显著改善在多轮对话中的表现。

研究人员指出,现有的基准测试主要基于理想的单轮场景,忽略了模型在真实世界中的行为。

因此,对于那些依赖 AI 构建复杂对话流程或智能体的开发者而言,这一结论意味着未来将要接受严峻挑战。


再来看看其他消息。

微软日前测试 Windows 11 新版“画图”(Paint)应用,重点引入“自由旋转”功能。

根据微软官方描述,用户现在可以全方位角度调整形状、文本框以及任何活动的图像选区。用户选中对象后,其上方会出现一个“旋转手柄”,用户只需拖动该手柄即可向任意方向自由旋转对象,从而实现更自然的构图和布局。


除了直观的手动拖拽,微软还为需要高精度编辑的用户提供了解决方案。在“旋转”菜单下新增了“自定义旋转”选项,用户可以在此输入具体的角度数值,实现精确到 1 度的微调。

特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相关推荐
热点推荐
来美23年仍难逃遣返!持绿卡女子突遭ICE逮捕,命运急转直下

来美23年仍难逃遣返!持绿卡女子突遭ICE逮捕,命运急转直下

华人生活网
2026-02-22 01:57:14
陪睡陪玩是冰山一角?又一女演员曝内娱潜规则,原来岳云鹏没说谎

陪睡陪玩是冰山一角?又一女演员曝内娱潜规则,原来岳云鹏没说谎

丰谭笔录
2026-01-14 07:05:08
北大才子杨舒春,不顾父母跪求拒进外交部,痴迷种地,后来怎样了

北大才子杨舒春,不顾父母跪求拒进外交部,痴迷种地,后来怎样了

珺瑶婉史
2025-12-25 19:45:03
沙溢主演电影票房破100亿

沙溢主演电影票房破100亿

手工制作阿歼
2026-02-22 02:50:48
48小时大变脸!美国紧急撤回名单,高市急用简体中文向中国低头

48小时大变脸!美国紧急撤回名单,高市急用简体中文向中国低头

铁锤简科
2026-02-21 00:01:59
杨紫告别白菊长文,杨紫真的已经瘦到天赋上限了,这也太牛了…

杨紫告别白菊长文,杨紫真的已经瘦到天赋上限了,这也太牛了…

乡野小珥
2026-02-21 19:38:37
当年轻人接管年货大权后,画风就变了!网友:一代人有一代人的年货

当年轻人接管年货大权后,画风就变了!网友:一代人有一代人的年货

另子维爱读史
2026-02-11 18:19:40
贿赂安保,中国导游十年用同一张门票进卢浮宫

贿赂安保,中国导游十年用同一张门票进卢浮宫

凯利经济观察
2026-02-20 11:43:34
刘卫东“受贿数额特别巨大”是怎么回事?

刘卫东“受贿数额特别巨大”是怎么回事?

雪中风车
2026-02-20 22:18:22
球员锦标赛四强出炉:赵心童化身吕布战三英,进决赛排名超塞尔比!

球员锦标赛四强出炉:赵心童化身吕布战三英,进决赛排名超塞尔比!

林子说事
2026-02-21 22:11:24
抢疯了!曼联盯上这位 “完美目标”,拜仁利物浦直接截胡?

抢疯了!曼联盯上这位 “完美目标”,拜仁利物浦直接截胡?

奶盖熊本熊
2026-02-22 02:41:10
史诗级裁决!黄金冲破5100,白银狂飙9%!

史诗级裁决!黄金冲破5100,白银狂飙9%!

格隆汇
2026-02-21 18:10:06
于根伟:如果不是扣10分起步,不会换萨尔瓦多;保级是底线

于根伟:如果不是扣10分起步,不会换萨尔瓦多;保级是底线

懂球帝
2026-02-21 10:22:16
高德地图“春运劫”:五天被三次约谈,十亿流量变现背后的盈利焦虑

高德地图“春运劫”:五天被三次约谈,十亿流量变现背后的盈利焦虑

我不叫阿哏
2026-02-21 00:01:48
老板娘说她过年回家放炮!我该怎么回答?

老板娘说她过年回家放炮!我该怎么回答?

太急张三疯
2026-02-21 08:11:23
杨瀚森4分无缘对位偶像!掘金狂胜开拓者54分 约基奇32+9+7

杨瀚森4分无缘对位偶像!掘金狂胜开拓者54分 约基奇32+9+7

醉卧浮生
2026-02-21 13:28:41
汤唯带韩国老公回家拜年,机场霸气呵斥插队者,9岁女儿圈粉无数

汤唯带韩国老公回家拜年,机场霸气呵斥插队者,9岁女儿圈粉无数

右右细毛和爸妈
2026-02-21 12:00:15
王诗龄在英国过年,戴着30万的首饰吃年夜饭,生活越来越西式化了

王诗龄在英国过年,戴着30万的首饰吃年夜饭,生活越来越西式化了

小椰的奶奶
2026-02-20 22:52:30
合肥公司造出了比“光刻机”还要贵的大国重器,直接碾压日本货

合肥公司造出了比“光刻机”还要贵的大国重器,直接碾压日本货

我心纵横天地间
2026-01-23 18:15:26
曼城vs纽卡斯尔联:哈兰德、多纳鲁马首发,特里皮尔、托纳利出战

曼城vs纽卡斯尔联:哈兰德、多纳鲁马首发,特里皮尔、托纳利出战

懂球帝
2026-02-22 03:23:06
2026-02-22 03:56:49
科技美学
科技美学
科技美学
17384文章数 68231关注度
往期回顾 全部

科技要闻

智谱上市1月涨5倍,市值超越京东、快手

头条要闻

贝加尔湖7名遇难者身份全部确认 1家4口仅1人生还

头条要闻

贝加尔湖7名遇难者身份全部确认 1家4口仅1人生还

体育要闻

徐梦桃:这是我第一块铜牌 给我换个吉祥物

娱乐要闻

黄晓明澳门赌博输十几亿 本人亲自回应

财经要闻

一觉醒来,世界大变,特朗普改新打法了

汽车要闻

比亚迪的“颜值担当”来了 方程豹首款轿车路跑信息曝光

态度原创

时尚
房产
本地
健康
军事航空

冬天穿衣尽量别露腿,这些基础穿搭可尝试,简单大方又不挑人

房产要闻

窗前即地标!独占三亚湾C位 自贸港总裁行宫亮相

本地新闻

春花齐放2026:《骏马奔腾迎新岁》

转头就晕的耳石症,能开车上班吗?

军事要闻

硬核揭秘!福建舰“一马当先”底气何在

无障碍浏览 进入关怀版