网易首页 > 网易号 > 正文 申请入驻

研究发现向聊天机器人询问简短的答案可能会增加幻觉

0
分享至

事实证明,告诉人工智能聊天机器人要简洁回复可能会让它产生比平时更多的幻觉。这是总部位于巴黎的人工智能测试公司 Giskard 的一项新研究得出的结论。Giskard 致力于为人工智能模型开发一套整体基准。

该公司的研究人员在一篇详细介绍其研究成果的博客文章中表示,提示用户对问题(尤其是关于模糊主题的问题)给出较短的答案可能会对人工智能模型的真实性产生负面影响。

研究人员写道:“我们的数据显示,系统指令的简单更改会极大地影响模型产生幻觉的倾向。这一发现对部署具有重要意义,因为许多应用程序优先考虑简洁的输出,以减少[数据]使用、改善延迟并最大限度地降低成本。”

幻觉是人工智能中一个棘手的问题。即使是最强大的模型有时也会产生幻觉,这是其概率 性质的一个特征。事实上,像 OpenAI 的 o3 这样的新型推理模型比之前的模型更容易产生幻觉,这使得它们的输出结果难以令人信赖。

Giskard 在其研究中指出,某些提示可能会加剧幻觉,例如要求简短回答的模糊且误导性的问题(例如“简要告诉我日本为何赢得二战”)。包括 OpenAI 的 GPT-4o(ChatGPT 的默认模型)、Mistral Large 和 Anthropic 的 Claude 3.7 Sonnet 在内的领先模型,在被要求简短回答时,其事实准确性都会下降。

为什么?Giskard 推测,当被告知不要详细回答时,模型根本就没有“空间”来承认错误的前提并指出错误。换句话说,强有力的反驳需要更长的解释。

研究人员写道:“当被迫保持简短时,模型总是会选择简洁而不是准确。对开发人员来说,或许最重要的是,像‘简洁’这样看似无害的系统提示,可能会破坏模型揭穿错误信息的能力。”

TechCrunch 会议展览:人工智能预订 TC Sessions: AI 的席位,向 1,200 多位决策者展示您的成果——无需巨额投入。席位有效期至 5 月 9 日,售完即止。

加州伯克利 | 6月5日

立即预订

吉斯卡德的研究还揭示了其他一些令人好奇的现象,例如,当用户自信地提出有争议的观点时,模型不太可能揭穿这些观点的真相;而且,用户声称自己喜欢的模型并不总是最真实的。事实上,OpenAI最近一直在努力寻找一种平衡,既能验证模型的有效性,又不会显得过于阿谀奉承。

研究人员写道:“用户体验的优化有时会以牺牲事实准确性为代价。这在准确性和符合用户期望之间造成了矛盾,尤其是当这些期望包含错误的前提时。”

特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相关推荐
热点推荐
“A妹”晒自拍却不慎走光,一张照片全网疯传,3.6亿粉丝看光光

“A妹”晒自拍却不慎走光,一张照片全网疯传,3.6亿粉丝看光光

星野娱乐天地
2026-06-26 18:52:42
男子因汗多味大被健身房退卡,还送他其他店月卡;男子:我是“严肃的健身爱好者”,出汗后都会清理;健身房:很浓很浓的味道

男子因汗多味大被健身房退卡,还送他其他店月卡;男子:我是“严肃的健身爱好者”,出汗后都会清理;健身房:很浓很浓的味道

洪观新闻
2026-06-25 16:14:01
下半年开始,央国企员工要面临严峻问题

下半年开始,央国企员工要面临严峻问题

三农老历
2026-06-27 15:35:30
余承东:全新一代问界M9上市1个月大定破42000台

余承东:全新一代问界M9上市1个月大定破42000台

快科技
2026-06-27 18:31:12
轻松一刻:别人夸你孩子懂事的话,这并不是夸奖~

轻松一刻:别人夸你孩子懂事的话,这并不是夸奖~

莱月昂
2026-06-27 22:37:58
吴宜泽再次不敌特鲁姆普,表演赛三连败!罗泽涛强势手感来袭!

吴宜泽再次不敌特鲁姆普,表演赛三连败!罗泽涛强势手感来袭!

多雨的天
2026-06-28 00:50:39
女排世联赛5胜3负排名第八,赖亚文官宣调整策略:香港站老将回归主力

女排世联赛5胜3负排名第八,赖亚文官宣调整策略:香港站老将回归主力

桃叶渡春
2026-06-27 19:04:34
崩溃!“根本删不完”!老人微信上有77万条未读消息,家属:群聊退一个,他们又拉一个,拉群还无需本人确认

崩溃!“根本删不完”!老人微信上有77万条未读消息,家属:群聊退一个,他们又拉一个,拉群还无需本人确认

佛山电视台小强热线
2026-06-26 22:37:52
卢库米:我们会重点盯防C罗,期待战胜葡萄牙拿下小组第一

卢库米:我们会重点盯防C罗,期待战胜葡萄牙拿下小组第一

懂球帝
2026-06-27 20:18:28
德布劳内:我很清楚,我再也不会是9年前的那个德布劳内了

德布劳内:我很清楚,我再也不会是9年前的那个德布劳内了

懂球帝
2026-06-27 22:04:24
已婚女子和男上司在办公室暧昧,17分钟小视频传出,如今怎样了

已婚女子和男上司在办公室暧昧,17分钟小视频传出,如今怎样了

丫头舫
2026-06-26 11:29:17
汪明荃何守信整夜鬼混?当年港圈惊天大瓜!

汪明荃何守信整夜鬼混?当年港圈惊天大瓜!

TVB的四小花
2026-06-27 17:23:03
三战三平,佛得角小组第二晋级,下一场挑战卫冕冠军阿根廷

三战三平,佛得角小组第二晋级,下一场挑战卫冕冠军阿根廷

澎湃新闻
2026-06-27 10:12:27
法国的国菜鹅肝,正在被中国的两个小县城悄悄打垮。

法国的国菜鹅肝,正在被中国的两个小县城悄悄打垮。

电动猫
2026-06-26 13:17:53
苹果 Apple TV 引来史诗级涨价,价格几乎翻倍!

苹果 Apple TV 引来史诗级涨价,价格几乎翻倍!

XCiOS俱乐部
2026-06-27 21:31:38
记者:于根伟因补时不足上前理论染红,萨尔瓦多尚未融入球队

记者:于根伟因补时不足上前理论染红,萨尔瓦多尚未融入球队

懂球帝
2026-06-27 22:35:09
巴西VS日本!谁能赢?罗纳尔多给出了1个答案

巴西VS日本!谁能赢?罗纳尔多给出了1个答案

体育哲人
2026-06-27 22:04:01
雷军用私家车装600斤车厘子,是一次失败的营销

雷军用私家车装600斤车厘子,是一次失败的营销

东方智音
2026-06-26 06:37:07
“走个面”再升级!网友深扒:半只脚踏入美国的人,教我们抓特务

“走个面”再升级!网友深扒:半只脚踏入美国的人,教我们抓特务

呼呼历史论
2026-06-27 16:31:11
你见过哪些低成本却很治愈的小习惯?网友:十块钱,把一天捞回来

你见过哪些低成本却很治愈的小习惯?网友:十块钱,把一天捞回来

夜深爱杂谈
2026-06-27 22:17:26
2026-06-28 01:47:00
cnBeta.COM incentive-icons
cnBeta.COM
提供IT行业即时资讯
68872文章数 70219关注度
往期回顾 全部

科技要闻

GPT-5.6发布,你暂时用不了!Mythos也放行

头条要闻

金价大跌 有商家资产缩水百万:跌掉一辆迈巴赫

头条要闻

金价大跌 有商家资产缩水百万:跌掉一辆迈巴赫

体育要闻

世界杯最火门将,站到了阿根廷和梅西面前

娱乐要闻

四提白玉兰终封后,杨紫:仍觉不真实

财经要闻

OpenAI推迟IPO重创软银!

汽车要闻

搭载华为乾崑ADS 5 全新猛士M817上市售29.99万起

态度原创

房产
游戏
时尚
亲子
军事航空

房产要闻

全国高考大放水,300分就能上本科!论上岸率,海南没输过!

《GTA6》PC版遥遥无期!销量太低不备重视?

伊姐周六热推:电视剧《昨夜将至》;电影《蝴蝶楼·惊魂》......

亲子要闻

马上检查你家冰箱!35岁孕妇遭感染后去世,元凶几乎家家都有

军事要闻

黎以美达成三方框架协议

无障碍浏览 进入关怀版