网易首页

注册免费邮箱

网易首页 > 网易号 > 正文申请入驻

「你是专家」竟成AI幻觉毒药？新论文一巴掌揭穿提示词最大骗局

2026-03-23 20:57:06　来源: 新智元

北京举报

0

分享至

新智元报道

编辑：KinHZ 元宇

【新智元导读】AI最强幻觉，原来不是不会，而是太会「装会」。「你是专家」这句咒语，可能骗了整个AI圈一年。

人生如戏，全靠演技，但AI不行——

最新论文证实，「让AI装专家」会可测量、持续地降低模型的准确率。

链接：https://arxiv.org/pdf/2603.18507

过去一年，AI圈最成功的骗局之一，可能就是这句话：

你是XX专家。

无数教程把它吹成神级提示词。

这句话几乎被包装成了大模型时代的「黑魔法」：只要人设立住，AI就会突然开窍。

但现在，最新论文给了所有人一记耳光：

这句神提示词，可能根本不是外挂，而是毒药。

研究发现，当AI被要求扮演「专家」时，它并不总是更聪明，反而会更像一个坚持人设的「假专家」：

不愿承认不知道，不愿暴露犹豫，不愿停下来仔细想，最后选择用一种极其专业、极其自信、极其像那么回事的方式，把错话说圆。

图 1: 专家角色在不同模型、任务类型、信息粒度及位置的影响分析

上图1中给出的结果非常直观：

长专家人设在5个生成类别上有显著提升，但在硬核的MMLU知识基准上，加了人设后准确率全面跌破71.6%的基线，哪怕是最短的人设也掉到了68.0%，而详细的长版本人设更是惨跌至66.3%。

安全场景则相反，「安全监督员」人设能显著提高拒绝越狱攻击的概率，在JailbreakBench上拒答率从53.2%升到70.9%。

因此，这篇论文最值得关注的一个地方，不只是它提出了「专家人设可能有害」，而是进一步解释了：为什么过去关于Persona Prompting（人格提示）的研究，结论总会相互矛盾。

幻觉的开端

当你对大模型念出「你是专家」

研究人员发现，Persona Prompting的效果并不是全方位的增益。

它的表现强烈依赖任务类型、模型训练方式、提示长度，以及人设到底放在system prompt还是user prompt里。

研究者把任务大致分成两类：

一类是「判别式任务」，更依赖预训练记忆，比如事实检索、知识判断、多项选择题；
另一类是「生成式任务」，更依赖对齐能力，比如格式遵循、风格控制、安全拒答、人类偏好匹配。

结果显示：

在安全防御、偏好对齐等「生成式任务」上，专家人设确实是个好工具。

但在知识检索、事实判断这类极度依赖预训练记忆的「判别式任务」上，专家人设却成了拖后腿的。

大模型「偏科」热力图：蓝色代表能力提升，红色代表能力受损。在普通指令微调模型（左图）中，大量出现的红色色块显示：所谓的专家人设正在全面破坏模型的客观知识准确度。

换句话说，专家人设提升的，很多时候不是「真实性」，而是「对齐感」。

在MT-Bench这类更偏生成质量的任务里，专家人设能提升写作、角色扮演、抽取、STEM表达等类别表现。

但到了MMLU这种更依赖知识检索的基准上，所有专家人设版本都在掉分。

这解释了一个很多用户都曾遇到过、但又说不清的体验：

为什么同一个模型，写邮件时像个训练有素的顾问；一到数学、事实核查、代码细节，反而一本正经地胡说八道？

因为它真的更像专家了，但未必更擅长把底层记忆准确调出来。

论文里甚至给了个很讽刺的例子。

掷两枚骰子，点数和至少为3的概率是多少？不加数学人设时，模型基本答对，给出35/36。

加了数学专家人设后，它却开始一本正经地列步骤，最后把简单概率题算错。

你能明显感觉到，它不是不会「表演数学家」，而是太像在「做数学的样子」了。

我们奖励的是「像专家」，还是「答得对」？

今天很多用户判断一个模型好不好，第一标准并不是「它是不是更接近事实」，而是「它是不是说得稳、说得顺、说得像专业人士」。

只要它结构完整、术语到位、语气沉着，用户就会天然提高信任度。

这正是大模型最危险的一类幻觉：不是胡说八道，而是用极其专业的方式说错话。

从训练逻辑看，预训练阶段，大模型主要学到的是知识记忆、模式统计、事实关联、语言规律；后续的指令微调和RLHF，则更多在塑造它「怎么说」「怎么更像人类偏好的回答者」。

论文的关键判断就在这里：

专家人设本质上更容易激活的是后者，也就是风格、格式、意图跟随和安全边界这些对齐能力；但当任务需要的是直接、精准地调用预训练知识时，额外的人设上下文可能反而会干扰检索。

你可以把它理解成一种「对齐税」：模型为了更符合你期待中的专家样子，牺牲了一部分事实调用的准确度。

相关研究也反复证实，Persona Prompting并不总能带来稳定提升，有时甚至会因为引入了不相关的人格属性而产生难以预料的负面影响。

所以，真正的问题其实不在于「人设」本身，而在于我们把风格控制、价值对齐、事实判断、推理求解，这些完全不同的任务，粗暴塞给了同一种Persona机制。

让模型在写一封安抚用户的邮件时像个成熟顾问，没毛病。

让模型在面对危险请求时像个安全审查员，也没毛病。

但让它在做概率题、答医学事实、查法律条文时，先进入一段长长的「专家角色扮演」，这可能从一开始就走错了方向。

救赎之道

路由分配才是正解

那是不是从此以后，专家人设就该扔掉？

当然不是。

如前文提到的，研究人员同时发现，专家人设在「生成式任务」等更依赖对齐能力的特定场景下仍然具有不可替代的价值。

所以，核心关键根本不是「用不用」，而是「什么时候用」。

为了解决这个痛点，研究人员发明了PRISM算法（Persona Routing via Intent-based Self-Modeling，基于意图的自举人格路由）。

这个系统不给AI固定一个角色，而是先看懂用户真实意图，再动态路由分配正确人设。

图中展示了两种自动选择专家角色的方法。PRISM通过LoRA适配器动态分配合适人设，无需外部资源即可保留对齐益处、维持判别任务准确性

PRISM的核心思路非常精妙：

它不再在推理时给模型生硬地套上专家Prompt，而是把所有专家人设中有益的部分，提前「浓缩蒸馏」到了一个轻量化的门控LoRA适配器（Gated LoRA Adapter）中。

在真正面对用户问题时，PRISM的门控机制只做一道极简的二元选择题：

开启「专家外挂」，还是退回「朴素模式」。

用户问「帮我写代码」或「进行高情商安抚」，系统判定需要对齐能力，门控瞬间激活LoRA适配器，调出内化好的专家水平；

用户问「客观数学计算」或「事实核查」，系统判定人设会产生干扰，门控立刻关闭适配器，让未经修饰的基座模型用最纯粹的预训练记忆去准确作答。

整个PRISM提取过程不需要额外数据、额外模型、额外算力。

成本并不高，训练一个门控单LoRA版本，在A100上大约45分钟，额外开销也比较小。

具体而言，PRISM训练流程分为五大阶段：

(1) 以人设提示词为条件生成查询；

(2) 按人设作答，生成多种人设下的回复；

(3) 通过成对比较进行自验证，从而筛选蒸馏数据集；

(4) 进行路由器/门控模块训练，学习基于意图的路由机制，以判断何时启用人设会更有帮助；

(5) 通过LoRA进行自蒸馏，让模型内化这些人设行为。

PRISM想做的不是让AI「更会演」，而是「该演的时候演，该准的时候准」。

结果很炸裂：

在保持极低算力开销的同时，大模型终于能在「高情商生成」与「硬核知识检索」之间实现丝滑切换。

PRISM不仅在生成式任务上大幅提升了人类偏好与安全对齐得分，还完美保住了判别式任务的客观准确率。

Qwen等五个模型及MT-Bench等三个基准维度上的综合评估

在Qwen2.5-7B上，单纯做专家提示时，整体分数是72.2，和基线71.8差不多，说明「有得有失，基本互相抵消」。

但PRISM能把整体拉到73.5，MT-Bench从7.56提到7.76，同时把MMLU维持在71.7%，基本不伤知识准确率。

Mistral-7B上更明显：

专家提示会把整体表现从79.9打到71.4，但PRISM可以做到81.5，甚至高于基线。Llama-3.1-8B上，PRISM也把Overall从67.5提高到70.3。

这意味着：提示工程的下一阶段，可能不再是「写一个更长、更唬人的专家人设prompt」，而是「把任务拆清楚，再决定是否启用人格化对齐」。

这时，PRISM像聪明的中介，先看清问题本质，再派对的人上场。

大模型这时的表现既专业，又老实，再也不会去用错误换好评。

行动起来

就现在

所以，别再第一句话就喊「你是专家」，试着把PRISM这样的动态路由用起来。

让AI根据问题真正需要什么角色，而不是永远戴同一张面具。

图4：在Qwen2.5-7B-Instruct模型上，门控网络将查询路由至LoRA的比例与各类别在专家角色影响下的表现之间的关系

如果你是开发者，请开始关注PRISM这样的底层意图路由机制，让模型在权重层面就学会「该演就演，该准就准」。

如果你是普通用户，现在就可以行动。

打开对话框，在遇到硬核知识核查、逻辑推演时，把那句自作聪明的「专家咒语」果断删掉。

换成一句最干净的指令：「请一步步客观推演，如果不确定就直接告诉我」。

少给AI加戏，它才能真正开始思考。

而你，也会第一次听到它说真话。

参考资料：

https://x.com/sukh_saroy/status/2035761644270411994?s=20%20

https://arxiv.org/abs/2603.18507

特别声明：以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布，本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相关推荐

热点推荐

超越OpenAI，中国00后团队攻破「记忆」难题！打造下一个AI互联网时刻

新智元 2026-07-15 13:59:09
33 跟贴 33
人人想造Codex，但Agent正在接管的不只是你的代码 | ToB产业观察

钛媒体APP 2026-07-15 18:00:20
0 跟贴 0

ISSTA 2026｜LAVE：面向扩散语言模型的约束解码

机器之心Pro 2026-07-15 14:35:24
0 跟贴 0

大模型降价之后，HPC路线怎么打Token成本战？

虎嗅APP 2026-07-16 01:48:29
0 跟贴 0
“AI领域最被滥用的术语”李飞飞终于把世界模型讲明白了

量子位 2026-06-07 04:37:43
0 跟贴 0

没上市就被叫停！豆包AI眼镜二代来了，字节志在必得？

雷科技 2026-07-16 01:42:03
0 跟贴 0

奇门动力发AI影视制作平台！靠4大自研智能体，成本大降90%

智东西 2026-07-16 00:12:40
0 跟贴 0
AI 员工都开始删库了，公司还没给它“办入职”

虎嗅APP 2026-07-16 01:02:16
0 跟贴 0

00后小哥复刻Claude最强神话模型OpenMythos

量子位 2026-04-23 11:44:18
0 跟贴 0
拒绝大力出奇迹，PRISM框架让dLLM也能高效Test-Time Scaling

机器之心Pro 2026-05-11 14:28:29
0 跟贴 0
纪实大案真实案件故事悄悄藏在床下的男同事细思极恐

科普世界奇闻 2026-07-13 07:41:24
8 跟贴 8
女星聚集拍摄杂志，上秒还在激情交谈，听到指令立马变脸！

搞怪一族的欢乐窝 2026-07-13 10:10:58
1 跟贴 1
河南商水县两财政项目完工，劳务分包负责人投诉：工钱仅结算5万

澎湃新闻 2026-07-15 16:18:05
8570 跟贴 8570
老年人成为诈骗重要对象守护爸妈养老钱应该怎么做？

农视网 2026-07-14 16:08:04
1 跟贴 1
专骗老年人的保健品，这十种没一个好的，叮嘱家里别被忽悠！

搞笑的咕咕鸟 2026-07-12 10:51:44
1 跟贴 1
张雪称无人驾驶摩托车车主已找到

潇湘晨报 2026-07-15 10:56:53
6859 跟贴 6859
阿里发实时语音交互模型！毫秒级响应不降智，还能边听边打断

智东西 2026-07-15 22:48:20
0 跟贴 0
亚马尔"九擒"姆巴佩 1.5亿奥利塞20次丢失球权0过人

澎湃新闻 2026-07-15 11:28:35
4842 跟贴 4842
周润发最催泪的角色！阿郎的故事到底有多意难平

木木探幕后 2026-07-13 15:51:59
5 跟贴 5
外媒：中国出台扩大消费五年规划

参考消息 2026-07-15 16:04:14
5905 跟贴 5905
千万别以为树叶小鸟是模型，夜里集体入眠，饲养人一次性全部收笼

超话看世界 2026-07-13 12:45:51
1 跟贴 1
数学老师讲解6÷11×99的简便算法

农村丑爸记录生活 2026-07-14 05:21:00
1 跟贴 1
表面兄弟，背后杀手！巢中上演致命骗局！

嗷呜动物解说 2026-07-11 10:47:53
3 跟贴 3
温州“明珠七号”邮轮突然大幅倾斜，超2亿元打造却闲置14年；涉事公司回应：相关部门迅速到场开展处置工作，详细原因正进一步调查中

荔枝新闻 2026-07-15 11:13:02
2664 跟贴 2664
「电竞之神」T1 FAKER加盟推理秀！　网看傻：到底何时拍的？

ETtoday星光云 2026-07-15 14:51:03
0 跟贴 0
街头骗局花样百出，稍不留意就会中招，遇到一定多加注意

趣味加工厂 2026-07-11 16:30:07
1 跟贴 1
新型ai人脸骗局，遇到陌生人要求读一连串数字一定不要去读

无恙综艺 2026-07-11 16:03:00
0 跟贴 0
上半年我国GDP同比增长4.7%

界面新闻 2026-07-15 11:56:17
4697 跟贴 4697
隐瞒身份去老公公司上班吃午饭时给他夹了块肉女秘书却怒了

生活明明乐 2026-07-15 10:08:11
0 跟贴 0
路边陌生人借火搭讪只是伪装，暗藏套路很容易被骗？

希希爱玩车 2026-07-11 21:02:43
0 跟贴 0
又一架歼-35绿皮机画面披露细节满满

看看新闻Knews 2026-07-15 21:25:06
349 跟贴 349
内贾德发表声明

新京报 2026-07-15 18:22:07
1030 跟贴 1030
逻辑之圣人不死大盗不止#逻辑 #道德经

八极拳兑一 2026-07-14 04:50:38
0 跟贴 0
高速公路上的骗局，帮他报警就行，不要相信任何陌生人的鬼话

开心果来啦 2026-07-13 08:30:19
0 跟贴 0
37岁男子花8万“买”来退休一领就是15年，为防穿帮每月给当事人转账装“农保金”法院判了：4年刑期+全额退赔捷径最致命

河南都市频道 2026-07-15 16:07:28
0 跟贴 0
女子因赌博输钱，两度赴境外参与电诈

福建第一帮帮团 2026-07-14 11:17:48
0 跟贴 0
全国统筹+代际公平养老金调整的新逻辑

民商视点 2026-07-14 22:54:18
0 跟贴 0
168万拍下“乾隆梅瓶”仅值250元！拍卖公司经理当托儿诈骗获刑

星视频 2026-07-15 15:10:37
0 跟贴 0
高考再次验证张桂梅“压迫式教育”：教育最大骗局，就是释放天性

老娱记啊 2026-07-14 14:55:08
110 跟贴 110
银行卡半夜被盗刷10万？花2块钱买瓶水，竟让银行全额赔付！ #银行 #防诈骗

壹号塔台 2026-07-13 14:23:39
1 跟贴 1

美国会众议院通过永久实行夏令时法案

美国会众议院通过永久实行夏令时法案

澎湃新闻

2026-07-15 06:19:03

一喝酒就脸红，痴呆蛋白猛涨3倍多？斯坦福最新：喝酒“上脸”者，易加剧脑损伤，促进阿尔茨海默病，诱发神经炎症

一喝酒就脸红，痴呆蛋白猛涨3倍多？斯坦福最新：喝酒“上脸”者，易加剧脑损伤，促进阿尔茨海默病，诱发神经炎症

梅斯医学

2026-07-12 07:56:33

发现一个现象：越是分房睡、财务上 AA 制、不干涉对方隐私的夫妻，感情越没有温度，心中隔阂太深，把婚姻过成合租

发现一个现象：越是分房睡、财务上 AA 制、不干涉对方隐私的夫妻，感情越没有温度，心中隔阂太深，把婚姻过成合租

不二大叔

2026-07-15 00:02:34

欧文：踢阿根廷才是第一场真正的硬仗，梅努有机会成为功臣

欧文：踢阿根廷才是第一场真正的硬仗，梅努有机会成为功臣

懂球帝

2026-07-15 17:39:17

天空谈库巴西：19岁在中后卫位置表现如此成熟，足坛实属罕见

天空谈库巴西：19岁在中后卫位置表现如此成熟，足坛实属罕见

懂球帝

2026-07-15 22:47:33

东北985院长连续两年卧底山东高考招生群，挑拨南开和天大对立

东北985院长连续两年卧底山东高考招生群，挑拨南开和天大对立

高校生态观察

2026-07-15 01:53:30

阿根廷队真被裁判保送？机构复盘6次关键判罚：1次获利，5次受损

阿根廷队真被裁判保送？机构复盘6次关键判罚：1次获利，5次受损

红星新闻

2026-07-15 12:32:07

程潇明星图片

GC的007

2026-06-18 06:31:23

1290万高考生真相：多数人都是四百多分，学霸只是少数

1290万高考生真相：多数人都是四百多分，学霸只是少数

金哥说新能源车

2026-07-15 19:22:26

50万门槛+沪市市值，你达标了吗？长鑫科技7.16科创板申购，最详操作流程一文看懂

50万门槛+沪市市值，你达标了吗？长鑫科技7.16科创板申购，最详操作流程一文看懂

和讯网

2026-07-15 18:21:23

中国影史首位票房破百亿的85后女演员诞生！

中国影史首位票房破百亿的85后女演员诞生！

黄河新闻网吕梁

2026-07-15 16:30:46

公元前36年，穷书生私自伪造圣旨调集四万兵马，奔袭三千里灭一国

公元前36年，穷书生私自伪造圣旨调集四万兵马，奔袭三千里灭一国

磊子讲史

2026-06-12 18:27:28

暗黑心理学：一个男人可以花钱去嫖一个长期卖淫的女人，却始终不肯原谅出轨悔罪回家的老婆。这是怎么回事呢？

暗黑心理学：一个男人可以花钱去嫖一个长期卖淫的女人，却始终不肯原谅出轨悔罪回家的老婆。这是怎么回事呢？

心理观察局

2026-06-17 06:38:26

我今年38，娶了个同村45岁寡妇，洞房夜她关了灯，我傻眼了

我今年38，娶了个同村45岁寡妇，洞房夜她关了灯，我傻眼了

i书与房

2026-07-15 17:59:53

性学家说：男人动不动牵你手，揉你耳朵，反复触碰你皮肤，就是肤浅好色。但恰恰相反，这两种触觉饥渴是他把你做为唯一安全感的生理性依赖

性学家说：男人动不动牵你手，揉你耳朵，反复触碰你皮肤，就是肤浅好色。但恰恰相反，这两种触觉饥渴是他把你做为唯一安全感的生理性依赖

心理观察局

2026-07-15 07:20:13

反杀彻底打响！印尼砍矿、非洲跟风锁矿，中国早已铺好三条后路

反杀彻底打响！印尼砍矿、非洲跟风锁矿，中国早已铺好三条后路

安安说

2026-07-15 11:45:51

凌晨3点世界杯21亿对决！阿根廷vs英格兰梅西剑指决赛冲击神迹

凌晨3点世界杯21亿对决！阿根廷vs英格兰梅西剑指决赛冲击神迹

侃球熊弟

2026-07-15 07:30:59

北京“最火驻京办”开分店？本周正式开业，选址石景山！有人称“加盟”，网友晒：性价比高

北京“最火驻京办”开分店？本周正式开业，选址石景山！有人称“加盟”，网友晒：性价比高

北京商报

2026-07-15 14:12:14

踢球者：拜仁没想到那么多一线队球员能踢季前赛，仅3人缺席

踢球者：拜仁没想到那么多一线队球员能踢季前赛，仅3人缺席

懂球帝

2026-07-15 16:36:24

他17岁考入清华，62岁出任国务院副总理，后官至正国级，享年77岁

他17岁考入清华，62岁出任国务院副总理，后官至正国级，享年77岁

浔阳咸鱼

2026-07-15 11:40:09

AI产业主平台领航智能+时代

15699文章数 66956关注度

往期回顾全部

科技要闻

国行大突破！“Apple智能”已备案

头条要闻

美国要“彻底瓦解”国际刑事法院日本慌了

头条要闻

美国要“彻底瓦解”国际刑事法院日本慌了

体育要闻

世界杯两大巨星，加一起22岁

娱乐要闻

大S遗嘱曝光！S家拒不承认

财经要闻

梁文锋身家2400亿登顶全球AI首富

汽车要闻

爱玩会玩小鹏MONA L03这次来势凶猛

态度原创

+arrTaiduYuanC[i].tag+' | '+arrTaiduYuanC[i].title+'
\

游戏

教育

家居

亲子

旅游

FS社《The Duskbloods》测试官宣！7月22日报名

教育要闻

高考地理中的两个问题分析

家居要闻

2026建博会(广州) 公装联探展交流活动

亲子要闻

破解矮小症性早熟难题，深圳市儿童医院牵头成立全国诊疗联盟

旅游要闻

守着漭水大河生活几十年，当地人离不开这汪山水，藏满烟火温情！

© 1997-2026 网易公司版权所有 About NetEase | 公司简介 | 联系方法 | 招聘信息 | 客户服务 | 隐私政策 | 不良信息举报 Complaint Center | 廉正举报 | 侵权投诉

无障碍浏览进入关怀版