网易首页 > 网易号 > 正文 申请入驻

「你是专家」竟成AI幻觉毒药?新论文一巴掌揭穿提示词最大骗局

0
分享至


新智元报道

编辑:KinHZ 元宇

【新智元导读】AI最强幻觉,原来不是不会,而是太会「装会」。 「你是专家」这句咒语,可能骗了整个AI圈一年。

人生如戏,全靠演技,但AI不行——

最新论文证实,「让AI装专家」会可测量、持续地降低模型的准确率


链接:https://arxiv.org/pdf/2603.18507

过去一年,AI圈最成功的骗局之一,可能就是这句话:

你是XX专家。

无数教程把它吹成神级提示词。

这句话几乎被包装成了大模型时代的「黑魔法」:只要人设立住,AI就会突然开窍。

但现在,最新论文给了所有人一记耳光:

这句神提示词,可能根本不是外挂,而是毒药

研究发现,当AI被要求扮演「专家」时,它并不总是更聪明,反而会更像一个坚持人设的「假专家」:

不愿承认不知道,不愿暴露犹豫,不愿停下来仔细想,最后选择用一种极其专业、极其自信、极其像那么回事的方式, 把错话说圆。


图 1: 专家角色在不同模型、任务类型、信息粒度及位置的影响分析

上图1中给出的结果非常直观:

长专家人设在5个生成类别上有显著提升,但在硬核的MMLU知识基准上,加了人设后准确率全面跌破71.6%的基线,哪怕是最短的人设也掉到了68.0%,而详细的长版本人设更是惨跌至66.3%。

安全场景则相反,「安全监督员」人设能显著提高拒绝越狱攻击的概率,在JailbreakBench上拒答率从53.2%升到70.9%。

因此,这篇论文最值得关注的一个地方,不只是它提出了「专家人设可能有害」,而是进一步解释了:为什么过去关于Persona Prompting(人格提示)的研究,结论总会相互矛盾

幻觉的开端

当你对大模型念出「你是专家」

研究人员发现,Persona Prompting的效果并不是全方位的增益。

它的表现强烈依赖任务类型、模型训练方式、提示长度,以及人设到底放在system prompt还是user prompt里。

研究者把任务大致分成两类:

  • 一类是「判别式任务」,更依赖预训练记忆,比如事实检索、知识判断、多项选择题;

  • 另一类是「生成式任务」,更依赖对齐能力,比如格式遵循、风格控制、安全拒答、人类偏好匹配。

结果显示:

在安全防御、偏好对齐等「生成式任务」上,专家人设确实是个好工具。

但在知识检索、事实判断这类极度依赖预训练记忆的「判别式任务」上,专家人设却成了拖后腿的。


大模型「偏科」热力图:蓝色代表能力提升,红色代表能力受损。在普通指令微调模型(左图)中,大量出现的红色色块显示:所谓的专家人设正在全面破坏模型的客观知识准确度。

换句话说,专家人设提升的,很多时候不是「真实性」,而是「对齐感」

在MT-Bench这类更偏生成质量的任务里,专家人设能提升写作、角色扮演、抽取、STEM表达等类别表现。

但到了MMLU这种更依赖知识检索的基准上,所有专家人设版本都在掉分。

这解释了一个很多用户都曾遇到过、但又说不清的体验:

为什么同一个模型,写邮件时像个训练有素的顾问;一到数学、事实核查、代码细节,反而一本正经地胡说八道?

因为它真的更像专家了,但未必更擅长把底层记忆准确调出来。

论文里甚至给了个很讽刺的例子。

掷两枚骰子,点数和至少为3的概率是多少?不加数学人设时,模型基本答对,给出35/36。

加了数学专家人设后,它却开始一本正经地列步骤,最后把简单概率题算错。

你能明显感觉到,它不是不会「表演数学家」,而是太像在「做数学的样子」了。

我们奖励的是「像专家」,还是「答得对」?

今天很多用户判断一个模型好不好,第一标准并不是「它是不是更接近事实」,而是「它是不是说得稳、说得顺、说得像专业人士」。

只要它结构完整、术语到位、语气沉着,用户就会天然提高信任度。

这正是大模型最危险的一类幻觉:不是胡说八道,而是用极其专业的方式说错话

从训练逻辑看,预训练阶段,大模型主要学到的是知识记忆、模式统计、事实关联、语言规律;后续的指令微调和RLHF,则更多在塑造它「怎么说」「怎么更像人类偏好的回答者」。

论文的关键判断就在这里:

专家人设本质上更容易激活的是后者,也就是风格、格式、意图跟随和安全边界这些对齐能力;但当任务需要的是直接、精准地调用预训练知识时,额外的人设上下文可能反而会干扰检索。

你可以把它理解成一种「对齐税」:模型为了更符合你期待中的专家样子,牺牲了一部分事实调用的准确度

相关研究也反复证实,Persona Prompting并不总能带来稳定提升,有时甚至会因为引入了不相关的人格属性而产生难以预料的负面影响。

所以,真正的问题其实不在于「人设」本身,而在于我们把风格控制、价值对齐、事实判断、推理求解,这些完全不同的任务,粗暴塞给了同一种Persona机制。

让模型在写一封安抚用户的邮件时像个成熟顾问,没毛病。

让模型在面对危险请求时像个安全审查员,也没毛病。

但让它在做概率题、答医学事实、查法律条文时,先进入一段长长的「专家角色扮演」,这可能从一开始就走错了方向。

救赎之道

路由分配才是正解

那是不是从此以后,专家人设就该扔掉?

当然不是。

如前文提到的,研究人员同时发现,专家人设在「生成式任务」等更依赖对齐能力的特定场景下仍然具有不可替代的价值。

所以,核心关键根本不是「用不用」,而是「什么时候用」。

为了解决这个痛点,研究人员发明了PRISM算法(Persona Routing via Intent-based Self-Modeling,基于意图的自举人格路由)。

这个系统不给AI固定一个角色,而是先看懂用户真实意图,再动态路由分配正确人设。


图中展示了两种自动选择专家角色的方法。PRISM通过LoRA适配器动态分配合适人设,无需外部资源即可保留对齐益处、维持判别任务准确性

PRISM的核心思路非常精妙:

它不再在推理时给模型生硬地套上专家Prompt,而是把所有专家人设中有益的部分,提前「浓缩蒸馏」到了一个轻量化的门控LoRA适配器(Gated LoRA Adapter)中。

在真正面对用户问题时,PRISM的门控机制只做一道极简的二元选择题:

开启「专家外挂」,还是退回 「朴素模式」。

用户问「帮我写代码」或「进行高情商安抚」,系统判定需要对齐能力,门控瞬间激活LoRA适配器,调出内化好的专家水平;

用户问「客观数学计算」或「事实核查」,系统判定人设会产生干扰,门控立刻关闭适配器,让未经修饰的基座模型用最纯粹的预训练记忆去准确作答。

整个PRISM提取过程不需要额外数据、额外模型、额外算力。

成本并不高,训练一个门控单LoRA版本,在A100上大约45分钟,额外开销也比较小。

具体而言,PRISM训练流程分为五大阶段:

(1) 以人设提示词为条件生成查询;

(2) 按人设作答,生成多种人设下的回复;

(3) 通过成对比较进行自验证,从而筛选蒸馏数据集;

(4) 进行路由器/门控模块训练,学习基于意图的路由机制,以判断何时启用人设会更有帮助;

(5) 通过LoRA进行自蒸馏,让模型内化这些人设行为。

PRISM想做的不是让AI「更会演」,而是「该演的时候演,该准的时候准」。

结果很炸裂:

在保持极低算力开销的同时,大模型终于能在「高情商生成」与「硬核知识检索」之间实现丝滑切换。

PRISM不仅在生成式任务上大幅提升了人类偏好与安全对齐得分,还完美保住了判别式任务的客观准确率。


Qwen等五个模型及MT-Bench等三个基准维度上的综合评估

在Qwen2.5-7B上,单纯做专家提示时,整体分数是72.2,和基线71.8差不多,说明「有得有失,基本互相抵消」。

但PRISM能把整体拉到73.5,MT-Bench从7.56提到7.76,同时把MMLU维持在71.7%,基本不伤知识准确率。

Mistral-7B上更明显:

专家提示会把整体表现从79.9打到71.4,但PRISM可以做到81.5,甚至高于基线。Llama-3.1-8B上,PRISM也把Overall从67.5提高到70.3。

这意味着:提示工程的下一阶段,可能不再是「写一个更长、更唬人的专家人设prompt」,而是「把任务拆清楚,再决定是否启用人格化对齐」。

这时,PRISM像聪明的中介,先看清问题本质,再派对的人上场。

大模型这时的表现既专业,又老实,再也不会去用错误换好评。

行动起来

就现在

所以,别再第一句话就喊「你是专家」,试着把PRISM这样的动态路由用起来。

让AI根据问题真正需要什么角色,而不是永远戴同一张面具。


图4:在Qwen2.5-7B-Instruct模型上,门控网络将查询路由至LoRA的比例与各类别在专家角色影响下的表现之间的关系

如果你是开发者,请开始关注PRISM这样的底层意图路由机制,让模型在权重层面就学会「该演就演,该准就准」。

如果你是普通用户,现在就可以行动。

打开对话框,在遇到硬核知识核查、逻辑推演时,把那句自作聪明的「专家咒语」果断删掉。

换成一句最干净的指令:「请一步步客观推演,如果不确定就直接告诉我」。

少给AI加戏,它才能真正开始思考。

而你,也会第一次听到它说真话。

参考资料:

https://x.com/sukh_saroy/status/2035761644270411994?s=20%20

https://arxiv.org/abs/2603.18507

特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相关推荐
热点推荐
逐玉最大反转:最深情的不是谢征,是藏了一辈子暗恋的混混金元宝

逐玉最大反转:最深情的不是谢征,是藏了一辈子暗恋的混混金元宝

一窥究竟
2026-03-30 10:08:12
四川省委金融工委专职副书记王岩辞拟任正厅级领导职务

四川省委金融工委专职副书记王岩辞拟任正厅级领导职务

汲古知新
2026-03-30 14:22:31
令人心碎,维拉女足球员卡恩斯不幸流产,男友是卢顿球员

令人心碎,维拉女足球员卡恩斯不幸流产,男友是卢顿球员

懂球帝
2026-03-30 15:09:07
电力被炸,伊朗红线遭美以践踏:危急时刻,两大盟友表态出兵支援

电力被炸,伊朗红线遭美以践踏:危急时刻,两大盟友表态出兵支援

乐天闲聊
2026-03-30 14:47:14
网贷行业,天塌了!

网贷行业,天塌了!

鸣金网
2026-03-30 19:19:02
KTV聚会照被疯传!郭麒麟认了是本人!严浩翔私生公开小号关注列表

KTV聚会照被疯传!郭麒麟认了是本人!严浩翔私生公开小号关注列表

观察鉴娱
2026-03-28 09:22:06
预售订单破 3.5万!全新QQ3上市价会比预售价低3000吗?

预售订单破 3.5万!全新QQ3上市价会比预售价低3000吗?

车毂轆
2026-03-30 10:18:24
红旗HS6 PHEV低调上市,17.88万起的中大型插混SUV到底值不值?

红旗HS6 PHEV低调上市,17.88万起的中大型插混SUV到底值不值?

EV世纪
2025-12-17 13:31:07
韭菜是血栓的克星?医生告诫:不想血管堵塞,少吃这4种菜

韭菜是血栓的克星?医生告诫:不想血管堵塞,少吃这4种菜

岐黄传人孙大夫
2026-03-22 14:17:08
何超莲晒与何超琼合照,同父异母姐妹情深,两人相差29岁

何超莲晒与何超琼合照,同父异母姐妹情深,两人相差29岁

小冠说娱
2026-03-28 03:02:32
中国游客到朝鲜游玩,朝鲜人充满疑问:为什么中国人是这样的?

中国游客到朝鲜游玩,朝鲜人充满疑问:为什么中国人是这样的?

蜉蝣说
2026-03-28 18:26:48
四大运营商合并,要提上议程了?

四大运营商合并,要提上议程了?

最通信
2026-03-28 20:27:43
张本智和父亲公开叫板:希望中国人别骂我儿子,他很受日本人尊重

张本智和父亲公开叫板:希望中国人别骂我儿子,他很受日本人尊重

拳击时空
2026-03-30 06:19:57
中国斩钉截铁,就是要日本赔罪,军官侵馆第4天,防卫大臣行动了

中国斩钉截铁,就是要日本赔罪,军官侵馆第4天,防卫大臣行动了

老谢谈史
2026-03-29 01:20:29
32岁生日无人问津,娱乐圈的“看人下菜碟”,在王嘉尔身上应验了

32岁生日无人问津,娱乐圈的“看人下菜碟”,在王嘉尔身上应验了

八斗小先生
2026-03-29 18:25:34
创历史!张雪机车WSBK夺冠,背后资本宏昌科技20cm涨停

创历史!张雪机车WSBK夺冠,背后资本宏昌科技20cm涨停

21世纪经济报道
2026-03-30 15:28:39
巴西一载有286人的空客A330客机起飞后发动机爆炸,飞行员随即返航并实施紧急迫降,部分碎片坠落至机场草地引发火情,机上人员无人伤亡

巴西一载有286人的空客A330客机起飞后发动机爆炸,飞行员随即返航并实施紧急迫降,部分碎片坠落至机场草地引发火情,机上人员无人伤亡

潇湘晨报
2026-03-30 21:50:13
原来他们是夫妻,《冬去春来》他又火了,其貌不扬却娶了美女老婆

原来他们是夫妻,《冬去春来》他又火了,其貌不扬却娶了美女老婆

娱君坠星河
2026-03-29 10:35:08
特朗普万万没想到!美伊大战没打垮伊朗,高市早苗的日元先崩了?

特朗普万万没想到!美伊大战没打垮伊朗,高市早苗的日元先崩了?

花小猫的美食日常
2026-03-30 17:34:15
39岁萧敬腾和老婆现身巴塞罗那街头,颜值比较一般,还没路人帅

39岁萧敬腾和老婆现身巴塞罗那街头,颜值比较一般,还没路人帅

TVB的四小花
2026-03-29 15:20:31
2026-03-31 02:00:49
新智元 incentive-icons
新智元
AI产业主平台领航智能+时代
14853文章数 66724关注度
往期回顾 全部

科技要闻

一句谎言引发的硅谷血案

头条要闻

特朗普:对伊朗袭击以炼油厂的回应“很快到来”

头条要闻

特朗普:对伊朗袭击以炼油厂的回应“很快到来”

体育要闻

想进世界杯,意大利还要过他这一关

娱乐要闻

全红婵聊到体重哭了,每天只吃一顿饭

财经要闻

本轮地缘冲突,A股凭什么走出独立行情

汽车要闻

限时12.58万起 银河星耀8远航家系列上市

态度原创

教育
旅游
房产
家居
军事航空

教育要闻

静待花开:一位母亲与青春期儿子的“破冰”之旅——林亭亭家教好故事

旅游要闻

走!去苏州河畔新开的书香文化“大船”看看

房产要闻

重磅!番禺20宗涉宅地亮相,万博CBD宅地将上新!

家居要闻

东方法式美学 现代简约

军事要闻

第三艘航母出动数千名士兵抵达 美军大举增兵中东战场

无障碍浏览 进入关怀版