网易首页 > 网易号 > 正文 申请入驻

Gemini准确率从21%飙到97%!谷歌只用了这一招:复制粘贴

0
分享至

  

  新智元报道

  编辑:元宇

  【新智元导读】简单到难以置信!近日,Google Research一项新研究发现:想让大模型在不启用推理设置时更准确,只需要把问题复制粘贴再说一遍,就能把准确率从21.33%提升到97.33%!

  一个简单到「令人发指」的提示词技巧,竟能让大模型在不要求展开推理的情况下,将准确率从21.33%提升到97.33%!

  最近,Google Research发现了一条简单粗暴、特别有效的提示词技巧。

  它颠覆了以往诸如「思维链」(Chain of Thought)「多样本学习」(Multi-shot)「情绪勒索」等复杂的提示工程和技巧。

  

  https://arxiv.org/pdf/2512.14982

  在这篇题为《Prompt Repetition Improves Non-Reasoning LLMs》论文中,研究人员用数据告诉我们:

  想要让Gemini、GPT-4o、Claude或者DeepSeek这些主流模型中表现得更好,根本不需要那些花里胡哨的心理战。

  你只要把输入问题重复一遍,直接复制粘贴一下,就能让大模型在非推理任务上的准确率获得惊人提升,最高甚至能提升76个百分点!

  别怕简单,它确实有效

  一位网友将这个技巧比作「吼叫LLM」。

  

  更妙的是,由于Transformer架构独特的运作方式,这个看似笨拙的「复读机」技巧,几乎不会影响到生成速度。

  所以,你不用在效率、准确率、成本三者之间痛苦纠结。

  它几乎就是一场真正意义上的「免费午餐」!

  别再PUA大模型了

  从「情绪勒索」到「复读机」战术

  经常使用AI工具的人,可能会对各种「提示词魔法」信手拈来。

  为了让模型「更聪明一点」,工程师们过去几年一直在发明各种复杂的提示词技巧。

  最开始是「思维链」,让模型一步步思考,而且经常把那些「推理痕迹」展示给用户;

  后来演变成了「多样本学习」,给模型喂一大堆例子;

  最近更是流行起了「情绪勒索」:告诉模型,如果这个代码写不出,你就会被断电,或者你的奖金会被扣光。

  大家都在试图用人类极其复杂的心理学逻辑,去「PUA」那一堆冰冷的硅基代码。

  但Google Research研究人员对着七个常见基准测试(包括ARC、OpenBookQA、GSM8K等)和七种主流模型(涵盖了从轻量级的Gemini 2.0 Flash-Lite到重量级的Claude 3.7 Sonnet和DeepSeekV3)进行了一通对比测试后发现:

  当他们要求模型不要进行显式推理,只给直接答案时,简单的「提示词重复」在70组正面对比中,赢了47组,输了0组。剩下的全是平局。

  

  在非推理任务中,主流LLMs在各类基准测试中使用提示重复与基线方法的准确率对比。在70次测试中,提示重复取得了47次胜利,且无一败绩。

  特别是在那些需要模型从长篇大论里「精确检索信息」的任务上,这种提升堪称质变。

  团队设计了一个叫「NameIndex」的变态测试:给模型一串50个名字,让它找出第25个是谁。

  Gemini 2.0 Flash-Lite在这个任务上的准确率只有惨淡的21.33%。

  但当研究人员把那串名字和问题重复了一遍输入进去后,奇迹发生了:准确率直接飙升到了97.33%。

  仅仅因为「多说了一遍」,一个原本不及格的「学渣」秒变「学霸」。

  揭秘「因果盲点」

  为什么把话说两遍AI就像「开了天眼」?

  单纯的重复,竟有如此大的魔力?

  这简单得好像有点没有道理。

  但背后有它的科学逻辑:这涉及Transformer模型的一个架构硬伤:「因果盲点」(Causal Blind Spot)。

  现在的大模型智能虽然提升很快,但它们都是按「因果」语言模型训练的,即严格地从左到右处理文本。

  这好比走在一条单行道上,只能往前看而不能回头。

  当模型读到你句子里的第5个Token时,它可以「注意」到第1到第4个Token,因为那些是它的「过去」。

  但它对第6个Token一无所知,因为它还没有出现。

  这就造成了一个巨大的认知缺陷。

  正如论文中说的那样:信息的顺序极其重要

  一个按「上下文+问题」格式写的请求,往往会和「问题+上下文」得到完全不同的结果。

  因为在后者中模型先读到问题,那时它还不知道应该应用哪段上下文,等它读到上下文时,可能已经把问题忘了一半。

  这就是「因果盲点」。

  而「提示词重复」这个技巧,本质上就是利用黑客思维给这个系统打了一个补丁。

  它的逻辑是把 变成了 。

  当模型开始处理第二遍内容时,它虽然还是在往后读,但因为内容是重复的,它实际上已经「看过」第一遍了。

  这时候,第二份拷贝里的每一个Token,都能「注意」到第一份拷贝里的每一个Token。

  这就像是给了模型一次「回头看」的机会。

  第二遍阅读获得了一种类似于「上帝视角」的「类双向注意力」效果。

  更准确地说,是第二遍位置上的表示可以利用第一遍的完整信息,从而更稳地对齐任务所需的上下文。

  前面提到的那个在找第25个名字时经常数错的模型(Gemini 2.0 Flash-Lite),它在第一遍阅读时可能确实数乱了。

  但有了重复,它等于先把整份名单预习了一遍,心里有数了,第二遍再做任务时自然得心应手。

  这一发现,意味着不需要等待能解决因果盲点的新架构出现,现在我们立刻就能用这个「笨办法」,解决模型瞎编乱造或遗漏关键细节这些老大难问题。

  免费午餐

  小模型秒变GPT-4,几乎不会延时

  以往大家通常默认这样的一个准则:

  多一倍的输入,就要多一倍的成本和等待时间。

  如果把提示词翻倍,岂不是要等双倍的时间才能看到答案?

  似乎为了准确率,就要牺牲效率。

  但Google的研究却发现并非这样:从用户感知的延迟角度看,提示词重复带来的时间损耗几乎可以忽略不计。

  这要归功于LLM处理信息的两个步骤:Prefill(预填充)和Generation(生成)。

  Generation阶段,是模型一个字一个字往外「蹦答案」的过程。

  这一步是串行的,它确实慢。

  但在Prefill阶段:也就是模型阅读你输入内容的阶段,却是高度可并行的。

  现代GPU的恐怖算力,已经可以让它们在处理这个阶段时变得非常高效,能一口气吞下和计算完整个提示词矩阵。

  即使你将输入内容复制了一遍,但这对于强大的GPU来说,顶多只是「多一口气」的事,在用户端我们几乎感觉不到差异。

  因此,重复提示词既不会让生成的答案变长,也不会让大多数模型的「首字延迟」(time to first token)变慢。

  这对于广大开发者和企业技术负责人来说,简直是一个巨大的红利。

  这意味着他们不必再为了追求极致的准确率,而升级到更大、更贵、更慢的「超大模型」。

  正如前文例子中提到的Gemini 2.0 Flash-Lite,这类更小更快的模型,只要把输入处理两遍,就能在检索准确率上从21.33%直接跳到97.33%。

  经过「重复优化」的轻量级模型,在检索和抽取任务上,可以直接打平甚至超越那些未优化的顶配模型!

  仅靠一个简单的「复读机」策略,就能用「白菜价」配置实现「黄金段位」的表现,这才是真正的黑科技。

  「复读机」避坑指南与安全隐患

  当然,没有任何一种技巧是万能的。

  虽然「复读机」战术在检索任务上效果非常明显,但论文中也明确指出了它的能力边界:

  主要适用于「非推理任务」。

  它不适用于需要一步步推导的推理场景。

  当研究人员把「提示词重复」和「思维链」混在一起用时,魔法消失了。

  结果5胜,1负,22平。

  

  在要求模型逐步思考时,主流LLMs在各类基准测试中使用提示重复与基线方法的准确率对比。提示重复在28次测试中赢了5次,输了1次。

  研究人员推测,这可能是因为擅长推理的模型本身就会「自己做一遍重复」。

  当模型开始「思考」时,它往往会先在生成内容里复述一遍题目,然后再继续求解。

  这时候你在输入里再人工重复一次,就显得很多余,甚至可能打断模型的思路。

  所以,如果你的任务是复杂的数学题或者逻辑推导,可以依旧用思维链。

  如果你的应用需要的是快速、直接的答案,比如从长文档里提取数据、分类或者简单问答,「复读机」就是目前最强的选择。

  最后,是安全。

  这种更强的「注意力」机制,其实也是一把双刃剑

  这带来一个值得安全团队验证的假设:重复可能放大某些指令的显著性,具体对越狱成功率的影响需要专门实验。

  红队测试(Red Teaming)的流程可能需要更新:专门测试一下「重复注入」攻击。

  以前模型可能还会因为安全护栏而拒绝执行越狱指令。

  但如果攻击者把「忽略之前的指令」这句话重复两遍,模型会不会因为注意力太集中,而更容易突破防线?

  这很有可能。

  但反过来,这个机制也给了防御者一个新的盾牌。

  既然重复能增强注意力,那我们完全可以在系统提示词(System Prompt)的开头,把安全规则和护栏条款写两遍。

  这可能会迫使模型更严格地注意安全约束,成为一种极低成本的加固方式。

  无论如何,Google的这项研究给所有AI开发者提了个醒:当前的模型,依然深受其单向性的限制。

  在等待更完美的下一代架构到来之前,像「提示词重复」这种简单粗暴却极其有效的权宜之计,能立刻带来价值。

  这甚至可能会变成未来系统的默认行为。

  也许不久之后,后台的推理引擎就会悄悄把我们的提示词翻倍后再发给模型。

  眼下,如果你正为模型难以遵循指令、或者总是从文档里抓不住重点而头疼,先别急着去学那些复杂的提示词「咒语」。

  你可能需要的只是:再说一遍

  参考资料:

  https://arxiv.org/abs/2512.14982%20

  https://venturebeat.com/orchestration/this-new-dead-simple-prompt-technique-boosts-accuracy-on-llms-by-up-to-76-on

特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相关推荐
热点推荐
黎巴嫩宣布4月9日为全国哀悼日

黎巴嫩宣布4月9日为全国哀悼日

财联社
2026-04-09 06:21:05
突然确定!中国3人全部离队!杨瀚森未能入选!

突然确定!中国3人全部离队!杨瀚森未能入选!

左右为篮
2026-04-08 12:34:18
香蕉被点名!医生提醒:高血糖患者常吃香蕉,很快或迎来这些后果

香蕉被点名!医生提醒:高血糖患者常吃香蕉,很快或迎来这些后果

白话电影院
2026-04-07 20:07:56
浅浅终于塌房!论文抄袭只是开胃小菜,诗歌才是重灾区!

浅浅终于塌房!论文抄袭只是开胃小菜,诗歌才是重灾区!

一支破笔半支烟
2026-04-09 12:53:21
金莎带婆婆度假,主动挽她手臂把婆婆当亲妈一样亲近,孙妈好年轻

金莎带婆婆度假,主动挽她手臂把婆婆当亲妈一样亲近,孙妈好年轻

八怪娱
2026-04-08 19:20:25
4 种最佳抗衰老的运动,平均寿命延长5-10年

4 种最佳抗衰老的运动,平均寿命延长5-10年

增肌减脂
2026-04-07 21:15:04
秋瓷炫透露儿子9月上三年级:很辛苦,要学中韩英三门语言,曾因语言不通,要求“换个会韩语的爸爸”

秋瓷炫透露儿子9月上三年级:很辛苦,要学中韩英三门语言,曾因语言不通,要求“换个会韩语的爸爸”

台州交通广播
2026-04-09 00:37:05
张嘉译西安别墅庆生,染完头发直接年轻10岁,年纪越大越有魅力!

张嘉译西安别墅庆生,染完头发直接年轻10岁,年纪越大越有魅力!

柒佰娱
2026-04-09 09:52:39
成都高新区生态环境和城市管理局原党组成员、副局长牛波被“双开”

成都高新区生态环境和城市管理局原党组成员、副局长牛波被“双开”

潇湘晨报
2026-04-08 16:40:22
美国没有衰落,千万不要自欺欺人

美国没有衰落,千万不要自欺欺人

华人星光
2026-04-08 12:06:24
卖完80多个万达广场,个人财富缩水9成,王健林手里还剩什么?

卖完80多个万达广场,个人财富缩水9成,王健林手里还剩什么?

正经的烧杯1
2026-04-08 13:29:04
"猪八戒"马德华摊牌了!透露陈丽华追悼会细节,迟重瑞状态曝光

"猪八戒"马德华摊牌了!透露陈丽华追悼会细节,迟重瑞状态曝光

观察鉴娱
2026-04-09 10:22:56
取消年检呼声终于被听见!交通部新规落地,车主:早该这么改了

取消年检呼声终于被听见!交通部新规落地,车主:早该这么改了

复转这些年
2026-04-09 11:29:42
张雪妻子谈张雪母亲:成长过程中不管开店还是造车,“都是妈妈援助之手,不需质疑”

张雪妻子谈张雪母亲:成长过程中不管开店还是造车,“都是妈妈援助之手,不需质疑”

界面新闻
2026-04-08 19:42:21
孙杨张豆豆官宣生娃!诸多细节被扒,两人相亲认识,21年确认关系

孙杨张豆豆官宣生娃!诸多细节被扒,两人相亲认识,21年确认关系

裕丰娱间说
2026-04-09 13:44:49
美国派16名特工暗杀斯诺登,驻澳特战队击退CIA,荣获集体一等功

美国派16名特工暗杀斯诺登,驻澳特战队击退CIA,荣获集体一等功

富强巨靠谱
2025-02-26 09:30:43
净利润暴跌19%!十万员工失业震惊全网,电车一哥到底怎么了?

净利润暴跌19%!十万员工失业震惊全网,电车一哥到底怎么了?

墨史轩
2026-04-08 14:38:11
毁掉所有关系的沟通方式:一句话噎死人

毁掉所有关系的沟通方式:一句话噎死人

洞见
2026-03-31 09:04:08
福克斯25+5+7马刺击败开拓者2连胜,阿夫迪亚29+6+6亨德森20分

福克斯25+5+7马刺击败开拓者2连胜,阿夫迪亚29+6+6亨德森20分

湖人崛起
2026-04-09 11:59:27
女演员金莎宣布领证结婚,孙丞潇3年前就开始攒五金

女演员金莎宣布领证结婚,孙丞潇3年前就开始攒五金

上游新闻
2026-04-09 13:48:14
2026-04-09 14:39:00
新智元 incentive-icons
新智元
AI产业主平台领航智能+时代
14933文章数 66756关注度
往期回顾 全部

科技要闻

Meta凌晨首发闭源大模型 扎克伯格又行了?

头条要闻

陈丽华告别仪式举办 马德华:迟重瑞心里很难过

头条要闻

陈丽华告别仪式举办 马德华:迟重瑞心里很难过

体育要闻

8万人面前心脏骤停 现在他还站在球场上

娱乐要闻

金莎官宣结婚 与老公孙丞潇相差18岁

财经要闻

谈判基础已被破坏!霍尔木兹海峡关闭

汽车要闻

8155芯片+L2智驾 瑞虎5运动版上市 置换补贴价6.79万元起

态度原创

房产
数码
游戏
亲子
教育

房产要闻

超级卷王登场!海口首个抬板四代宅,彻底刷新认知!

数码要闻

Google Gemini 新增“笔记本”功能 与 NotebookLM 打通知识库

《Starfield》现已登陆PlayStation 5 +“Terran Armada”DLC及“Free Lanes”更新

亲子要闻

以人类目前的意志力还不足以抵抗这种萌物

教育要闻

北京这三位中小学校长书记上榜!全国五一劳动奖章公示名单出炉

无障碍浏览 进入关怀版