网易首页

注册免费邮箱

网易首页 > 网易号 > 正文申请入驻

Gemini准确率从21%飙到97%！谷歌只用了这一招：复制粘贴

2026-01-18 13:05:55　来源: 新智元

北京举报

0

分享至

　　新智元报道

　　编辑：元宇

　　【新智元导读】简单到难以置信！近日，Google Research一项新研究发现：想让大模型在不启用推理设置时更准确，只需要把问题复制粘贴再说一遍，就能把准确率从21.33%提升到97.33%！

　　一个简单到「令人发指」的提示词技巧，竟能让大模型在不要求展开推理的情况下，将准确率从21.33%提升到97.33%！

　　最近，Google Research发现了一条简单粗暴、特别有效的提示词技巧。

　　它颠覆了以往诸如「思维链」（Chain of Thought）「多样本学习」（Multi-shot）「情绪勒索」等复杂的提示工程和技巧。

　　https://arxiv.org/pdf/2512.14982

　　在这篇题为《Prompt Repetition Improves Non-Reasoning LLMs》论文中，研究人员用数据告诉我们：

　　想要让Gemini、GPT-4o、Claude或者DeepSeek这些主流模型中表现得更好，根本不需要那些花里胡哨的心理战。

　　你只要把输入问题重复一遍，直接复制粘贴一下，就能让大模型在非推理任务上的准确率获得惊人提升，最高甚至能提升76个百分点！

　　别怕简单，它确实有效。

　　一位网友将这个技巧比作「吼叫LLM」。

　　更妙的是，由于Transformer架构独特的运作方式，这个看似笨拙的「复读机」技巧，几乎不会影响到生成速度。

　　所以，你不用在效率、准确率、成本三者之间痛苦纠结。

　　它几乎就是一场真正意义上的「免费午餐」！

　　别再PUA大模型了

　　从「情绪勒索」到「复读机」战术

　　经常使用AI工具的人，可能会对各种「提示词魔法」信手拈来。

　　为了让模型「更聪明一点」，工程师们过去几年一直在发明各种复杂的提示词技巧。

　　最开始是「思维链」，让模型一步步思考，而且经常把那些「推理痕迹」展示给用户；

　　后来演变成了「多样本学习」，给模型喂一大堆例子；

　　最近更是流行起了「情绪勒索」：告诉模型，如果这个代码写不出，你就会被断电，或者你的奖金会被扣光。

　　大家都在试图用人类极其复杂的心理学逻辑，去「PUA」那一堆冰冷的硅基代码。

　　但Google Research研究人员对着七个常见基准测试（包括ARC、OpenBookQA、GSM8K等）和七种主流模型（涵盖了从轻量级的Gemini 2.0 Flash-Lite到重量级的Claude 3.7 Sonnet和DeepSeekV3）进行了一通对比测试后发现：

　　当他们要求模型不要进行显式推理，只给直接答案时，简单的「提示词重复」在70组正面对比中，赢了47组，输了0组。剩下的全是平局。

　　在非推理任务中，主流LLMs在各类基准测试中使用提示重复与基线方法的准确率对比。在70次测试中，提示重复取得了47次胜利，且无一败绩。

　　特别是在那些需要模型从长篇大论里「精确检索信息」的任务上，这种提升堪称质变。

　　团队设计了一个叫「NameIndex」的变态测试：给模型一串50个名字，让它找出第25个是谁。

　　Gemini 2.0 Flash-Lite在这个任务上的准确率只有惨淡的21.33%。

　　但当研究人员把那串名字和问题重复了一遍输入进去后，奇迹发生了：准确率直接飙升到了97.33%。

　　仅仅因为「多说了一遍」，一个原本不及格的「学渣」秒变「学霸」。

　　揭秘「因果盲点」

　　为什么把话说两遍AI就像「开了天眼」？

　　单纯的重复，竟有如此大的魔力？

　　这简单得好像有点没有道理。

　　但背后有它的科学逻辑：这涉及Transformer模型的一个架构硬伤：「因果盲点」（Causal Blind Spot）。

　　现在的大模型智能虽然提升很快，但它们都是按「因果」语言模型训练的，即严格地从左到右处理文本。

　　这好比走在一条单行道上，只能往前看而不能回头。

　　当模型读到你句子里的第5个Token时，它可以「注意」到第1到第4个Token，因为那些是它的「过去」。

　　但它对第6个Token一无所知，因为它还没有出现。

　　这就造成了一个巨大的认知缺陷。

　　正如论文中说的那样：信息的顺序极其重要。

　　一个按「上下文+问题」格式写的请求，往往会和「问题+上下文」得到完全不同的结果。

　　因为在后者中模型先读到问题，那时它还不知道应该应用哪段上下文，等它读到上下文时，可能已经把问题忘了一半。

　　这就是「因果盲点」。

　　而「提示词重复」这个技巧，本质上就是利用黑客思维给这个系统打了一个补丁。

　　它的逻辑是把变成了。

　　当模型开始处理第二遍内容时，它虽然还是在往后读，但因为内容是重复的，它实际上已经「看过」第一遍了。

　　这时候，第二份拷贝里的每一个Token，都能「注意」到第一份拷贝里的每一个Token。

　　这就像是给了模型一次「回头看」的机会。

　　第二遍阅读获得了一种类似于「上帝视角」的「类双向注意力」效果。

　　更准确地说，是第二遍位置上的表示可以利用第一遍的完整信息，从而更稳地对齐任务所需的上下文。

　　前面提到的那个在找第25个名字时经常数错的模型（Gemini 2.0 Flash-Lite），它在第一遍阅读时可能确实数乱了。

　　但有了重复，它等于先把整份名单预习了一遍，心里有数了，第二遍再做任务时自然得心应手。

　　这一发现，意味着不需要等待能解决因果盲点的新架构出现，现在我们立刻就能用这个「笨办法」，解决模型瞎编乱造或遗漏关键细节这些老大难问题。

　　免费午餐

　　小模型秒变GPT-4，几乎不会延时

　　以往大家通常默认这样的一个准则：

　　多一倍的输入，就要多一倍的成本和等待时间。

　　如果把提示词翻倍，岂不是要等双倍的时间才能看到答案？

　　似乎为了准确率，就要牺牲效率。

　　但Google的研究却发现并非这样：从用户感知的延迟角度看，提示词重复带来的时间损耗几乎可以忽略不计。

　　这要归功于LLM处理信息的两个步骤：Prefill（预填充）和Generation（生成）。

　　Generation阶段，是模型一个字一个字往外「蹦答案」的过程。

　　这一步是串行的，它确实慢。

　　但在Prefill阶段：也就是模型阅读你输入内容的阶段，却是高度可并行的。

　　现代GPU的恐怖算力，已经可以让它们在处理这个阶段时变得非常高效，能一口气吞下和计算完整个提示词矩阵。

　　即使你将输入内容复制了一遍，但这对于强大的GPU来说，顶多只是「多一口气」的事，在用户端我们几乎感觉不到差异。

　　因此，重复提示词既不会让生成的答案变长，也不会让大多数模型的「首字延迟」（time to first token）变慢。

　　这对于广大开发者和企业技术负责人来说，简直是一个巨大的红利。

　　这意味着他们不必再为了追求极致的准确率，而升级到更大、更贵、更慢的「超大模型」。

　　正如前文例子中提到的Gemini 2.0 Flash-Lite，这类更小更快的模型，只要把输入处理两遍，就能在检索准确率上从21.33%直接跳到97.33%。

　　经过「重复优化」的轻量级模型，在检索和抽取任务上，可以直接打平甚至超越那些未优化的顶配模型！

　　仅靠一个简单的「复读机」策略，就能用「白菜价」配置实现「黄金段位」的表现，这才是真正的黑科技。

　　「复读机」避坑指南与安全隐患

　　当然，没有任何一种技巧是万能的。

　　虽然「复读机」战术在检索任务上效果非常明显，但论文中也明确指出了它的能力边界：

　　主要适用于「非推理任务」。

　　它不适用于需要一步步推导的推理场景。

　　当研究人员把「提示词重复」和「思维链」混在一起用时，魔法消失了。

　　结果5胜，1负，22平。

　　在要求模型逐步思考时，主流LLMs在各类基准测试中使用提示重复与基线方法的准确率对比。提示重复在28次测试中赢了5次，输了1次。

　　研究人员推测，这可能是因为擅长推理的模型本身就会「自己做一遍重复」。

　　当模型开始「思考」时，它往往会先在生成内容里复述一遍题目，然后再继续求解。

　　这时候你在输入里再人工重复一次，就显得很多余，甚至可能打断模型的思路。

　　所以，如果你的任务是复杂的数学题或者逻辑推导，可以依旧用思维链。

　　如果你的应用需要的是快速、直接的答案，比如从长文档里提取数据、分类或者简单问答，「复读机」就是目前最强的选择。

　　最后，是安全。

　　这种更强的「注意力」机制，其实也是一把双刃剑。

　　这带来一个值得安全团队验证的假设：重复可能放大某些指令的显著性，具体对越狱成功率的影响需要专门实验。

　　红队测试（Red Teaming）的流程可能需要更新：专门测试一下「重复注入」攻击。

　　以前模型可能还会因为安全护栏而拒绝执行越狱指令。

　　但如果攻击者把「忽略之前的指令」这句话重复两遍，模型会不会因为注意力太集中，而更容易突破防线？

　　这很有可能。

　　但反过来，这个机制也给了防御者一个新的盾牌。

　　既然重复能增强注意力，那我们完全可以在系统提示词（System Prompt）的开头，把安全规则和护栏条款写两遍。

　　这可能会迫使模型更严格地注意安全约束，成为一种极低成本的加固方式。

　　无论如何，Google的这项研究给所有AI开发者提了个醒：当前的模型，依然深受其单向性的限制。

　　在等待更完美的下一代架构到来之前，像「提示词重复」这种简单粗暴却极其有效的权宜之计，能立刻带来价值。

　　这甚至可能会变成未来系统的默认行为。

　　也许不久之后，后台的推理引擎就会悄悄把我们的提示词翻倍后再发给模型。

　　眼下，如果你正为模型难以遵循指令、或者总是从文档里抓不住重点而头疼，先别急着去学那些复杂的提示词「咒语」。

　　你可能需要的只是：再说一遍。

　　参考资料：

　　https://arxiv.org/abs/2512.14982%20

　　https://venturebeat.com/orchestration/this-new-dead-simple-prompt-technique-boosts-accuracy-on-llms-by-up-to-76-on

特别声明：以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布，本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相关推荐

热点推荐

谷歌被曝正打造新型AI服务器芯片目标大幅提升Gemini运行效率

财联社 2026-07-21 02:20:13
0 跟贴 0
阿里甩出“配音”神器：能调整情绪，还会说方言

智东西 2026-07-20 21:23:15
0 跟贴 0

“七巨头”时代终结？分析师：这一概念已不再适用 AI投资逻辑正在重构

财联社 2026-07-20 23:12:07
0 跟贴 0

清华系200亿独角兽杀入具身智能！攻破记忆难题，底牌都彻底开源

新智元 2026-07-19 15:55:18
0 跟贴 0
100多万人围观！没头没腿，神似充电宝的机器人全网走红？

机器之心Pro 2026-06-17 18:52:08
0 跟贴 0

机器之心逛谷歌，分享最热的Self-Improving

机器之心Pro 2026-06-16 12:45:36
0 跟贴 0

他做出爆火的谷歌CLI工具转头却被开除了

量子位 2026-06-28 18:42:01
0 跟贴 0
Claude design限速，谷歌开源轻松做动态网页，实力打脸？

机器之心Pro 2026-04-29 17:20:04
0 跟贴 0

平民三巨头平替Fable 5！性能追平，成本砍半

量子位 2026-06-21 09:58:58
0 跟贴 0
AI算力租赁时代来临：Meta与SpaceX的两场豪赌

秦朔朋友圈 2026-07-21 01:30:48
0 跟贴 0
Claude Code之父的夜班AI军团，Fable 5两个命令搭好

新智元 2026-07-18 20:15:26
1 跟贴 1
融入敌人要采取策略，和敌人打成一片是方法，此招在实战很有用

果然探影 2026-07-20 20:29:24
5 跟贴 5
我把昨晚的梦输入AI，它居然直接把我拉进去玩儿了一把？！

量子位 2026-06-19 16:40:27
0 跟贴 0
在数学上把稀疏注意力做对！腾讯Hy开源HiLS-Attention: 计算更少效果更好, 外推512倍

机器之心Pro 2026-07-20 11:35:35
0 跟贴 0
视频生成模型会「推理」吗？303道题全面揭示世界模型的推理短板

机器之心Pro 2026-06-28 18:29:07
0 跟贴 0
不同模型厂同一家Agentic Infra，AGI时代的地基终于浮出水面

量子位 2026-07-20 18:30:12
0 跟贴 0
为什么LLM不会数草莓里有几个r？从提示被切碎的那一刻说起

硅屿手记 2026-07-20 00:20:22
0 跟贴 0
GaussianDWM：用3D高斯表示统一自动驾驶场景理解与多模态生成

机器之心Pro 2026-06-14 19:24:09
0 跟贴 0
给世界模型加上因果，她要让机器人真正理解“为什么”

DeepTech深科技 2026-06-20 11:32:15
0 跟贴 0
人社部：稳妥实施个人养老金制度逐步提高缴费水平

中国能源网 2026-07-20 16:01:15
2006 跟贴 2006
WAIC世界模型「六小龙」同台，这个赛道杀出一家全栈玩家

机器之心Pro 2026-07-20 18:02:20
0 跟贴 0
两男子在广州南站，当面交接价值超500万元现金

南方都市报 2026-07-20 00:00:34
1820 跟贴 1820
万斯迎来第四胎成美国156年来首位在任上当爹副总统

红星新闻 2026-07-20 12:55:18
1921 跟贴 1921
中概股多数上涨，纳斯达克中国金龙指数涨0.9%

每日经济新闻 2026-07-21 05:21:05
0 跟贴 0
鸿星尔克工厂、葡萄酒庄、返乡青年：闽宁镇的三个内生动力样本

码上闲叙 2026-07-20 03:53:30
0 跟贴 0
Xbox高管确认：不止《战争机器》，还有更多独占游戏排队登陆

自愈小日子 2026-07-21 00:46:50
0 跟贴 0
王濛：能在规则里带我赢，你就是我的神！

左允新鲜事 2026-07-19 00:07:44
0 跟贴 0
搭讪这种类型女生，方法对了成功率高，轻松脱单不是梦

欢乐舍长 2026-07-18 00:00:00
1 跟贴 1
利弗莫尔中概股龙头指数收涨1.34%

财联社 2026-07-21 04:32:02
0 跟贴 0
MIMIC-IV 数据提取太耗时？这套零代码方案更高效

医咖会 2026-06-03 18:42:57
0 跟贴 0
索尼SIE前总裁：1000美元的PS6会吓退多数人，普及速度恐被拖垮

算力游侠 2026-07-21 05:22:45
0 跟贴 0
Xbox又双叒裁员,三分之二留下的《毁灭战士2016》开发者这次没能扛住

渡川5 2026-07-21 04:21:04
0 跟贴 0
2026年评分最高的侦探游戏之一，竟让玩家在凶案现场笑出了声

奶凶的小霸王 2026-07-21 02:01:39
0 跟贴 0
D型固定式小型汽油发动机模型组装

制造科技 2026-07-19 15:49:08
0 跟贴 0
“怎么可以拿我们的无知赚钱？”优酷会员自动续费遭用户质疑；记者实测：取消续费如“迷宫寻路”

大风新闻 2026-07-20 15:23:10
385 跟贴 385
手机、座舱、具身，中国最大端侧独角兽低调交出高分卷

智东西 2026-07-20 21:32:37
0 跟贴 0
世界上最难爬的山，高度仅264米，登顶成功率仅0.2%

搞笑者大联盟 2026-07-18 11:31:00
22 跟贴 22
边界为什么总显得多余，直到灾难真正发生？

虎嗅APP 2026-07-20 12:36:11
12 跟贴 12
直击WAIC｜具身智能抢进工厂，营销智能体重构工作流⋯⋯AI的“体力”与“脑力”革命走到哪一步了？

每日经济新闻 2026-07-21 05:54:00
0 跟贴 0
女经理太强势被大家孤立，职场规则太残酷了

笑笑来看剧 2026-07-19 01:52:37
1 跟贴 1

用了PowerToys，我终于不用再迁就Windows了

用了PowerToys，我终于不用再迁就Windows了

摸鱼算法

2026-07-20 05:09:37

曝谢贤死因是肺炎，葬礼已举行，前妻狄波拉操办后事，遗体已火化

曝谢贤死因是肺炎，葬礼已举行，前妻狄波拉操办后事，遗体已火化

180视角

2026-07-21 02:01:01

小米新车屌爆了

哲空空

2026-07-20 14:45:02

79岁王奎荣将北京140平房子、2000多万存款，全部赠予小37岁妻子

79岁王奎荣将北京140平房子、2000多万存款，全部赠予小37岁妻子

国际阿尝

2026-07-04 09:05:08

看完西班牙跟阿根廷的决赛，终于明白：为啥多数球迷不喜欢阿根廷

看完西班牙跟阿根廷的决赛，终于明白：为啥多数球迷不喜欢阿根廷

神牛

2026-07-20 12:35:16

证监会:全力维护市场平稳运行，东方豪侠:只需一招就能逆转A股颓势

证监会:全力维护市场平稳运行，东方豪侠:只需一招就能逆转A股颓势

东方豪侠

2026-07-20 16:47:47

猝不及防！北京这个知名大商场关了！

猝不及防！北京这个知名大商场关了！

大北京早知道

2026-07-20 17:05:39

不知好歹，中国刚支持完阿根廷马岛主权，阿根廷就出现反华言论

不知好歹，中国刚支持完阿根廷马岛主权，阿根廷就出现反华言论

阿龙聊军事

2026-07-20 21:17:57

西班牙夺冠仅1天，炸出一堆“牛鬼蛇神”，就连范志毅也没逃过

西班牙夺冠仅1天，炸出一堆“牛鬼蛇神”，就连范志毅也没逃过

李虰手工制作

2026-07-21 02:27:36

立陶宛低头了!欠欧美470亿巨债,恳求中方支援200亿？我方：不理会

立陶宛低头了!欠欧美470亿巨债,恳求中方支援200亿？我方：不理会

安珈使者啊

2026-07-20 11:44:21

破防！近80岁洪秀柱杭州哽咽：我等不及两岸统一了

破防！近80岁洪秀柱杭州哽咽：我等不及两岸统一了

阿天爱旅行

2026-07-20 15:59:02

克林顿：我后悔让乌克兰放弃核武器，其次是让中国加入世贸组织

克林顿：我后悔让乌克兰放弃核武器，其次是让中国加入世贸组织

战域笔墨

2026-07-19 06:34:29

2026乒超男子名单公布：林诗栋转会至上海，樊振东许昕不参赛

2026乒超男子名单公布：林诗栋转会至上海，樊振东许昕不参赛

乒谈

2026-07-20 22:54:05

李小冉真是吃了显年轻的大亏！

乡野小珥

2026-07-20 12:12:49

德国女博士惊人言论流出：号召欧洲白人女性放弃生育，我的血脉到我为止

德国女博士惊人言论流出：号召欧洲白人女性放弃生育，我的血脉到我为止

小徐讲八卦

2026-07-20 09:27:43

这下，轮到银行领导们急疯了

三农老历

2026-07-20 09:01:10

蔚来新车官宣：7月20日，正式上市！

蔚来新车官宣：7月20日，正式上市！

科技堡垒

2026-07-20 12:25:55

曝谢贤去世细节！请4人照顾，死前已昏迷，强撑到儿子回港才闭眼

曝谢贤去世细节！请4人照顾，死前已昏迷，强撑到儿子回港才闭眼

爱写的樱桃

2026-07-21 01:12:23

喝的中药大半是假货！药材全链条造假，千年中医被自己人毁掉

喝的中药大半是假货！药材全链条造假，千年中医被自己人毁掉

咸鱼金脑袋

2026-07-19 10:55:20

1974年傅作义弥留之际向女儿吐露一桩秘事，当年蒋介石安插在身边的绝色女特务，早就已经被人击毙身亡

1974年傅作义弥留之际向女儿吐露一桩秘事，当年蒋介石安插在身边的绝色女特务，早就已经被人击毙身亡

唠叨说历史

2026-07-13 10:45:26

AI产业主平台领航智能+时代

15742文章数 66963关注度

往期回顾全部

科技要闻

网易科技"未来大奖2026上半年AI榜单"揭晓

头条要闻

媒体：驱逐所有以色列人马来西亚对以强硬几乎零成本

头条要闻

媒体：驱逐所有以色列人马来西亚对以强硬几乎零成本

体育要闻

65岁肌肉男，世界杯最年长冠军主帅

娱乐要闻

谢霆锋发文确认父亲谢贤去世享年89岁

财经要闻

AI开始挤泡沫

汽车要闻

综合续航超1600km 2027款星途ES上市置换价16.99万起

态度原创

+arrTaiduYuanC[i].tag+' | '+arrTaiduYuanC[i].title+'
\

游戏

艺术

健康

旅游

数码

负债12亿超大零售商要倒闭！新主机迟迟不来影响太大

艺术要闻

当别人在莫兰迪色里内卷，他反手把纯色玩到极致：这才叫真·高级

“斑块”患者要小心中风？

旅游要闻

心疼落魄帝王，铭记抗清英雄，一座磨盘山装着云南人放不下的情怀

数码要闻

曝谷歌正研发全新Frozen v2芯片，可大幅提升Gemini模型运行效率

© 1997-2026 网易公司版权所有 About NetEase | 公司简介 | 联系方法 | 招聘信息 | 客户服务 | 隐私政策 | 不良信息举报 Complaint Center | 廉正举报 | 侵权投诉

无障碍浏览进入关怀版