网易首页 > 网易号 > 正文 申请入驻

谷歌最新研究:重复提示词可将AI准确率从21.33%提升至97.33%

0
分享至


最近小编发现了一个效果出奇好的提示词技巧,实测结果堪称惊人。

谷歌一篇新论文《重复提示词提升非推理型大语言模型性能》指出,在部分任务中,简单重复提示词就能将非推理型大语言模型的准确率从21.33%提升至97.33%。


乍听之下,这说法简直玄乎,让人难以相信。但背后的原理其实无比简单。

谷歌在70项不同的基准测试任务中开展了实验,这种复制粘贴式的提示词重复法:

• 在47项任务中表现优于基准模型

• 全程无一失手

• 带来了肉眼可见的大幅性能提升,部分任务的准确率从约21%飙升至约97%



这个测试,覆盖了 7 个主流模型:Gemini 2.0 Flash / Flash Lite、GPT-4o / GPT-4o-mini、Claude 3 Haiku / Claude 3.7 Sonnet、DeepSeek V3 等。

测试基准包括 ARC (Challenge)、OpenBookQA、GSM8K、MMLU-Pro、MATH,及自定义任务NameIndex、MiddleMatch。


对于选择题任务,测试两种顺序,问题在前(Question-First)与选项在前(Options-First)。

那么,重复问题为何能起到这样的效果?

论文给出了一个极具工程视角的解释:大语言模型均以因果语言模型为基础进行训练,它们逐词生成文本,严格遵循从左到右的顺序,每个词元只能“看到”其之前的内容。

当你重复问题时(比如将问题Q改写为Q1+Q2),第二个副本中的每个词元都能完整关联第一个副本的全部信息。

实际上,这相当于在不改动模型、不增加推理步骤的前提下,让模型获得了回顾并重新梳理信息的机会。

类似的小技巧还有其他,比如清华大学此前发现的“先验证”策略。

在其论文《Asking LLMs to Verify First is Almost Free Lunch》中,清华大学团队提出了一个反直觉的思路:与其让AI直接回答,不如先让它"找茬"。

这个名为先验证(Verification-First, VF)的策略简单到令人难以置信:

传统方式(Chain-of-Thought):


Q: 球棒和球问题...

A: 让我一步步思考...

VF方式:


Q: 球棒和球问题...(提示:答案可能是"0.10元",先验证它对不对,再给出正确答案)

A: 先验证"0.10元"是否正确...

关键点:即使提供的答案是随机的、错误的,甚至"1"这样毫无意义的数字,VF依然有效!

结果是,这个"笨办法"能让AI推理准确率提升10-15%,而且几乎不增加计算成本。

可见,让人工智能变得“更聪明”,未必需要增加复杂度,只需优化提示词的结构就够了。

谷歌论文地址:https://arxiv.org/pdf/2512.14982


特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相关推荐
热点推荐
不可错过!2月26日下午15:35比赛!中央5套CCTV5、CCTV5+直播表

不可错过!2月26日下午15:35比赛!中央5套CCTV5、CCTV5+直播表

生活新鲜市
2026-02-26 15:00:49
季琦,捐1亿

季琦,捐1亿

极目新闻
2026-02-26 15:15:49
2100万悬赏震动全球,李兆会神秘失踪已11年,行踪仍成谜

2100万悬赏震动全球,李兆会神秘失踪已11年,行踪仍成谜

别人都叫我阿腈
2026-02-13 18:05:57
杭州男子失恋游湖南,遇苗族婚宴随礼1000入席,离场却被伴娘拦下

杭州男子失恋游湖南,遇苗族婚宴随礼1000入席,离场却被伴娘拦下

兰姐说故事
2025-06-09 10:00:07
特斯拉再次“降价”!

特斯拉再次“降价”!

电动知家
2026-02-26 10:53:33
越扒越劲爆!释永信在少林寺的奢靡生活,你想都不敢想!

越扒越劲爆!释永信在少林寺的奢靡生活,你想都不敢想!

青橘罐头
2026-02-25 22:44:55
3倍吞吐量、访存减至1/10!蚂蚁甩出两大万亿参数开源模型,背后架构成关键

3倍吞吐量、访存减至1/10!蚂蚁甩出两大万亿参数开源模型,背后架构成关键

智东西
2026-02-25 12:18:08
7500万敲定!1.5亿忍痛放弃,巴萨锋线换代悬念揭晓

7500万敲定!1.5亿忍痛放弃,巴萨锋线换代悬念揭晓

卿子书
2026-02-26 08:26:18
韩国总统:将持续努力与朝鲜对话

韩国总统:将持续努力与朝鲜对话

财联社
2026-02-26 15:52:05
中国西南运河进度89%!2026通江达海,俄方振奋越南焦虑

中国西南运河进度89%!2026通江达海,俄方振奋越南焦虑

Hi科普啦
2026-02-25 14:56:15
在加拿大明白:中国人裹成粽子,老外却靠冲锋衣过冬,差的不是钱

在加拿大明白:中国人裹成粽子,老外却靠冲锋衣过冬,差的不是钱

天下霸奇
2026-02-26 09:28:07
史上最乱伦成语“上蒸下报”

史上最乱伦成语“上蒸下报”

华人星光
2026-02-21 11:24:05
50岁男子酷爱喝浓茶,茶叶能占半个杯子!连续5年确诊肾结石,痛到打滚如生孩子!医生提醒→

50岁男子酷爱喝浓茶,茶叶能占半个杯子!连续5年确诊肾结石,痛到打滚如生孩子!医生提醒→

大象新闻
2026-02-26 13:45:08
你经历过哪些杀人诛心的事?网友:所以没有婆婆拆散不了的家

你经历过哪些杀人诛心的事?网友:所以没有婆婆拆散不了的家

带你感受人间冷暖
2026-02-11 10:54:58
大战可能马上开始了

大战可能马上开始了

安安说
2026-02-25 10:11:39
马云无眠张纪中泪目!半个商圈大佬齐聚送别,这个男人啥来头?

马云无眠张纪中泪目!半个商圈大佬齐聚送别,这个男人啥来头?

老特有话说
2026-01-17 16:26:05
马刺逆转双杀猛龙豪取10连胜 文班12+8+5帽莺歌20+11丢绝平球

马刺逆转双杀猛龙豪取10连胜 文班12+8+5帽莺歌20+11丢绝平球

醉卧浮生
2026-02-26 11:12:28
煮汤圆,有人用开水,用冷水!厨师长:都不对,教您做法,不粘锅

煮汤圆,有人用开水,用冷水!厨师长:都不对,教您做法,不粘锅

阿龙美食记
2026-02-23 17:09:09
杜聿明晚年谈到孙立人,直言:他曾卖主求荣,根本不是民族英雄

杜聿明晚年谈到孙立人,直言:他曾卖主求荣,根本不是民族英雄

历史龙元阁
2026-02-26 12:50:09
黑龙江省大庆市委原常委、秘书长何英明被双开

黑龙江省大庆市委原常委、秘书长何英明被双开

界面新闻
2026-02-26 10:04:16
2026-02-26 17:28:50
AI先锋官 incentive-icons
AI先锋官
AIGC大模型及应用精选与评测
438文章数 60关注度
往期回顾 全部

科技要闻

单季营收681亿净利429亿!英伟达再次炸裂

头条要闻

女子家水费两个月1847元 整整一个月每天用水都是13吨

头条要闻

女子家水费两个月1847元 整整一个月每天用水都是13吨

体育要闻

从排球少女到冰壶女神,她在米兰冬奥练出6块腹肌

娱乐要闻

尼格买提撒贝宁滑雪被偶遇 17年老友情

财经要闻

人民币升破6.85,创3年新高

汽车要闻

别克君越/昂科威Plus直降5000元 限时优惠价15.49万起

态度原创

亲子
教育
健康
数码
公开课

亲子要闻

试管婴儿出生后缺4趾!产检与四维大排畸都查不出异常,智商税?

教育要闻

毁掉一个孩子最快的方式:父母既要又要还要(推荐)

转头就晕的耳石症,能开车上班吗?

数码要闻

PC怎能不涨价!惠普:内存已占电脑成本1/3以上

公开课

李玫瑾:为什么性格比能力更重要?

无障碍浏览 进入关怀版