网易首页 > 网易号 > 正文 申请入驻

Meta的单字符革命:一个小符号如何颠覆AI评测体系

0
分享至


这项由Meta人工智能研究院(FAIR)的苏景桐等研究人员联合纽约大学共同完成的研究发表于2025年9月,论文编号为arXiv:2510.05152v1。有兴趣深入了解的读者可以通过该编号查询完整论文内容。

当我们和AI聊天时,经常会给它一些例子来说明我们想要的回答风格。比如我们可能会说:"问:法国首都是哪里?答:巴黎。问:2加2等于几?答:4。那么现在问:中国首都是哪里?"这样的对话看起来很自然,但你有没有想过,如果我们把例子之间的分隔符号从换行符改成逗号,或者改成感叹号,AI的回答会有什么变化?

大多数人可能觉得这种细微的变化不会有什么影响,毕竟内容都是一样的,只是换了个小小的符号而已。然而,Meta的研究团队发现了一个令人震惊的现象:仅仅改变这个分隔例子的小符号,就能让目前最先进的AI模型在标准测试中的表现产生高达45%的巨大差异。

这就好比同一个学生参加同一场考试,仅仅因为试卷上的分隔线从实线变成了虚线,他的成绩就能从60分变成85分,或者从85分跌到40分。更令人不安的是,通过精心选择这个小小的分隔符号,研究人员甚至可以操纵AI模型的排名,让任何一个模型看起来都像是"最优秀"的那个。

研究团队深入分析了这个现象背后的机制。他们发现,当AI处理这些例子时,不同的分隔符号会影响模型内部的"注意力机制"——也就是AI决定重点关注哪些信息的过程。这就像一个人在嘈杂的聚会上试图听清楚朋友的话,如果朋友用特定的手势或语调来强调重点,他就更容易理解;但如果朋友用了让人分心的方式说话,理解效果就会大打折扣。

一、小符号,大影响:AI评测中的隐形变量

当前的AI评测系统就像是一场看似公平的标准化考试。所有的AI模型都要回答同样的问题,比如在MMLU(大规模多任务语言理解)测试中回答各种学科的选择题,在ARC挑战测试中解决常识推理问题。然而,研究团队发现,这场"公平"的考试实际上存在一个几乎被所有人忽视的变量:例子之间用什么符号分隔。

研究人员选择了30个非字母数字的ASCII符号进行测试,包括感叹号、井号、美元符号、问号等日常常见的标点符号。他们测试了来自三个主要AI模型家族的代表:Llama、Qwen和Gemma系列模型。结果令人震惊:同一个模型在使用不同分隔符时,表现差异巨大。

以Llama-3.1-8B模型为例,当使用换行符作为分隔符时,它在MMLU测试中的准确率可以达到52%,但当使用"&"符号作为分隔符时,准确率会下降到34%,这是18.3个百分点的差异。更夸张的是Gemma-2-9B模型,最好和最差的分隔符选择之间竟然有29.4%的性能差距。

这种差异的规模有多大?研究团队指出,这相当于AI领域三年的技术进步所带来的性能提升。换句话说,一个三年前的模型,如果选择了正确的分隔符,可能在测试中的表现比一个最新模型使用错误分隔符的表现还要好。

更令人担忧的是,这种影响不仅仅局限于某个特定的测试。研究人员在多个不同类型的任务中都发现了类似现象,包括常识推理、阅读理解,甚至是需要模型从给定信息中查找特定内容的"字典查找"任务。这表明,分隔符的选择对AI的影响是系统性的,而不是某个测试的特殊情况。

二、规模化并不能解决问题:更大的模型同样脆弱

面对这个发现,人们自然会想:是不是只有较小的AI模型才会受到这种影响?毕竟,更大、更先进的模型应该更稳定、更智能。然而,研究结果粉碎了这种乐观的期望。

研究团队比较了Llama-3.1的8B版本(80亿参数)和70B版本(700亿参数)。70B版本的参数数量是8B版本的近9倍,按理说应该更加稳健。然而,测试结果显示,虽然70B版本在整体性能上确实更优秀,但它对分隔符选择的敏感度并没有明显改善。

在某些情况下,大模型的表现甚至更不稳定。在常识推理任务中,70B版本的性能波动达到40%,比8B版本的29.1%还要大。这就像一个经验更丰富的司机,虽然平时开车技术更好,但面对路标颜色的细微变化时,反而比新手司机更容易困惑。

这个发现具有深远的含义。目前,业界普遍认为通过增加模型规模可以提高AI的稳健性和可靠性。然而,这项研究表明,即使是最大、最先进的模型,在面对看似微不足道的输入变化时,仍然可能表现出令人意外的脆弱性。

更令人震惊的是,研究团队还测试了闭源的GPT-4o模型。作为目前最先进的AI模型之一,GPT-4o在分隔符选择上表现出了比开源模型更严重的不稳定性,性能波动高达45.63%。这说明这个问题并不仅仅存在于开源模型中,而是整个AI行业都面临的系统性挑战。

三、深层机制:AI如何"看"分隔符

为了理解这个现象背后的原理,研究团队深入分析了AI模型的内部工作机制。他们使用了一种叫做"注意力分析"的技术,这种技术可以显示AI在处理信息时把"注意力"集中在哪些地方。

可以把AI的注意力机制想象成一个人在图书馆里查资料的过程。当这个人需要查找某个特定信息时,他会扫描书页,把注意力集中在看起来最相关的段落上。如果书页的排版清晰,重要信息被适当地突出显示,他就能快速找到需要的内容。但如果排版混乱,或者重要信息被不合适的符号包围,他可能就会错过关键内容或者被无关信息分散注意力。

研究团队专门设计了一个"字典查找"任务来验证这个假设。在这个任务中,AI需要从一系列键值对中找到特定键对应的值,就像在电话簿中查找某个人的电话号码。通过分析AI在执行这个任务时的注意力分布,研究人员发现了一个有趣的模式。

当使用换行符作为分隔符时,AI能够更准确地将注意力集中在目标键上,就像在整齐排版的电话簿中能够快速定位到正确的条目。具体来说,AI对目标键的注意力得分比使用空格分隔符时高出25%,这个差异在统计学上是显著的。

这个发现揭示了一个重要原理:AI不仅仅在处理内容本身,它们对格式化信息(如分隔符)也非常敏感。正确的分隔符选择能够引导AI的注意力机制更好地聚焦于相关信息,而错误的选择则可能导致注意力分散或错误聚焦。

四、操纵排名:AI评测的信任危机

这项研究最令人不安的发现之一,是通过精心选择分隔符,可以完全操纵AI模型在标准测试中的相对排名。研究人员展示了一个惊人的例子:同样的三个AI模型,通过改变分隔符,可以让排名完全颠倒。

在使用换行符时,模型A可能排名第一,模型B第二,模型C第三。但当改为使用井号符号时,排名可能变成模型C第一,模型A第二,模型B第三。当使用问号时,排名又可能变成另一种完全不同的顺序。这就像同一场比赛,仅仅因为裁判换了一副不同颜色的眼镜,选手的名次就完全改变了。

这个发现对整个AI行业具有深远的影响。目前,各种AI排行榜和评测基准被广泛用于指导投资决策、技术选型和学术研究方向。如果这些评测结果可以通过简单地改变一个分隔符就被操纵,那么基于这些结果做出的重要决策可能都是有问题的。

更严重的是,大多数评测机构和研究人员可能都没有意识到这个问题。他们可能认为自己在进行客观、科学的比较,但实际上却在无意中引入了巨大的偏差。这就像医生用一把刻度不准确的尺子来诊断病人的身高,却不知道尺子本身有问题。

研究团队指出,这种现象在不同学科领域都存在。无论是STEM学科(科学、技术、工程、数学)、人文学科,还是社会科学,分隔符的选择都会影响AI的表现。这表明这不是某个特定领域的技术问题,而是AI模型本身的基础性缺陷。

五、寻求解决方案:让AI更加稳健

面对这个严重的问题,研究团队也在积极寻找解决方案。他们尝试了多种方法来提高AI对分隔符选择的稳健性。

第一种方法是在AI训练过程中使用多种不同的分隔符。研究人员假设,如果AI在学习过程中接触到各种不同的分隔符,它可能会变得更加适应不同的格式。然而,这种方法的效果并不理想。原因可能是当前AI训练数据中,不同分隔符的分布极不均匀。比如在常用的训练数据集中,换行符出现的频率高达67.48%,而其他符号的出现频率要低得多。

第二种方法更加直接有效:在给AI的指令中明确说明使用的分隔符。比如,不是简单地给出例子,而是在开头加上一句话:"下面是一些用感叹号分隔的多选题例子"。这种方法显著提高了AI的表现稳定性。

测试结果表明,这种"明示分隔符"的方法能够让AI的性能提升1.5%到27.9%不等。以Qwen2.5-7B模型为例,使用这种方法后,它在MMLU测试中的表现提升了14.2%。这就像给一个在嘈杂环境中听讲座的人提前说明:"接下来我会用敲桌子来分隔不同的要点",这样他就能更好地理解讲座内容。

研究团队还发现了一些"通用性较好"的分隔符。经过大量测试,他们发现换行符和感叹号是相对最稳定的选择,在不同模型和不同任务中都能提供较好的性能。换行符平均能提升5.3%的性能,感叹号能提升12.2%的性能。

六、广泛影响:超越简单的技术问题

这项研究的影响远远超出了AI技术本身,它揭示了当前AI评测体系的根本性问题。目前,从学术研究到商业应用,整个行业都依赖于各种AI评测基准来做出重要决策。如果这些评测结果可能因为一个小小的格式选择而产生巨大偏差,那么基于这些评测的所有判断都需要重新审视。

研究团队测试的不仅仅是简单的问答任务,还包括了更复杂的场景,比如让AI根据给定的范例进行分类。他们发现,即使增加范例的数量,从2个增加到10个,AI对分隔符的敏感性依然存在。这说明这个问题不会随着任务复杂度的增加而自然消失。

更令人担忧的是,研究表明不存在"万能"的最佳分隔符。不同的AI模型、不同的任务类型、甚至同一任务的不同主题,可能都需要不同的分隔符才能获得最佳性能。这就像不同的人需要不同的眼镜才能看清楚一样,没有一副眼镜适合所有人。

这个发现对AI的实际应用也有重要启示。在真实世界中,用户与AI交互的方式千变万化,他们可能使用各种不同的格式来组织信息。如果AI的性能会因为这些格式差异而产生巨大变化,那么用户体验将变得极不一致。

七、未来展望:建立更可靠的AI评测体系

面对这个挑战,研究团队提出了几点建议来改进现有的AI评测体系。首先,所有的AI评测都应该公开其使用的具体格式设置,包括分隔符的选择。这样,其他研究人员可以理解为什么不同的评测可能产生不同的结果。

其次,评测机构应该测试多种不同的分隔符,并报告结果的稳定性范围,而不是仅仅报告单一条件下的结果。这就像医学研究中需要报告结果的置信区间一样,让人们了解结果的可靠性程度。

第三,AI开发者应该在模型设计和训练过程中更加重视格式稳健性。这可能需要新的训练方法和评估指标,专门衡量模型对输入格式变化的敏感度。

研究团队也承认,这项研究只是揭开了问题的冰山一角。他们只测试了单字符的ASCII分隔符,但在实际应用中,人们可能使用更复杂的分隔方式,比如HTML标签、特殊的标点组合等。此外,除了分隔符之外,可能还有其他看似微不足道的格式因素也会影响AI的性能。

这项研究也提醒我们,AI的"智能"可能并不像我们想象的那样稳健。虽然现代AI在很多任务上表现出色,但它们可能对输入的细微变化异常敏感。这种敏感性不仅存在于恶意的对抗攻击中,也存在于日常的正常使用中。

研究团队强调,这个发现并不是要否定AI技术的价值,而是要提醒行业更加谨慎地评估和使用AI系统。只有充分理解了AI的局限性,我们才能更好地发挥它们的优势,同时避免潜在的风险。

说到底,这项研究揭示了一个令人深思的现象:在我们急于拥抱AI革命的同时,可能忽略了一些基础性的问题。一个简单的分隔符选择就能颠覆整个AI评测排名,这提醒我们,在建立基于AI的重要决策系统之前,还有很多工作需要做。

这个发现对于普通用户也有实际意义。当你与AI助手交互时,尝试用不同的方式组织你的问题和例子,可能会得到质量差异很大的回答。了解了这个现象,你就能更好地"驯服"AI,让它为你提供更好的服务。

归根结底,这项研究提醒我们,AI技术还在快速发展过程中,看似成熟的评测体系实际上可能存在我们尚未发现的重大缺陷。只有保持谨慎和批判性思维,我们才能真正受益于AI技术的进步,而不是被它的表面表现所欺骗。有兴趣深入了解这项研究细节的读者,可以通过arXiv:2510.05152v1这个编号查找完整的论文内容。

Q&A

Q1:什么是AI评测中的分隔符问题?

A:分隔符问题是指在给AI提供示例时,仅仅改变例子之间的分隔符号(比如从换行符改成感叹号),就会导致AI性能产生高达45%的巨大差异。这就像同一个学生考同一份试卷,只因为题目间的分隔线不同,成绩就从60分变成85分。

Q2:这个分隔符问题会影响哪些AI模型?

A:研究发现所有测试的AI模型都存在这个问题,包括Llama、Qwen、Gemma等主流开源模型,甚至连最先进的GPT-4o也不例外。更大的模型并不能解决这个问题,70B参数的大模型与8B小模型一样敏感,有时甚至更不稳定。

Q3:普通用户如何避免分隔符问题的影响?

A:用户可以在给AI提供例子时,明确说明使用的分隔符,比如说"下面是用感叹号分隔的例子"。另外,换行符和感叹号通常是比较稳定的选择。了解这个问题后,用户可以尝试不同的格式来获得更好的AI回答质量。

特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相关推荐
热点推荐
传闻:默多克赠送四合院暗藏心机,邓文迪隐忍15年终于出手

传闻:默多克赠送四合院暗藏心机,邓文迪隐忍15年终于出手

卡西莫多的故事
2026-01-18 08:15:07
广东省纪委监委:处分厅级干部101人,处级干部2415人

广东省纪委监委:处分厅级干部101人,处级干部2415人

南方都市报
2026-01-20 10:47:21
叶文斌已被成功救出,但主动从事诈骗活动的他怕是要坐牢

叶文斌已被成功救出,但主动从事诈骗活动的他怕是要坐牢

映射生活的身影
2026-01-19 22:32:27
部队退役我当了狱警,给一个死刑犯剃头时,认出他是失踪多年的队长

部队退役我当了狱警,给一个死刑犯剃头时,认出他是失踪多年的队长

浮生实录集
2025-09-18 15:10:05
人社部部长表态!2026养老金到底怎么涨?企退和事退有什么区别?

人社部部长表态!2026养老金到底怎么涨?企退和事退有什么区别?

夜深爱杂谈
2026-01-19 19:08:38
向太曝马伊琍已再婚:当年文章过不了心理那关

向太曝马伊琍已再婚:当年文章过不了心理那关

娱乐看阿敞
2025-12-12 15:50:00
以色列F-35战机空袭伊朗,特朗普放狠话48小时内德黑兰没还手机会

以色列F-35战机空袭伊朗,特朗普放狠话48小时内德黑兰没还手机会

世界探索者探索
2026-01-17 23:10:17
俄方涨价,中国停止进口俄电,普京话里有话,俄外交开始新转向?

俄方涨价,中国停止进口俄电,普京话里有话,俄外交开始新转向?

谛听骨语本尊
2026-01-20 00:53:33
为什么老顾客突然不来照顾生意了?网友:为了一瓶矿泉水查监控

为什么老顾客突然不来照顾生意了?网友:为了一瓶矿泉水查监控

滑稽斑马呀
2025-11-27 17:02:09
西班牙宣布为高铁事故遇难者举行三天哀悼

西班牙宣布为高铁事故遇难者举行三天哀悼

界面新闻
2026-01-19 22:07:51
黄蜂新蜂王诞生!克尼普尔跻身近四年天才榜TOP4

黄蜂新蜂王诞生!克尼普尔跻身近四年天才榜TOP4

大眼瞄世界
2026-01-19 23:26:49
国家发改委:进一步清理消费领域不合理限制措施

国家发改委:进一步清理消费领域不合理限制措施

新京报
2026-01-20 13:25:21
外交部紧急提醒:接到这个来电,立即挂断

外交部紧急提醒:接到这个来电,立即挂断

大象新闻
2026-01-19 22:45:09
手戴1000多万名表,坐拥3.6亿私人飞机,“沪上皇”秦奋啥来头?

手戴1000多万名表,坐拥3.6亿私人飞机,“沪上皇”秦奋啥来头?

小熊侃史
2026-01-12 07:40:07
中方再次严正要求日本:立即归还中国!

中方再次严正要求日本:立即归还中国!

快看张同学
2026-01-19 19:34:59
吴磊大瓜牵扯多位明星!白珊珊控诉吴磊,赵露思、何猷君无辜躺枪

吴磊大瓜牵扯多位明星!白珊珊控诉吴磊,赵露思、何猷君无辜躺枪

全球风情大揭秘
2026-01-19 10:45:26
30岁唇腭裂小伙为嫣然医院发声了!得知李亚鹏的事情,他泪流满面

30岁唇腭裂小伙为嫣然医院发声了!得知李亚鹏的事情,他泪流满面

小徐讲八卦
2026-01-19 10:19:25
中途岛海战的几十年谎言:日本航母被炸时,飞行甲板其实是空的

中途岛海战的几十年谎言:日本航母被炸时,飞行甲板其实是空的

史之铭
2026-01-18 17:31:05
35岁接岳母养老,父亲停掉6000房贷,理由让我无地自容

35岁接岳母养老,父亲停掉6000房贷,理由让我无地自容

木子言故事
2026-01-20 09:58:41
网友不建议大家去健身房的原因:健身房真的很脏!

网友不建议大家去健身房的原因:健身房真的很脏!

夜深爱杂谈
2026-01-18 19:43:51
2026-01-20 16:00:49
科技行者 incentive-icons
科技行者
科技正在如何变革商业世界
6929文章数 546关注度
往期回顾 全部

科技要闻

去年预亏60亿后再投百亿 两大车企紧抱华为

头条要闻

特朗普:格陵兰岛非常重要 北约若离开了美国啥也不是

头条要闻

特朗普:格陵兰岛非常重要 北约若离开了美国啥也不是

体育要闻

新的时代!东契奇首夺全明星票王 詹姆斯落选首发

娱乐要闻

贝克汉姆长子发文决裂:全家都在演戏

财经要闻

财政部:财政总体支出力度"只增不减"

汽车要闻

奇瑞张贵兵:墨甲不做秀技术的企业 只做痛点终结者

态度原创

房产
艺术
数码
教育
亲子

房产要闻

中旅・三亚蓝湾发布会揭秘自贸港好房子高阶形态

艺术要闻

截至2026年,中国已建成的十大摩天楼

数码要闻

显示器线上均价跌破1000元 500元以下销量暴涨36%

教育要闻

刷到就是要进复试啊啊啊超高频口语真题满分答案

亲子要闻

一年消失1.48万所!幼儿园关停潮来袭,比没学上可怕的事正在发生

无障碍浏览 进入关怀版