网易首页 > 网易号 > 正文 申请入驻

Meta的单字符革命:一个小符号如何颠覆AI评测体系

0
分享至


这项由Meta人工智能研究院(FAIR)的苏景桐等研究人员联合纽约大学共同完成的研究发表于2025年9月,论文编号为arXiv:2510.05152v1。有兴趣深入了解的读者可以通过该编号查询完整论文内容。

当我们和AI聊天时,经常会给它一些例子来说明我们想要的回答风格。比如我们可能会说:"问:法国首都是哪里?答:巴黎。问:2加2等于几?答:4。那么现在问:中国首都是哪里?"这样的对话看起来很自然,但你有没有想过,如果我们把例子之间的分隔符号从换行符改成逗号,或者改成感叹号,AI的回答会有什么变化?

大多数人可能觉得这种细微的变化不会有什么影响,毕竟内容都是一样的,只是换了个小小的符号而已。然而,Meta的研究团队发现了一个令人震惊的现象:仅仅改变这个分隔例子的小符号,就能让目前最先进的AI模型在标准测试中的表现产生高达45%的巨大差异。

这就好比同一个学生参加同一场考试,仅仅因为试卷上的分隔线从实线变成了虚线,他的成绩就能从60分变成85分,或者从85分跌到40分。更令人不安的是,通过精心选择这个小小的分隔符号,研究人员甚至可以操纵AI模型的排名,让任何一个模型看起来都像是"最优秀"的那个。

研究团队深入分析了这个现象背后的机制。他们发现,当AI处理这些例子时,不同的分隔符号会影响模型内部的"注意力机制"——也就是AI决定重点关注哪些信息的过程。这就像一个人在嘈杂的聚会上试图听清楚朋友的话,如果朋友用特定的手势或语调来强调重点,他就更容易理解;但如果朋友用了让人分心的方式说话,理解效果就会大打折扣。

一、小符号,大影响:AI评测中的隐形变量

当前的AI评测系统就像是一场看似公平的标准化考试。所有的AI模型都要回答同样的问题,比如在MMLU(大规模多任务语言理解)测试中回答各种学科的选择题,在ARC挑战测试中解决常识推理问题。然而,研究团队发现,这场"公平"的考试实际上存在一个几乎被所有人忽视的变量:例子之间用什么符号分隔。

研究人员选择了30个非字母数字的ASCII符号进行测试,包括感叹号、井号、美元符号、问号等日常常见的标点符号。他们测试了来自三个主要AI模型家族的代表:Llama、Qwen和Gemma系列模型。结果令人震惊:同一个模型在使用不同分隔符时,表现差异巨大。

以Llama-3.1-8B模型为例,当使用换行符作为分隔符时,它在MMLU测试中的准确率可以达到52%,但当使用"&"符号作为分隔符时,准确率会下降到34%,这是18.3个百分点的差异。更夸张的是Gemma-2-9B模型,最好和最差的分隔符选择之间竟然有29.4%的性能差距。

这种差异的规模有多大?研究团队指出,这相当于AI领域三年的技术进步所带来的性能提升。换句话说,一个三年前的模型,如果选择了正确的分隔符,可能在测试中的表现比一个最新模型使用错误分隔符的表现还要好。

更令人担忧的是,这种影响不仅仅局限于某个特定的测试。研究人员在多个不同类型的任务中都发现了类似现象,包括常识推理、阅读理解,甚至是需要模型从给定信息中查找特定内容的"字典查找"任务。这表明,分隔符的选择对AI的影响是系统性的,而不是某个测试的特殊情况。

二、规模化并不能解决问题:更大的模型同样脆弱

面对这个发现,人们自然会想:是不是只有较小的AI模型才会受到这种影响?毕竟,更大、更先进的模型应该更稳定、更智能。然而,研究结果粉碎了这种乐观的期望。

研究团队比较了Llama-3.1的8B版本(80亿参数)和70B版本(700亿参数)。70B版本的参数数量是8B版本的近9倍,按理说应该更加稳健。然而,测试结果显示,虽然70B版本在整体性能上确实更优秀,但它对分隔符选择的敏感度并没有明显改善。

在某些情况下,大模型的表现甚至更不稳定。在常识推理任务中,70B版本的性能波动达到40%,比8B版本的29.1%还要大。这就像一个经验更丰富的司机,虽然平时开车技术更好,但面对路标颜色的细微变化时,反而比新手司机更容易困惑。

这个发现具有深远的含义。目前,业界普遍认为通过增加模型规模可以提高AI的稳健性和可靠性。然而,这项研究表明,即使是最大、最先进的模型,在面对看似微不足道的输入变化时,仍然可能表现出令人意外的脆弱性。

更令人震惊的是,研究团队还测试了闭源的GPT-4o模型。作为目前最先进的AI模型之一,GPT-4o在分隔符选择上表现出了比开源模型更严重的不稳定性,性能波动高达45.63%。这说明这个问题并不仅仅存在于开源模型中,而是整个AI行业都面临的系统性挑战。

三、深层机制:AI如何"看"分隔符

为了理解这个现象背后的原理,研究团队深入分析了AI模型的内部工作机制。他们使用了一种叫做"注意力分析"的技术,这种技术可以显示AI在处理信息时把"注意力"集中在哪些地方。

可以把AI的注意力机制想象成一个人在图书馆里查资料的过程。当这个人需要查找某个特定信息时,他会扫描书页,把注意力集中在看起来最相关的段落上。如果书页的排版清晰,重要信息被适当地突出显示,他就能快速找到需要的内容。但如果排版混乱,或者重要信息被不合适的符号包围,他可能就会错过关键内容或者被无关信息分散注意力。

研究团队专门设计了一个"字典查找"任务来验证这个假设。在这个任务中,AI需要从一系列键值对中找到特定键对应的值,就像在电话簿中查找某个人的电话号码。通过分析AI在执行这个任务时的注意力分布,研究人员发现了一个有趣的模式。

当使用换行符作为分隔符时,AI能够更准确地将注意力集中在目标键上,就像在整齐排版的电话簿中能够快速定位到正确的条目。具体来说,AI对目标键的注意力得分比使用空格分隔符时高出25%,这个差异在统计学上是显著的。

这个发现揭示了一个重要原理:AI不仅仅在处理内容本身,它们对格式化信息(如分隔符)也非常敏感。正确的分隔符选择能够引导AI的注意力机制更好地聚焦于相关信息,而错误的选择则可能导致注意力分散或错误聚焦。

四、操纵排名:AI评测的信任危机

这项研究最令人不安的发现之一,是通过精心选择分隔符,可以完全操纵AI模型在标准测试中的相对排名。研究人员展示了一个惊人的例子:同样的三个AI模型,通过改变分隔符,可以让排名完全颠倒。

在使用换行符时,模型A可能排名第一,模型B第二,模型C第三。但当改为使用井号符号时,排名可能变成模型C第一,模型A第二,模型B第三。当使用问号时,排名又可能变成另一种完全不同的顺序。这就像同一场比赛,仅仅因为裁判换了一副不同颜色的眼镜,选手的名次就完全改变了。

这个发现对整个AI行业具有深远的影响。目前,各种AI排行榜和评测基准被广泛用于指导投资决策、技术选型和学术研究方向。如果这些评测结果可以通过简单地改变一个分隔符就被操纵,那么基于这些结果做出的重要决策可能都是有问题的。

更严重的是,大多数评测机构和研究人员可能都没有意识到这个问题。他们可能认为自己在进行客观、科学的比较,但实际上却在无意中引入了巨大的偏差。这就像医生用一把刻度不准确的尺子来诊断病人的身高,却不知道尺子本身有问题。

研究团队指出,这种现象在不同学科领域都存在。无论是STEM学科(科学、技术、工程、数学)、人文学科,还是社会科学,分隔符的选择都会影响AI的表现。这表明这不是某个特定领域的技术问题,而是AI模型本身的基础性缺陷。

五、寻求解决方案:让AI更加稳健

面对这个严重的问题,研究团队也在积极寻找解决方案。他们尝试了多种方法来提高AI对分隔符选择的稳健性。

第一种方法是在AI训练过程中使用多种不同的分隔符。研究人员假设,如果AI在学习过程中接触到各种不同的分隔符,它可能会变得更加适应不同的格式。然而,这种方法的效果并不理想。原因可能是当前AI训练数据中,不同分隔符的分布极不均匀。比如在常用的训练数据集中,换行符出现的频率高达67.48%,而其他符号的出现频率要低得多。

第二种方法更加直接有效:在给AI的指令中明确说明使用的分隔符。比如,不是简单地给出例子,而是在开头加上一句话:"下面是一些用感叹号分隔的多选题例子"。这种方法显著提高了AI的表现稳定性。

测试结果表明,这种"明示分隔符"的方法能够让AI的性能提升1.5%到27.9%不等。以Qwen2.5-7B模型为例,使用这种方法后,它在MMLU测试中的表现提升了14.2%。这就像给一个在嘈杂环境中听讲座的人提前说明:"接下来我会用敲桌子来分隔不同的要点",这样他就能更好地理解讲座内容。

研究团队还发现了一些"通用性较好"的分隔符。经过大量测试,他们发现换行符和感叹号是相对最稳定的选择,在不同模型和不同任务中都能提供较好的性能。换行符平均能提升5.3%的性能,感叹号能提升12.2%的性能。

六、广泛影响:超越简单的技术问题

这项研究的影响远远超出了AI技术本身,它揭示了当前AI评测体系的根本性问题。目前,从学术研究到商业应用,整个行业都依赖于各种AI评测基准来做出重要决策。如果这些评测结果可能因为一个小小的格式选择而产生巨大偏差,那么基于这些评测的所有判断都需要重新审视。

研究团队测试的不仅仅是简单的问答任务,还包括了更复杂的场景,比如让AI根据给定的范例进行分类。他们发现,即使增加范例的数量,从2个增加到10个,AI对分隔符的敏感性依然存在。这说明这个问题不会随着任务复杂度的增加而自然消失。

更令人担忧的是,研究表明不存在"万能"的最佳分隔符。不同的AI模型、不同的任务类型、甚至同一任务的不同主题,可能都需要不同的分隔符才能获得最佳性能。这就像不同的人需要不同的眼镜才能看清楚一样,没有一副眼镜适合所有人。

这个发现对AI的实际应用也有重要启示。在真实世界中,用户与AI交互的方式千变万化,他们可能使用各种不同的格式来组织信息。如果AI的性能会因为这些格式差异而产生巨大变化,那么用户体验将变得极不一致。

七、未来展望:建立更可靠的AI评测体系

面对这个挑战,研究团队提出了几点建议来改进现有的AI评测体系。首先,所有的AI评测都应该公开其使用的具体格式设置,包括分隔符的选择。这样,其他研究人员可以理解为什么不同的评测可能产生不同的结果。

其次,评测机构应该测试多种不同的分隔符,并报告结果的稳定性范围,而不是仅仅报告单一条件下的结果。这就像医学研究中需要报告结果的置信区间一样,让人们了解结果的可靠性程度。

第三,AI开发者应该在模型设计和训练过程中更加重视格式稳健性。这可能需要新的训练方法和评估指标,专门衡量模型对输入格式变化的敏感度。

研究团队也承认,这项研究只是揭开了问题的冰山一角。他们只测试了单字符的ASCII分隔符,但在实际应用中,人们可能使用更复杂的分隔方式,比如HTML标签、特殊的标点组合等。此外,除了分隔符之外,可能还有其他看似微不足道的格式因素也会影响AI的性能。

这项研究也提醒我们,AI的"智能"可能并不像我们想象的那样稳健。虽然现代AI在很多任务上表现出色,但它们可能对输入的细微变化异常敏感。这种敏感性不仅存在于恶意的对抗攻击中,也存在于日常的正常使用中。

研究团队强调,这个发现并不是要否定AI技术的价值,而是要提醒行业更加谨慎地评估和使用AI系统。只有充分理解了AI的局限性,我们才能更好地发挥它们的优势,同时避免潜在的风险。

说到底,这项研究揭示了一个令人深思的现象:在我们急于拥抱AI革命的同时,可能忽略了一些基础性的问题。一个简单的分隔符选择就能颠覆整个AI评测排名,这提醒我们,在建立基于AI的重要决策系统之前,还有很多工作需要做。

这个发现对于普通用户也有实际意义。当你与AI助手交互时,尝试用不同的方式组织你的问题和例子,可能会得到质量差异很大的回答。了解了这个现象,你就能更好地"驯服"AI,让它为你提供更好的服务。

归根结底,这项研究提醒我们,AI技术还在快速发展过程中,看似成熟的评测体系实际上可能存在我们尚未发现的重大缺陷。只有保持谨慎和批判性思维,我们才能真正受益于AI技术的进步,而不是被它的表面表现所欺骗。有兴趣深入了解这项研究细节的读者,可以通过arXiv:2510.05152v1这个编号查找完整的论文内容。

Q&A

Q1:什么是AI评测中的分隔符问题?

A:分隔符问题是指在给AI提供示例时,仅仅改变例子之间的分隔符号(比如从换行符改成感叹号),就会导致AI性能产生高达45%的巨大差异。这就像同一个学生考同一份试卷,只因为题目间的分隔线不同,成绩就从60分变成85分。

Q2:这个分隔符问题会影响哪些AI模型?

A:研究发现所有测试的AI模型都存在这个问题,包括Llama、Qwen、Gemma等主流开源模型,甚至连最先进的GPT-4o也不例外。更大的模型并不能解决这个问题,70B参数的大模型与8B小模型一样敏感,有时甚至更不稳定。

Q3:普通用户如何避免分隔符问题的影响?

A:用户可以在给AI提供例子时,明确说明使用的分隔符,比如说"下面是用感叹号分隔的例子"。另外,换行符和感叹号通常是比较稳定的选择。了解这个问题后,用户可以尝试不同的格式来获得更好的AI回答质量。

特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相关推荐
热点推荐
你最大的贵人,不是别人,而是那个突然学会翻脸,变得无情的自己

你最大的贵人,不是别人,而是那个突然学会翻脸,变得无情的自己

木言观
2026-01-21 13:10:48
女子乘坐网约车将前乘客丢失现金据为己有,济南警方:拘留

女子乘坐网约车将前乘客丢失现金据为己有,济南警方:拘留

大风新闻
2026-01-20 21:04:20
患癌母亲街头碰瓷,被儿子崩溃怒斥“你不要害别人”,当事人回应:母亲已承认错误,已联系司机道歉赔偿

患癌母亲街头碰瓷,被儿子崩溃怒斥“你不要害别人”,当事人回应:母亲已承认错误,已联系司机道歉赔偿

扬子晚报
2026-01-20 14:37:39
荣膺全明星票王,东契奇:感谢为我投票的球迷,这是莫大的荣誉

荣膺全明星票王,东契奇:感谢为我投票的球迷,这是莫大的荣誉

懂球帝
2026-01-21 12:36:28
张奔斗:王欣瑜的松弛感,来自于告别了完美主义

张奔斗:王欣瑜的松弛感,来自于告别了完美主义

体坛周报
2026-01-20 15:42:12
药师提醒:银杏叶片、血塞通、复方丹参片,心脑血管用药别再选错

药师提醒:银杏叶片、血塞通、复方丹参片,心脑血管用药别再选错

蜉蝣说
2026-01-17 18:36:03
宋骧曝梁小龙死因,凌晨胸痛,去医院神志清醒,一个举动害了他

宋骧曝梁小龙死因,凌晨胸痛,去医院神志清醒,一个举动害了他

观察鉴娱
2026-01-20 10:12:36
梁小龙去世,原来这么多周星驰电影配角都已离我们而去

梁小龙去世,原来这么多周星驰电影配角都已离我们而去

新民周刊
2026-01-19 19:51:56
韩莹老公说漏嘴,孙颖莎和王曼昱相互研究,邱贻可也帮着一块研究!

韩莹老公说漏嘴,孙颖莎和王曼昱相互研究,邱贻可也帮着一块研究!

最爱乒乓球
2026-01-21 08:32:28
小邓利维无意交易巴特勒!回应库明加交易申请:得有球队愿意接手

小邓利维无意交易巴特勒!回应库明加交易申请:得有球队愿意接手

罗说NBA
2026-01-21 11:24:54
火箭逆转马刺:谢泼德之战!

火箭逆转马刺:谢泼德之战!

张佳玮写字的地方
2026-01-21 12:46:19
大蒜塞耳朵里太厉害了,10个人9个都用得到,看完赶快叮嘱家人

大蒜塞耳朵里太厉害了,10个人9个都用得到,看完赶快叮嘱家人

妙招酷
2025-12-02 00:06:08
北京人均存款32.5万元,最穷的4.5万元!

北京人均存款32.5万元,最穷的4.5万元!

闲侃闲侃
2026-01-19 22:07:52
国足3个小组第一全拿下!越南门将一席话,给日本队上足强度

国足3个小组第一全拿下!越南门将一席话,给日本队上足强度

十点街球体育
2026-01-21 12:55:03
最新 | 小区保安猥亵儿童获刑四年六个月!

最新 | 小区保安猥亵儿童获刑四年六个月!

天津广播
2026-01-21 10:27:06
场均3+1!CBA旧将、NBA落选秀!却是杨瀚森半个赛季迈不过去的坎

场均3+1!CBA旧将、NBA落选秀!却是杨瀚森半个赛季迈不过去的坎

弄月公子
2026-01-21 11:44:08
原来有这么多工作需要保密!网友:牺牲12年的爸爸竟然回来了!

原来有这么多工作需要保密!网友:牺牲12年的爸爸竟然回来了!

另子维爱读史
2026-01-16 18:29:22
赖清德批弹劾案浪费时间,蓝白阵营反批:大罢免恶搞台湾一整年

赖清德批弹劾案浪费时间,蓝白阵营反批:大罢免恶搞台湾一整年

海峡导报社
2026-01-02 09:20:19
马克龙拒绝!特朗普:“他很快就会下台”

马克龙拒绝!特朗普:“他很快就会下台”

环球时报国际
2026-01-21 08:55:14
绿大暗做公益洗金币!王鹤棣有新嫂子了?

绿大暗做公益洗金币!王鹤棣有新嫂子了?

八卦疯叔
2026-01-21 12:00:06
2026-01-21 13:51:00
科技行者 incentive-icons
科技行者
科技正在如何变革商业世界
6946文章数 546关注度
往期回顾 全部

科技要闻

中芯国际等巨头集体提价,8英寸芯片最高涨20%

头条要闻

特朗普:对美国的真正威胁是联合国和北约

头条要闻

特朗普:对美国的真正威胁是联合国和北约

体育要闻

只会防守反击?不好意思,我们要踢决赛了

娱乐要闻

李亚鹏2天获1291万网友力挺

财经要闻

消失的投资金 起底华文映像电影投资骗局

汽车要闻

新一代理想L9电池加码体型加大 重夺高端话语权

态度原创

艺术
健康
家居
时尚
军事航空

艺术要闻

一百多年前的中国,太雄伟震撼了!

血常规3项异常,是身体警报!

家居要闻

褪去浮华 触达松弛与欣喜

告别93岁时尚传奇Valentino:他留下了全世界最美的“红”

军事要闻

德军13人前脚刚走 荷兰2名军人也撤离格陵兰岛

无障碍浏览 进入关怀版