莫斯科高等经济学院研究：大语言模型存在格式遵循缺陷|调用|字母|大小写

莫斯科高等经济学院研究：大语言模型存在格式遵循缺陷

2025-10-20 21:34:25　来源: 科技行者

北京举报

分享至

当我们让AI助手帮忙写一封邮件时，如果要求"请用正式语调，并在结尾加上双引号"，你觉得它能做到吗？莫斯科高等经济学院的研究员尼古拉·斯克里普科发现了一个令人意外的现象：即使是最先进的大语言模型，在执行看似简单的格式指令时也经常"掉链子"。这项发表于2025年9月的研究论文（arXiv:2509.18420v1）首次系统性地揭示了AI在函数调用中遵循格式指令的能力缺陷，为我们理解AI的真实能力边界提供了全新视角。

在当今的AI时代，大语言模型不仅要能聊天，更要能像真正的助手一样调用各种工具和API来完成复杂任务。比如，当你让AI帮你订餐厅时，它需要调用预订系统的函数，并且必须严格按照系统要求的格式填写信息——用户名必须首字母大写，日期必须是ISO格式，电话号码不能包含标点符号等等。然而，斯克里普科的研究团队发现，现有的AI评测基准只关注"功能是否正确"，却忽略了"格式是否准确"这个同样重要的维度。

为了填补这个评估空白，研究团队开发了一个名为IFEval-FC的全新测试基准。这个基准的巧妙之处在于，它将格式要求直接嵌入到函数参数的描述中，就像在菜谱中写明"盐必须是海盐，糖必须是细砂糖"一样具体明确。整个测试包含750个精心设计的案例，每个案例都包含一个带有特定格式要求的函数和一个对应的用户查询。

研究团队从现实世界中汲取灵感，设计了19种不同类型的格式指令，涵盖了从简单的大小写要求到复杂的标点符号规则等各个方面。这些指令被分为七大类别，就像把不同类型的游戏规则分门别类一样清晰有序。关键词类别要求文本中必须包含或排除特定词汇，就像写作文时必须用到某些关键词。长度约束类别控制文本的字数或句子数量，类似于推特的字符限制。语言类别限制使用特定的文字系统，比如要求只能用西里尔字母。格式类别要求特定的排版样式，比如JSON格式或Python列表格式。大小写类别控制字母的大小写形式。标点符号类别规定逗号等符号的使用频率。开头结尾类别要求文本以特定方式开始或结束。

在数据集的构建过程中，研究团队采用了双重策略。一部分函数来自现有的BFCL基准测试，这些都是真实世界中使用的函数模式，研究团队在其基础上添加了格式约束。另一部分函数则是团队使用GPT-5专门生成的，覆盖了80个不同的应用领域，从社交媒体管理到金融服务，确保测试的广泛性和实用性。每个函数都必须包含一个自由形式的参数，这个参数就像一张白纸，可以应用任何格式约束，模拟现实中AI需要生成符合特定要求文本的场景。

为了确保测试的真实性，研究团队为每个函数生成了五个不同的用户查询。这些查询都用自然对话的语言表达，包含调用函数所需的所有信息，但故意不提及格式要求——因为在现实中，用户通常不会知道系统内部的格式规范。这就像顾客在餐厅点菜时，不会知道厨房内部对食材处理的具体要求一样。

在测试过程中，研究团队遇到了一个有趣的现象。一些最新的AI模型，特别是Anthropic公司的Claude系列，在面对模糊情况时会主动寻求用户澄清，而不是直接执行函数调用。虽然这种谨慎态度在某些情况下是好事，但在这个测试中却会影响评估的公平性。因此，研究团队添加了一条系统指令，明确要求模型"无论如何都必须调用函数，绝不要求用户澄清任何事情"。

评估结果令人震惊。即使是目前最先进的商业模型，如OpenAI的GPT-5和Anthropic的Claude Opus 4.1，在这个看似简单的任务上也频频失误。没有任何一个模型的准确率超过80%，这意味着每五次格式要求中就有至少一次会被忽略或执行错误。这个发现特别令人意外，因为对人类来说，遵循这些格式指令是极其简单的任务。

具体来看各个模型的表现，我们可以发现一些有趣的模式。在处理JSON格式要求时，大多数模型都表现不佳，有些模型的成功率甚至为零。这就像让一个人按照特定模板填表，结果他们完全忽略了模板的存在。在关键词频率控制方面，较新的模型表现相对较好，但仍然存在明显的改进空间。最令人困惑的是，一些看似简单的任务，比如控制文本中逗号的数量，即使是最先进的模型也经常搞错。

研究还发现了模型之间的显著差异。OpenAI的最新模型在某些任务上表现出色，比如空格控制和标题格式，但在其他任务上却表现平平。Anthropic的模型在处理占位符计数和高亮部分计数时表现较好，但在字母频率控制方面却力不从心。俄罗斯的GigaChat模型虽然整体表现不如国际主流模型，但在某些特定任务上也有不错的表现。

这些发现对AI应用的实际部署具有重要意义。在现实世界中，AI助手经常需要与各种API和系统交互，而这些系统往往对输入格式有严格要求。一个看似微小的格式错误就可能导致整个工作流程的失败。比如，如果AI助手在帮用户预订机票时，没有按照航空公司系统要求的格式填写乘客姓名，整个预订就会失败。

更深层次地分析，这个问题反映了当前AI训练方法的局限性。大语言模型在训练时主要关注内容的正确性和流畅性，而对格式的精确控制重视不够。这就像培养一个作家时只关注文章内容是否精彩，却忽略了标点符号和段落格式的重要性。虽然内容是核心，但格式的准确性在很多应用场景中同样关键。

研究团队也指出了当前基准测试的一些限制。目前的测试只涉及单个函数调用，而在实际应用中，AI往往需要从多个可选函数中选择正确的一个，这会增加任务的复杂性。此外，当前的测试主要基于英语，未来可能需要扩展到多语言环境，以评估AI在不同语言背景下的格式控制能力。

从技术发展的角度来看，这项研究为AI能力评估开辟了一个新的维度。传统的AI评测主要关注"做对了什么"，而这项研究关注的是"怎么做的"。这种评估方式更接近现实应用的需求，因为在实际部署中，AI不仅要给出正确答案，还要以正确的方式给出答案。

对于AI开发者来说，这项研究提供了明确的改进方向。未来的模型训练可能需要更多地关注格式控制能力，或许需要专门的训练数据和优化策略来提升这方面的表现。这就像在培训客服人员时，不仅要教他们如何解决问题，还要教他们如何按照公司规范的格式记录和报告问题。

对于普通用户来说，这项研究提醒我们在使用AI助手时要保持适当的期望。虽然AI在很多方面已经表现得非常出色，但在一些看似简单的细节处理上仍然可能出错。在关键应用中，人工检查和验证仍然是必要的。

展望未来，研究团队计划进一步扩展这个基准测试，增加更多类型的格式约束和更复杂的多函数选择场景。他们还考虑将测试扩展到多语言环境，以评估AI在不同文化和语言背景下的格式控制能力。这些扩展将为AI能力评估提供更全面的视角，推动整个领域向更实用、更可靠的方向发展。

说到底，这项研究揭示了一个看似矛盾的现象：AI可以写出精彩的诗歌，可以解决复杂的数学问题，但却可能在"请用双引号包围这个词"这样的简单要求上犯错。这提醒我们，AI的能力发展并不是均匀的，在某些看似基础的任务上仍有很大的改进空间。对于整个AI行业来说，这项研究不仅指出了当前的不足，更重要的是为未来的发展指明了方向。只有当AI能够在各个维度上都达到可靠的表现，它才能真正成为我们日常生活和工作中值得信赖的助手。

Q&A

Q1：IFEval-FC基准测试是什么？它和其他AI测试有什么不同？
A：IFEval-FC是专门评估大语言模型在函数调用中遵循格式指令能力的测试基准。与其他只关注功能正确性的测试不同，它专门检查AI是否能按照要求的格式输出结果，比如是否能正确使用大写字母、特定标点符号或JSON格式等。

Q2：为什么大语言模型在格式控制方面表现不好？
A：研究发现这主要是因为当前AI训练时更关注内容的正确性和流畅性，而对格式的精确控制重视不够。就像培养作家时只关注文章内容是否精彩，却忽略了标点符号和段落格式的重要性一样。

Q3：这项研究对普通用户使用AI有什么启示？
A：这提醒我们在使用AI助手时要保持适当期望，特别是在需要严格格式要求的任务中。虽然AI在很多方面表现出色，但在一些看似简单的细节处理上仍可能出错，关键应用中人工检查验证仍然必要。

特别声明：以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布，本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.