网易首页 > 网易号 > 正文 申请入驻

莫斯科高等经济学院研究:大语言模型存在格式遵循缺陷

0
分享至


当我们让AI助手帮忙写一封邮件时,如果要求"请用正式语调,并在结尾加上双引号",你觉得它能做到吗?莫斯科高等经济学院的研究员尼古拉·斯克里普科发现了一个令人意外的现象:即使是最先进的大语言模型,在执行看似简单的格式指令时也经常"掉链子"。这项发表于2025年9月的研究论文(arXiv:2509.18420v1)首次系统性地揭示了AI在函数调用中遵循格式指令的能力缺陷,为我们理解AI的真实能力边界提供了全新视角。

在当今的AI时代,大语言模型不仅要能聊天,更要能像真正的助手一样调用各种工具和API来完成复杂任务。比如,当你让AI帮你订餐厅时,它需要调用预订系统的函数,并且必须严格按照系统要求的格式填写信息——用户名必须首字母大写,日期必须是ISO格式,电话号码不能包含标点符号等等。然而,斯克里普科的研究团队发现,现有的AI评测基准只关注"功能是否正确",却忽略了"格式是否准确"这个同样重要的维度。

为了填补这个评估空白,研究团队开发了一个名为IFEval-FC的全新测试基准。这个基准的巧妙之处在于,它将格式要求直接嵌入到函数参数的描述中,就像在菜谱中写明"盐必须是海盐,糖必须是细砂糖"一样具体明确。整个测试包含750个精心设计的案例,每个案例都包含一个带有特定格式要求的函数和一个对应的用户查询。

研究团队从现实世界中汲取灵感,设计了19种不同类型的格式指令,涵盖了从简单的大小写要求到复杂的标点符号规则等各个方面。这些指令被分为七大类别,就像把不同类型的游戏规则分门别类一样清晰有序。关键词类别要求文本中必须包含或排除特定词汇,就像写作文时必须用到某些关键词。长度约束类别控制文本的字数或句子数量,类似于推特的字符限制。语言类别限制使用特定的文字系统,比如要求只能用西里尔字母。格式类别要求特定的排版样式,比如JSON格式或Python列表格式。大小写类别控制字母的大小写形式。标点符号类别规定逗号等符号的使用频率。开头结尾类别要求文本以特定方式开始或结束。

在数据集的构建过程中,研究团队采用了双重策略。一部分函数来自现有的BFCL基准测试,这些都是真实世界中使用的函数模式,研究团队在其基础上添加了格式约束。另一部分函数则是团队使用GPT-5专门生成的,覆盖了80个不同的应用领域,从社交媒体管理到金融服务,确保测试的广泛性和实用性。每个函数都必须包含一个自由形式的参数,这个参数就像一张白纸,可以应用任何格式约束,模拟现实中AI需要生成符合特定要求文本的场景。

为了确保测试的真实性,研究团队为每个函数生成了五个不同的用户查询。这些查询都用自然对话的语言表达,包含调用函数所需的所有信息,但故意不提及格式要求——因为在现实中,用户通常不会知道系统内部的格式规范。这就像顾客在餐厅点菜时,不会知道厨房内部对食材处理的具体要求一样。

在测试过程中,研究团队遇到了一个有趣的现象。一些最新的AI模型,特别是Anthropic公司的Claude系列,在面对模糊情况时会主动寻求用户澄清,而不是直接执行函数调用。虽然这种谨慎态度在某些情况下是好事,但在这个测试中却会影响评估的公平性。因此,研究团队添加了一条系统指令,明确要求模型"无论如何都必须调用函数,绝不要求用户澄清任何事情"。

评估结果令人震惊。即使是目前最先进的商业模型,如OpenAI的GPT-5和Anthropic的Claude Opus 4.1,在这个看似简单的任务上也频频失误。没有任何一个模型的准确率超过80%,这意味着每五次格式要求中就有至少一次会被忽略或执行错误。这个发现特别令人意外,因为对人类来说,遵循这些格式指令是极其简单的任务。

具体来看各个模型的表现,我们可以发现一些有趣的模式。在处理JSON格式要求时,大多数模型都表现不佳,有些模型的成功率甚至为零。这就像让一个人按照特定模板填表,结果他们完全忽略了模板的存在。在关键词频率控制方面,较新的模型表现相对较好,但仍然存在明显的改进空间。最令人困惑的是,一些看似简单的任务,比如控制文本中逗号的数量,即使是最先进的模型也经常搞错。

研究还发现了模型之间的显著差异。OpenAI的最新模型在某些任务上表现出色,比如空格控制和标题格式,但在其他任务上却表现平平。Anthropic的模型在处理占位符计数和高亮部分计数时表现较好,但在字母频率控制方面却力不从心。俄罗斯的GigaChat模型虽然整体表现不如国际主流模型,但在某些特定任务上也有不错的表现。

这些发现对AI应用的实际部署具有重要意义。在现实世界中,AI助手经常需要与各种API和系统交互,而这些系统往往对输入格式有严格要求。一个看似微小的格式错误就可能导致整个工作流程的失败。比如,如果AI助手在帮用户预订机票时,没有按照航空公司系统要求的格式填写乘客姓名,整个预订就会失败。

更深层次地分析,这个问题反映了当前AI训练方法的局限性。大语言模型在训练时主要关注内容的正确性和流畅性,而对格式的精确控制重视不够。这就像培养一个作家时只关注文章内容是否精彩,却忽略了标点符号和段落格式的重要性。虽然内容是核心,但格式的准确性在很多应用场景中同样关键。

研究团队也指出了当前基准测试的一些限制。目前的测试只涉及单个函数调用,而在实际应用中,AI往往需要从多个可选函数中选择正确的一个,这会增加任务的复杂性。此外,当前的测试主要基于英语,未来可能需要扩展到多语言环境,以评估AI在不同语言背景下的格式控制能力。

从技术发展的角度来看,这项研究为AI能力评估开辟了一个新的维度。传统的AI评测主要关注"做对了什么",而这项研究关注的是"怎么做的"。这种评估方式更接近现实应用的需求,因为在实际部署中,AI不仅要给出正确答案,还要以正确的方式给出答案。

对于AI开发者来说,这项研究提供了明确的改进方向。未来的模型训练可能需要更多地关注格式控制能力,或许需要专门的训练数据和优化策略来提升这方面的表现。这就像在培训客服人员时,不仅要教他们如何解决问题,还要教他们如何按照公司规范的格式记录和报告问题。

对于普通用户来说,这项研究提醒我们在使用AI助手时要保持适当的期望。虽然AI在很多方面已经表现得非常出色,但在一些看似简单的细节处理上仍然可能出错。在关键应用中,人工检查和验证仍然是必要的。

展望未来,研究团队计划进一步扩展这个基准测试,增加更多类型的格式约束和更复杂的多函数选择场景。他们还考虑将测试扩展到多语言环境,以评估AI在不同文化和语言背景下的格式控制能力。这些扩展将为AI能力评估提供更全面的视角,推动整个领域向更实用、更可靠的方向发展。

说到底,这项研究揭示了一个看似矛盾的现象:AI可以写出精彩的诗歌,可以解决复杂的数学问题,但却可能在"请用双引号包围这个词"这样的简单要求上犯错。这提醒我们,AI的能力发展并不是均匀的,在某些看似基础的任务上仍有很大的改进空间。对于整个AI行业来说,这项研究不仅指出了当前的不足,更重要的是为未来的发展指明了方向。只有当AI能够在各个维度上都达到可靠的表现,它才能真正成为我们日常生活和工作中值得信赖的助手。

Q&A

Q1:IFEval-FC基准测试是什么?它和其他AI测试有什么不同?
A:IFEval-FC是专门评估大语言模型在函数调用中遵循格式指令能力的测试基准。与其他只关注功能正确性的测试不同,它专门检查AI是否能按照要求的格式输出结果,比如是否能正确使用大写字母、特定标点符号或JSON格式等。

Q2:为什么大语言模型在格式控制方面表现不好?
A:研究发现这主要是因为当前AI训练时更关注内容的正确性和流畅性,而对格式的精确控制重视不够。就像培养作家时只关注文章内容是否精彩,却忽略了标点符号和段落格式的重要性一样。

Q3:这项研究对普通用户使用AI有什么启示?
A:这提醒我们在使用AI助手时要保持适当期望,特别是在需要严格格式要求的任务中。虽然AI在很多方面表现出色,但在一些看似简单的细节处理上仍可能出错,关键应用中人工检查验证仍然必要。

特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相关推荐
热点推荐
两辆小米汽车同一天起火,雷军已焦头烂额

两辆小米汽车同一天起火,雷军已焦头烂额

鸣金网
2026-01-21 18:45:51
第7艘!中国香港油轮突发被美军扣押,对华海上封锁预演已经打响

第7艘!中国香港油轮突发被美军扣押,对华海上封锁预演已经打响

头条爆料007
2026-01-21 17:35:45
北京动物园多只猴子冻得瑟瑟发抖,依偎在一起抱团取暖!工作人员:猴山有洞穴和高热量食物保障过冬

北京动物园多只猴子冻得瑟瑟发抖,依偎在一起抱团取暖!工作人员:猴山有洞穴和高热量食物保障过冬

台州交通广播
2026-01-21 21:38:27
比 “斩杀线” 更恐怖,美国每年失踪36万儿童,且仅是被正式记录在案数据

比 “斩杀线” 更恐怖,美国每年失踪36万儿童,且仅是被正式记录在案数据

不掉线电波
2026-01-21 19:59:28
拳王邹市明创业失败后,妻子自曝家庭节俭开支:水费每月100元,儿子午饭39.5元

拳王邹市明创业失败后,妻子自曝家庭节俭开支:水费每月100元,儿子午饭39.5元

红星新闻
2026-01-21 17:10:09
全球首例!上海瑞金医院医生“唤醒”了失忆的妈妈!阿尔茨海默病或有新解法

全球首例!上海瑞金医院医生“唤醒”了失忆的妈妈!阿尔茨海默病或有新解法

新民晚报
2026-01-21 15:41:44
福建一首饰店被抢劫监控画面曝光:店主遭嫌疑人电击大声呼救,警方正调查

福建一首饰店被抢劫监控画面曝光:店主遭嫌疑人电击大声呼救,警方正调查

扬子晚报
2026-01-21 20:12:06
外交部回应马克龙涉及中欧经贸关系言论:希望欧方为中国企业营造公平,非歧视、透明、可预期的市场环境

外交部回应马克龙涉及中欧经贸关系言论:希望欧方为中国企业营造公平,非歧视、透明、可预期的市场环境

每日经济新闻
2026-01-21 17:16:36
中方收到入群邀请函,特朗普也翻脸了:关税加到200%!受害者出现

中方收到入群邀请函,特朗普也翻脸了:关税加到200%!受害者出现

策略述
2026-01-21 19:13:24
委内瑞拉代总统会见美国中情局局长,特朗普:她会来但现在不合适

委内瑞拉代总统会见美国中情局局长,特朗普:她会来但现在不合适

合赞历史
2026-01-21 16:27:56
淮阳人民中学“食堂承包商举报校领导2年拿走300余万现金”?官方通报

淮阳人民中学“食堂承包商举报校领导2年拿走300余万现金”?官方通报

界面新闻
2026-01-21 10:11:25
浴血山河:乌军计划每月歼敌5万人,俄占领区强征引发兵变

浴血山河:乌军计划每月歼敌5万人,俄占领区强征引发兵变

史政先锋
2026-01-21 21:05:49
国家卫健委重磅会议!2026年医务人员固定薪酬、绩效工资大变化

国家卫健委重磅会议!2026年医务人员固定薪酬、绩效工资大变化

医客
2026-01-21 12:11:56
日本历史性一幕发生,60年来第二次,高市早苗:不排除辞任首相

日本历史性一幕发生,60年来第二次,高市早苗:不排除辞任首相

近史博览
2026-01-21 11:03:05
女子违停竖中指被撞社死!司机霸气发声,警方出手,这下麻烦大了

女子违停竖中指被撞社死!司机霸气发声,警方出手,这下麻烦大了

阿纂看事
2026-01-21 15:40:00
女子拍摄姑姑偷玉米被姑父棒杀!姑姑哀求出谅解书,女儿绝不原谅

女子拍摄姑姑偷玉米被姑父棒杀!姑姑哀求出谅解书,女儿绝不原谅

叶公子
2026-01-21 18:50:53
日本对中国最大的帮助是什么?

日本对中国最大的帮助是什么?

多村来信
2026-01-21 11:26:09
外媒评2026最丑新车:两款中国车上榜!

外媒评2026最丑新车:两款中国车上榜!

电动知家
2026-01-20 13:39:05
非洲杯夺冠!总统宣布:球员12万美元+1500平米土地 全国放假

非洲杯夺冠!总统宣布:球员12万美元+1500平米土地 全国放假

叶青足球世界
2026-01-21 20:17:50
32岁程序员周末晕倒后猝死,抢救期间曾被拉入工作群,工伤申请已被受理

32岁程序员周末晕倒后猝死,抢救期间曾被拉入工作群,工伤申请已被受理

红星新闻
2026-01-21 18:53:16
2026-01-22 03:44:49
科技行者 incentive-icons
科技行者
科技正在如何变革商业世界
6961文章数 546关注度
往期回顾 全部

科技要闻

给机器人做仿真训练 这家创企年营收破亿

头条要闻

特朗普称“美国拥有无人知晓的武器” 克宫回应

头条要闻

特朗普称“美国拥有无人知晓的武器” 克宫回应

体育要闻

只会防守反击?不好意思,我们要踢决赛了

娱乐要闻

首位捐款的明星 苗圃现身嫣然医院捐款

财经要闻

丹麦打响第一枪 欧洲用资本保卫格陵兰岛

汽车要闻

2026款上汽大众朗逸正式上市 售价12.09万起

态度原创

旅游
艺术
教育
时尚
本地

旅游要闻

天宫灯会明日启幕

艺术要闻

你绝对想不到,他的油画美得如此惊人!

教育要闻

来上课了——非谓语动词的难点:独立主格现象第1段

缔造仙女梦的人,去了天堂继续缝制星光✨

本地新闻

云游辽宁|漫步千年小城晨昏,“康”复好心情

无障碍浏览 进入关怀版