网易首页 > 网易号 > 正文 申请入驻

莫斯科高等经济学院研究:大语言模型存在格式遵循缺陷

0
分享至


当我们让AI助手帮忙写一封邮件时,如果要求"请用正式语调,并在结尾加上双引号",你觉得它能做到吗?莫斯科高等经济学院的研究员尼古拉·斯克里普科发现了一个令人意外的现象:即使是最先进的大语言模型,在执行看似简单的格式指令时也经常"掉链子"。这项发表于2025年9月的研究论文(arXiv:2509.18420v1)首次系统性地揭示了AI在函数调用中遵循格式指令的能力缺陷,为我们理解AI的真实能力边界提供了全新视角。

在当今的AI时代,大语言模型不仅要能聊天,更要能像真正的助手一样调用各种工具和API来完成复杂任务。比如,当你让AI帮你订餐厅时,它需要调用预订系统的函数,并且必须严格按照系统要求的格式填写信息——用户名必须首字母大写,日期必须是ISO格式,电话号码不能包含标点符号等等。然而,斯克里普科的研究团队发现,现有的AI评测基准只关注"功能是否正确",却忽略了"格式是否准确"这个同样重要的维度。

为了填补这个评估空白,研究团队开发了一个名为IFEval-FC的全新测试基准。这个基准的巧妙之处在于,它将格式要求直接嵌入到函数参数的描述中,就像在菜谱中写明"盐必须是海盐,糖必须是细砂糖"一样具体明确。整个测试包含750个精心设计的案例,每个案例都包含一个带有特定格式要求的函数和一个对应的用户查询。

研究团队从现实世界中汲取灵感,设计了19种不同类型的格式指令,涵盖了从简单的大小写要求到复杂的标点符号规则等各个方面。这些指令被分为七大类别,就像把不同类型的游戏规则分门别类一样清晰有序。关键词类别要求文本中必须包含或排除特定词汇,就像写作文时必须用到某些关键词。长度约束类别控制文本的字数或句子数量,类似于推特的字符限制。语言类别限制使用特定的文字系统,比如要求只能用西里尔字母。格式类别要求特定的排版样式,比如JSON格式或Python列表格式。大小写类别控制字母的大小写形式。标点符号类别规定逗号等符号的使用频率。开头结尾类别要求文本以特定方式开始或结束。

在数据集的构建过程中,研究团队采用了双重策略。一部分函数来自现有的BFCL基准测试,这些都是真实世界中使用的函数模式,研究团队在其基础上添加了格式约束。另一部分函数则是团队使用GPT-5专门生成的,覆盖了80个不同的应用领域,从社交媒体管理到金融服务,确保测试的广泛性和实用性。每个函数都必须包含一个自由形式的参数,这个参数就像一张白纸,可以应用任何格式约束,模拟现实中AI需要生成符合特定要求文本的场景。

为了确保测试的真实性,研究团队为每个函数生成了五个不同的用户查询。这些查询都用自然对话的语言表达,包含调用函数所需的所有信息,但故意不提及格式要求——因为在现实中,用户通常不会知道系统内部的格式规范。这就像顾客在餐厅点菜时,不会知道厨房内部对食材处理的具体要求一样。

在测试过程中,研究团队遇到了一个有趣的现象。一些最新的AI模型,特别是Anthropic公司的Claude系列,在面对模糊情况时会主动寻求用户澄清,而不是直接执行函数调用。虽然这种谨慎态度在某些情况下是好事,但在这个测试中却会影响评估的公平性。因此,研究团队添加了一条系统指令,明确要求模型"无论如何都必须调用函数,绝不要求用户澄清任何事情"。

评估结果令人震惊。即使是目前最先进的商业模型,如OpenAI的GPT-5和Anthropic的Claude Opus 4.1,在这个看似简单的任务上也频频失误。没有任何一个模型的准确率超过80%,这意味着每五次格式要求中就有至少一次会被忽略或执行错误。这个发现特别令人意外,因为对人类来说,遵循这些格式指令是极其简单的任务。

具体来看各个模型的表现,我们可以发现一些有趣的模式。在处理JSON格式要求时,大多数模型都表现不佳,有些模型的成功率甚至为零。这就像让一个人按照特定模板填表,结果他们完全忽略了模板的存在。在关键词频率控制方面,较新的模型表现相对较好,但仍然存在明显的改进空间。最令人困惑的是,一些看似简单的任务,比如控制文本中逗号的数量,即使是最先进的模型也经常搞错。

研究还发现了模型之间的显著差异。OpenAI的最新模型在某些任务上表现出色,比如空格控制和标题格式,但在其他任务上却表现平平。Anthropic的模型在处理占位符计数和高亮部分计数时表现较好,但在字母频率控制方面却力不从心。俄罗斯的GigaChat模型虽然整体表现不如国际主流模型,但在某些特定任务上也有不错的表现。

这些发现对AI应用的实际部署具有重要意义。在现实世界中,AI助手经常需要与各种API和系统交互,而这些系统往往对输入格式有严格要求。一个看似微小的格式错误就可能导致整个工作流程的失败。比如,如果AI助手在帮用户预订机票时,没有按照航空公司系统要求的格式填写乘客姓名,整个预订就会失败。

更深层次地分析,这个问题反映了当前AI训练方法的局限性。大语言模型在训练时主要关注内容的正确性和流畅性,而对格式的精确控制重视不够。这就像培养一个作家时只关注文章内容是否精彩,却忽略了标点符号和段落格式的重要性。虽然内容是核心,但格式的准确性在很多应用场景中同样关键。

研究团队也指出了当前基准测试的一些限制。目前的测试只涉及单个函数调用,而在实际应用中,AI往往需要从多个可选函数中选择正确的一个,这会增加任务的复杂性。此外,当前的测试主要基于英语,未来可能需要扩展到多语言环境,以评估AI在不同语言背景下的格式控制能力。

从技术发展的角度来看,这项研究为AI能力评估开辟了一个新的维度。传统的AI评测主要关注"做对了什么",而这项研究关注的是"怎么做的"。这种评估方式更接近现实应用的需求,因为在实际部署中,AI不仅要给出正确答案,还要以正确的方式给出答案。

对于AI开发者来说,这项研究提供了明确的改进方向。未来的模型训练可能需要更多地关注格式控制能力,或许需要专门的训练数据和优化策略来提升这方面的表现。这就像在培训客服人员时,不仅要教他们如何解决问题,还要教他们如何按照公司规范的格式记录和报告问题。

对于普通用户来说,这项研究提醒我们在使用AI助手时要保持适当的期望。虽然AI在很多方面已经表现得非常出色,但在一些看似简单的细节处理上仍然可能出错。在关键应用中,人工检查和验证仍然是必要的。

展望未来,研究团队计划进一步扩展这个基准测试,增加更多类型的格式约束和更复杂的多函数选择场景。他们还考虑将测试扩展到多语言环境,以评估AI在不同文化和语言背景下的格式控制能力。这些扩展将为AI能力评估提供更全面的视角,推动整个领域向更实用、更可靠的方向发展。

说到底,这项研究揭示了一个看似矛盾的现象:AI可以写出精彩的诗歌,可以解决复杂的数学问题,但却可能在"请用双引号包围这个词"这样的简单要求上犯错。这提醒我们,AI的能力发展并不是均匀的,在某些看似基础的任务上仍有很大的改进空间。对于整个AI行业来说,这项研究不仅指出了当前的不足,更重要的是为未来的发展指明了方向。只有当AI能够在各个维度上都达到可靠的表现,它才能真正成为我们日常生活和工作中值得信赖的助手。

Q&A

Q1:IFEval-FC基准测试是什么?它和其他AI测试有什么不同?
A:IFEval-FC是专门评估大语言模型在函数调用中遵循格式指令能力的测试基准。与其他只关注功能正确性的测试不同,它专门检查AI是否能按照要求的格式输出结果,比如是否能正确使用大写字母、特定标点符号或JSON格式等。

Q2:为什么大语言模型在格式控制方面表现不好?
A:研究发现这主要是因为当前AI训练时更关注内容的正确性和流畅性,而对格式的精确控制重视不够。就像培养作家时只关注文章内容是否精彩,却忽略了标点符号和段落格式的重要性一样。

Q3:这项研究对普通用户使用AI有什么启示?
A:这提醒我们在使用AI助手时要保持适当期望,特别是在需要严格格式要求的任务中。虽然AI在很多方面表现出色,但在一些看似简单的细节处理上仍可能出错,关键应用中人工检查验证仍然必要。

特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相关推荐
热点推荐
苹果3款新品来袭:4月1日,全球首发!

苹果3款新品来袭:4月1日,全球首发!

科技堡垒
2026-03-24 10:41:55
浙江男老师意外发现女学生长相酷似亡妻,鉴定后,结果让他当场愣住

浙江男老师意外发现女学生长相酷似亡妻,鉴定后,结果让他当场愣住

红豆讲堂
2024-09-13 09:35:43
港圈传奇落幕,79岁郑少秋生日当天宣布退休

港圈传奇落幕,79岁郑少秋生日当天宣布退休

大象新闻
2026-03-25 20:09:04
四川3名干部职务明确,涉厅级干部

四川3名干部职务明确,涉厅级干部

微甘孜
2026-03-26 16:26:53
伊拉克民兵无人机出击!炸了美军的雷达,又击中黑鹰直升机

伊拉克民兵无人机出击!炸了美军的雷达,又击中黑鹰直升机

战风
2026-03-25 11:44:25
湖人结束客场之旅两喜一忧,詹姆斯开启季后赛模式,实力榜进前五

湖人结束客场之旅两喜一忧,詹姆斯开启季后赛模式,实力榜进前五

谢说篮球
2026-03-26 16:45:05
张北华:中共甘肃省委原常委、省监察委员会原书记

张北华:中共甘肃省委原常委、省监察委员会原书记

王姐懒人家常菜
2026-03-27 00:14:55
因祸得福!烧129年的地下火被灭,新疆凭空多了个“金饭碗”

因祸得福!烧129年的地下火被灭,新疆凭空多了个“金饭碗”

刘蕳爱下厨
2026-03-24 17:29:01
吴国桢回忆宋氏姐妹:宋霭龄动下小指头,就能将宋美龄弄得团团转

吴国桢回忆宋氏姐妹:宋霭龄动下小指头,就能将宋美龄弄得团团转

浩渺青史
2026-03-26 19:37:41
这曾经是多少男人心中女神,她竟然这么苍老,真是岁月不饶人呀

这曾经是多少男人心中女神,她竟然这么苍老,真是岁月不饶人呀

东方不败然多多
2026-03-27 00:11:10
连乌度卡都对他放弃了!火箭锋线新援的表现看起来真是太糟糕了?

连乌度卡都对他放弃了!火箭锋线新援的表现看起来真是太糟糕了?

稻谷与小麦
2026-03-27 00:15:06
拒挂国旗、订单全给日韩,被停止合作封锁航线的长荣,今咎由自取

拒挂国旗、订单全给日韩,被停止合作封锁航线的长荣,今咎由自取

近史谈
2026-01-21 20:33:15
白发“师妃暄”,为何变成“金刚芭比”

白发“师妃暄”,为何变成“金刚芭比”

凹凹滴
2026-03-26 12:52:16
美军继续调兵,伊朗已在哈尔克岛布雷备战!鸽派将军们坚持打下去

美军继续调兵,伊朗已在哈尔克岛布雷备战!鸽派将军们坚持打下去

鹰眼Defence
2026-03-26 16:06:38
丧夫仅5个月,49岁翁帆突传“喜讯”高调露面,状态好到出人意料

丧夫仅5个月,49岁翁帆突传“喜讯”高调露面,状态好到出人意料

冷紫葉
2026-03-24 19:12:36
财务自由后的感觉是怎样?网友讲述实际体验 感叹只有羡慕的份

财务自由后的感觉是怎样?网友讲述实际体验 感叹只有羡慕的份

侃神评故事
2026-03-24 18:00:10
黄凯堕落:境外渗透的冰山一角

黄凯堕落:境外渗透的冰山一角

烽火瞭望者
2026-03-26 06:21:44
詹姆斯:布朗尼绝对配得上立足NBA 我们家的人做事从来不敷衍

詹姆斯:布朗尼绝对配得上立足NBA 我们家的人做事从来不敷衍

罗说NBA
2026-03-26 22:15:56
张雪峰生前推荐的6所高校,性价比极高,记得默默收藏!

张雪峰生前推荐的6所高校,性价比极高,记得默默收藏!

教育导向分享
2026-03-25 22:32:02
震惊!张雪峰助理万霞竟是公司“001号员工”陪创业9年成最强搭档

震惊!张雪峰助理万霞竟是公司“001号员工”陪创业9年成最强搭档

乡野小珥
2026-03-26 21:28:25
2026-03-27 02:08:49
科技行者 incentive-icons
科技行者
科技正在如何变革商业世界
7765文章数 556关注度
往期回顾 全部

科技要闻

美团发布外卖大战后成绩单:亏损超200亿

头条要闻

特朗普:伊朗允许10艘油轮通行霍尔木兹海峡

头条要闻

特朗普:伊朗允许10艘油轮通行霍尔木兹海峡

体育要闻

申京努力了,然而杜兰特啊

娱乐要闻

刘晓庆妹妹发声!称姐姐受身边人挑拨

财经要闻

油价"驯服"特朗普?一到100美元就TACO

汽车要闻

一汽奥迪A6L e-tron开启预售 CLTC最大续航815km

态度原创

健康
教育
数码
旅游
房产

转头就晕的耳石症,能开车上班吗?

教育要闻

精准研判,提质增效丨我校召开2026届毕业生就业工作研判会

数码要闻

英特尔发Q1.26版Arc Pro专业显卡驱动,支持B70 / B65显卡

旅游要闻

河南开封万岁山武侠城,游客买300元门票:给妻子拍照被保安阻拦

房产要闻

突发,三亚又有大批征迁补偿方案出炉!

无障碍浏览 进入关怀版