Meta FAIR团队DARLING：AI实现优质多样化回答|算法|数学|meta|darling

分享至

这项由Meta FAIR、卡内基梅隆大学和约翰霍普金斯大学的研究团队于2025年9月发表的研究，带来了一个令人兴奋的突破。论文题为《Jointly Reinforcing Diversity and Quality in Language Model Generations》，有兴趣深入了解的读者可以通过https://github.com/facebookresearch/darling访问相关代码和资料。这项研究解决了一个让很多人头疼的问题：为什么现在的AI聊天机器人总是给出那么相似、千篇一律的回答？

想想你在使用ChatGPT或其他AI助手时的经历。当你问同一个问题多次，或者让它生成创意内容时，是不是经常收到几乎一模一样的回答？这就像去餐厅点菜，无论你点什么，厨师总是端上同一道菜。这种现象在AI领域被称为"多样性崩塌"，而Meta的研究团队提出了一个名为darling（Diversity-Aware Reinforcement Learning）的解决方案，就像给AI装上了一个"创意开关"，让它既能保持回答质量，又能提供丰富多样的内容。

这项研究的核心创新在于它不再让AI在质量和多样性之间做选择，而是让两者携手并进。研究团队发现，当AI经过传统训练后，虽然回答的准确性提高了，但创造力却大大下降了。这就像一个学生为了考试而死记硬背标准答案，虽然能拿高分，但失去了独立思考的能力。

一、AI回答为何变得千篇一律

要理解这个问题，我们需要先了解AI是如何学习的。目前主流的AI训练方法叫做强化学习，就像训练一只宠物狗一样。当狗狗做对了事情，我们给它零食奖励；当它做错了，我们不给奖励。AI也是这样，当它给出好答案时，系统会给它"奖励"；答案不好时，就没有奖励。

然而，问题出现了。在这个训练过程中，AI逐渐发现了一个"捷径"：与其冒险尝试新颖的回答方式（可能会失败），不如总是选择那些安全、保险的答案模式。这就像学生考试时总是选择最保险的模板答案一样，虽然能拿到不错的分数，但所有人的答案都变得大同小异。

研究团队通过大量实验发现，传统的强化学习会让AI的输出分布变得过于"尖锐"。用一个简单的比喻来说明：如果把AI可能的所有回答想象成一座山，那么训练前这座山比较平缓，AI会在不同的地方给出答案；但训练后，这座山变成了一个尖尖的山峰，AI只会在山顶附近给出极其相似的答案。

更糟糕的是，这些相似的回答往往连开头都一模一样。研究团队发现，经过传统训练的AI模型经常会生成几乎完全相同的文本前缀，就像所有学生的作文都以"在一个阳光明媚的早晨"开头一样。这种现象在需要创意的任务中特别明显，比如写故事、头脑风暴或者解决复杂问题时。

二、DARLING如何平衡质量与创意

面对这个难题，Meta的研究团队开发了DARLING系统，这个名字本身就很有趣——它代表"多样性感知强化学习"，同时"darling"在英语中意为"亲爱的"，暗示这是一个贴心的解决方案。

DARLING的工作原理就像一个智能的评分系统。传统的AI训练只看重答案的质量，就像只根据考试成绩给学生排名。而DARLING则采用了更全面的评价标准：它不仅要看答案好不好，还要看答案是否有新意、是否与其他答案不同。

具体来说，DARLING包含三个关键步骤。首先，当AI针对同一个问题生成多个回答时，系统会把这些回答进行分组。这个分组过程就像把相似的东西放在一起：内容差不多的回答会被归为一类，而那些独特、新颖的回答则会被单独分类。

接下来，系统会使用一个特殊的"多样性分类器"来判断回答之间的语义差异。这个分类器不仅仅看表面的用词不同，而是深入理解回答的真正含义。比如，"天空是蓝色的"和"苍穹呈现出蔚蓝色彩"虽然用词完全不同，但表达的是同一个意思，所以会被归为一类。而"天空是蓝色的"和"海洋反射天空的颜色"虽然都涉及蓝色，但表达了不同的观点，会被分为不同类别。

最后，也是最关键的一步，DARLING会将质量奖励和多样性奖励相乘，而不是简单相加。这种方法的巧妙之处在于，只有那些既高质量又有独特性的回答才能获得最高的总分。这就像在比赛中，选手不仅要技术过硬，还要有自己的风格和创新，才能获得最高评分。

三、革命性的语义理解能力

DARLING最令人印象深刻的创新之一是它对语义相似性的深度理解。传统的多样性评估方法往往只看表面文字的不同，就像只看作文是否使用了不同的词汇，而忽略了内容的实际差异。

为了解决这个问题，研究团队训练了一个专门的"语义等价分类器"。这个分类器就像一个经验丰富的老师，能够透过表面的文字差异，理解回答的真正内涵。例如，当AI被要求推荐一家购买皮钱包的商店时，传统方法可能会认为"亚马逊"、"Amazon"和"amazon.com"是三个不同的答案，因为它们的拼写不同。但DARLING的分类器明白这三个实际上说的是同一家商店，所以会将它们归为一类。

更有趣的是，即使是同一个推荐，如果给出的理由不同，DARLING也会认为它们是有意义的不同答案。比如，推荐Bellroy钱包时，一个回答强调其"高质量皮革和设计感"，另一个回答重点说明其"轻薄便携和卡片收纳功能"，虽然都推荐同一品牌，但DARLING会认为这两个回答为用户提供了不同角度的有用信息，因此会给予不同的多样性评分。

这种细致入微的理解能力让DARLING能够真正区分什么是有价值的多样性，什么只是表面的文字游戏。研究团队为此专门开发了两套分类器：一套用于日常对话和创意写作等开放性任务，另一套专门用于数学问题等有标准答案的任务。

四、在创意写作中的惊人表现

当研究团队将DARLING应用到创意写作任务时，结果令人惊喜。他们使用了多个标准化的评估基准，包括AlpacaEval 2.0、ArenaHard和EQ-Bench等，这些就像创意写作的"标准化考试"。

在一个典型的测试中，系统被要求"写一个关于有超能力的程序员的故事"。传统训练的AI模型生成的四个故事几乎完全相同，都是关于一个程序员突然发现自己能够无需查看代码就能调试程序的故事。这就像四个学生交了内容几乎一模一样的作文。

相比之下，使用DARLING训练的AI模型展现出了令人惊叹的创意多样性。第一个故事讲述了Lena发现自己能够不用看代码就能调试程序；第二个故事中的Eli发现他的代码能够自我调试；第三个故事的主角Nira发现她写在纸上的代码能够影响现实世界；第四个故事则完全不同，讲的是Jared被蟒蛇咬了之后能够理解蛇类的语言。

这四个故事不仅在情节上完全不同，还展现了对"程序员超能力"这一主题的多种创意解读。更重要的是，每个故事都保持了高质量的叙事结构和逻辑连贯性。

在专业的创意写作评估中，DARLING训练的模型在"有趣和原创性"以及"避免陈词滥调"这两个关键指标上获得了最高分，分别达到88.7%和88.3%的胜率。这意味着在大多数对比测试中，评审员都认为DARLING的输出更加有趣、更有原创性，同时能够避免使用老套的表达方式。

五、数学问题求解的新突破

DARLING的威力不仅体现在创意写作上，在需要精确答案的数学问题中也表现出色。这一点尤其令人惊讶，因为数学问题通常被认为只有固定的正确答案，很难体现多样性的价值。

研究团队在四个高难度的数学竞赛基准上测试了DARLING：AIME25、OlympiadBench、HMMT 2025和Brumo 2025。这些都是国际级数学竞赛的题目，难度可想而知。

测试结果显示，DARLING不仅提高了AI找到正确答案的概率（pass@1指标），还大大增加了解题方法的多样性（pass@k指标）。这就像一个学生不仅能够正确解答难题，还能够用多种不同的方法来解决同一个问题。

具体来说，在4B参数的模型上，DARLING将平均正确率提升了3.51%，同时将多样性指标提升了7.62%。在更大的14B参数模型上，正确率提升了1.90%，多样性提升了惊人的10.16%。

这种改进的意义在于，当AI能够用多种方法解决同一个问题时，它对知识的理解更加深入，也更不容易在遇到变形题目时"卡壳"。这就像一个武术高手掌握了多种招式，在实战中能够根据不同情况灵活应对。

六、技术创新的深层机制

DARLING成功的秘密在于它对传统强化学习算法的巧妙改造。传统方法使用的是GRPO（Group Relative Policy Optimization）算法，这个算法就像一个简单粗暴的教练，只会说"这个答案好"或"这个答案不好"。

DARLING则像一个更智慧的导师，它会说"这个答案不仅好，而且很有创意，值得大力表扬"。从技术角度来说，DARLING将质量奖励和多样性奖励相乘，而不是相加。这种乘法操作确保了只有那些同时具备高质量和高多样性的答案才能获得最高奖励。

更重要的是，DARLING引入了一个动态的奖励调整机制。当系统发现某类回答出现得太频繁时，会自动降低类似回答的奖励；而对于那些独特且高质量的回答，则会给予额外的鼓励。这就像一个好的老师会鼓励学生独立思考，而不是简单地背诵标准答案。

研究团队还发现，DARLING的这种机制能够促进更好的"探索"。在机器学习中，探索指的是尝试新方法、新角度的能力。传统训练往往会让AI过早地停止探索，满足于找到的第一个好答案。而DARLING鼓励AI持续探索，寻找更多可能性。

七、广泛适用的评估体系

为了全面验证DARLING的效果，研究团队设计了一套综合性的评估体系。这套体系就像一个全方位的体检，不仅要看AI的"身体健康"（回答质量），还要检查它的"创造力"（回答多样性）。

在非验证性任务方面，研究团队使用了五个不同的评估基准。AlpacaEval 2.0包含805个日常对话提示，主要测试AI的日常交流能力；ArenaHard包含750个困难提示，一半是数学编程题，一半是创意写作题；EQ-Bench专门评估创意写作能力，包含32个具有挑战性的创意提示；NoveltyBench则专门评估回答的新颖性和多样性。

在验证性任务（即有标准正确答案的任务）方面，研究团队选择了四个国际数学竞赛的题库，包括国际数学奥林匹克竞赛的题目。这些题目的难度极高，即使是数学专业的研究生也可能需要很长时间才能解答。

评估结果显示，DARLING在所有基准上都表现出色。特别值得注意的是，DARLING在提高多样性的同时并没有牺牲质量，反而在多数情况下质量也有所提升。这打破了人们普遍认为的"质量与多样性必须权衡"的固有观念。

八、实际应用的广阔前景

DARLING的成功为AI应用开辟了新的可能性。在教育领域，AI家教可以用不同的方式解释同一个概念，帮助不同学习风格的学生更好地理解知识。比如，在解释"重力"概念时，AI可以分别用物理公式、日常生活例子和形象比喻等多种方式，让每个学生都能找到最适合自己的理解方式。

在创意产业中，DARLING训练的AI能够成为真正的"创意合作伙伴"。广告策划师可以让AI生成多种完全不同的创意方案，而不是只能从相似的方案中挑选；作家可以获得真正多样化的情节建议，而不是千篇一律的套路化内容。

在商业咨询和问题解决领域，DARLING的多样性优势更是显而易见。当面临复杂商业问题时，AI能够从多个角度提供解决思路，就像一个由不同专业背景专家组成的智囊团。每个建议都有其独特的视角和价值，为决策者提供更全面的信息。

科学研究领域也将从中受益。DARLING训练的AI可以帮助研究人员进行更广泛的假设生成和实验设计。当研究遇到瓶颈时，AI能够提出多种不同的研究方向和方法，避免研究思路的固化。

九、克服技术挑战的智慧

在开发DARLING的过程中，研究团队遇到了许多技术挑战，他们的解决方案展现了深厚的工程智慧。

首先是如何准确测量语义多样性的问题。表面的文字差异很容易计算，但要理解回答的真正含义差异却非常困难。研究团队的解决方案是训练专门的分类器，这些分类器经过大量人工标注数据的训练，能够像人类一样理解不同回答之间的语义关系。

其次是如何平衡质量和多样性奖励的问题。简单的加法操作会导致AI为了获得多样性奖励而牺牲质量，或者为了保证质量而放弃创新。研究团队发现，乘法操作能够完美解决这个问题，因为只有当两个因子都比较大时，乘积才会很大。

第三个挑战是如何处理不同领域的特殊性。日常对话的多样性标准与数学问题的多样性标准完全不同。研究团队为此开发了两套不同的评估系统，确保每个领域都能得到合适的评价。

最后是计算效率的问题。实时评估语义多样性需要大量计算资源，如果处理不当可能会大大拖慢训练速度。研究团队通过优化算法和并行处理技术，成功将额外的计算开销控制在可接受范围内。

十、未来发展的无限可能

DARLING的成功只是开始，它为AI发展开辟了一条全新的道路。研究团队已经在探索将这种思想扩展到其他AI能力的可能性。

在多模态AI方面，DARLING的思想可以应用到图像生成、视频制作等领域。想象一下，当你要求AI生成"一只猫咪"的图片时，它不会给你十张几乎一模一样的猫咪图片，而是生成十张风格迥异、各有特色的猫咪图片——有的是卡通风格，有的是写实风格，有的是抽象艺术风格。

在对话系统方面，DARLING可以让聊天机器人具备真正的个性和风格多样性。不同的对话轮次中，AI可以展现不同的回应风格，让对话更加生动有趣，避免机械化的感觉。

在代码生成领域，DARLING训练的AI可以为同一个编程问题提供多种不同的解决方案，每种方案都有其独特的优势和适用场景。这对程序员来说将是巨大的帮助，因为他们可以从中选择最适合具体情况的方案。

更长远来看，DARLING代表了AI发展的一个重要方向：从追求单一最优解转向探索多元化的优质解。这种思想变化可能会深刻影响AI的发展轨迹，让未来的AI系统更加灵活、创新和有趣。

研究团队也坦诚地指出了当前的一些限制。DARLING的多样性评估仍然依赖于训练数据的质量，如果训练数据本身缺乏多样性，系统的表现也会受到影响。此外，在某些需要极高精确度的专业领域，如何平衡准确性和多样性仍需要进一步研究。

不过，这些挑战并不能掩盖DARLING的重要意义。它首次在大规模实际应用中证明了质量和多样性可以同时提升，为AI的未来发展指明了新方向。随着技术的不断完善和应用的深入拓展，DARLING有望成为下一代AI系统的标准配置。

说到底，DARLING解决的不仅仅是一个技术问题，更是一个关于创造力和多样性价值的根本性问题。在这个越来越标准化、同质化的世界里，DARLING为我们展示了AI如何成为促进创新和多样性的积极力量，而不是加剧单调和雷同。这或许正是我们在AI时代最需要的突破：让技术不仅更聪明，还要更有创意、更有趣味、更加丰富多彩。

Q&A

Q1：DARLING是什么？它与传统AI训练方法有什么不同？

A：DARLING是Meta FAIR团队开发的一种新型AI训练方法，全称为"多样性感知强化学习"。与传统方法只关注回答质量不同，DARLING同时重视质量和多样性，通过特殊的奖励机制让AI既能给出正确答案，又能保持回答的丰富多样性，避免千篇一律的回复。

Q2：DARLING如何判断AI回答是否具有多样性？

A：DARLING使用了专门训练的"语义分类器"来判断回答之间的真正差异。这个系统不只看表面文字不同，而是理解回答的实际含义。比如"天空是蓝色的"和"苍穹呈现蔚蓝色彩"会被认为是相同的，而"推荐商店A因为价格便宜"和"推荐商店A因为质量好"会被认为是不同的有价值回答。

Q3：DARLING训练的AI在实际应用中表现如何？

A：测试结果非常优秀。在创意写作任务中，DARLING在"有趣和原创性"指标上达到88.7%胜率；在数学问题求解中，不仅正确率提升了3.51%，解题方法的多样性更是提升了7.62%。最重要的是，DARLING同时提升了质量和多样性，打破了两者必须权衡的传统观念。

特别声明：以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布，本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.