Cohere Labs团队:AI是如何学会7种语言的精准表达|翻译|日语|数学|英语|labs|cohere

分享至

这项由Cohere Labs公司的Ammar Khairi领导的研究团队在2025年6月发表的论文《When Life Gives You Samples: The Benefits of Scaling up Inference Compute for Multilingual LLMs》，为我们揭示了人工智能如何在不重新训练的情况下，通过巧妙的推理策略显著提升多语言表达能力。有兴趣深入了解的读者可以通过arXiv:2506.20544v1访问完整论文。

研究团队包括来自Cohere Labs的Ammar Khairi、Daniel D'souza、Julia Kreutzer和Sara Hooker，以及来自Cohere公司的Ye Shen。这个多元化的团队专注于解决一个让普通人都能感同身受的问题：当你用不同语言与AI对话时，为什么有时候AI的回答质量会有很大差异？

目前的AI语言模型在处理英语时表现优异，但在处理其他语言时往往力不从心。这就像一个学霸学生，英语考试总是满分，但遇到中文、日语或法语考试时就显得捉襟见肘。更让人困扰的是，传统的解决方案通常需要重新训练整个AI模型，这个过程既耗时又昂贵，就像要让学生提高外语成绩，就必须重新上一遍所有的课程。

研究团队提出了一个革命性的解决方案：不需要重新训练模型，而是通过改进AI的"思考过程"来提升表现。他们的方法可以比作让学生在考试时有更多时间思考，并且能够从多个角度审视问题，最终选出最佳答案。这种方法被称为"推理时计算扩展"，简单来说就是让AI在回答问题时能够生成多个候选答案，然后从中挑选最优的一个。

一、破解多语言AI的"思考密码"

研究团队首先深入分析了AI在不同语言环境下的表现差异。他们发现，当AI使用英语回答问题时，就像在自己的母语环境中自如表达，但切换到其他语言时，AI的表现就会出现明显波动。这种现象可以用一个生动的比喻来理解：假设你是一个精通多种乐器的音乐家，虽然你会弹钢琴、小提琴和吉他，但钢琴是你最擅长的，所以在钢琴演奏中你能发挥最佳水平，而在其他乐器上可能会偶尔出现瑕疵。

为了解决这个问题，研究团队采用了"多重采样"的策略。具体来说，他们让AI针对同一个问题生成五个不同的答案，然后通过精心设计的选择机制挑选出最佳回答。这个过程就像一个经验丰富的厨师在准备重要晚宴时，会先制作几道不同口味的试菜，然后品尝比较，最终选出最令人满意的那道菜呈现给客人。

研究团队测试了7种不同的语言：英语、中文、法语、德语、日语、俄语和西班牙语。他们发现，传统的"提高温度"采样方法在非英语语言中存在更高的风险。这里的"温度"是一个技术术语，可以理解为AI生成答案时的"创造性程度"。温度越高，AI的回答越具有创造性，但同时也越不稳定。这就像烹饪时调节火候：适当的高温能让食物更香更有层次，但火候过高就可能把菜烧焦。研究团队发现，对于非英语语言，AI在"高温"状态下更容易产生质量较差的回答。

为了应对这个挑战，研究团队开发了"对冲采样"策略。这种方法的核心思想是在生成的多个候选答案中，故意包含一个最保险的答案——即AI在最稳定状态下生成的回答。这样做的好处是，即使其他几个"创造性"答案质量不佳，至少还有一个可靠的备选方案。这就像登山者在挑战高难度路线时，总是会在背包里准备一条安全绳，确保在关键时刻有退路可选。

实验结果显示，这种对冲采样策略在多语言环境下表现出色。以中文为例，使用传统方法时，AI的回答质量提升有限，但采用对冲采样后，回答质量平均提升了8.2个百分点。更令人印象深刻的是，这种方法在所有测试语言中都展现出了稳定的改进效果，证明了其广泛的适用性。

二、精准选择：从五个答案中找到最佳回应

有了多个候选答案后，如何从中选出最优的那个就成了关键问题。研究团队比较了多种选择策略，最终开发出两种特别适合多语言环境的新方法。

第一种方法被称为"清单式一站选择"（CHOPS）。这种方法的工作原理可以用质量检验员的工作来类比。当一个经验丰富的质量检验员面对多个产品样本时，他不会简单地随意挑选，而是会根据具体产品类型制定一份详细的检查清单，然后逐一对照清单评估每个样本，最终选出质量最优的那个。CHOPS方法让AI扮演这样一个质量检验员的角色：首先根据问题的具体类型生成一份评估清单，然后同时评估所有候选答案，最终在一次评估过程中直接选出最佳答案。

这种方法的优势在于效率高且结果可靠。传统的选择方法需要对候选答案进行两两比较，就像举办锦标赛，需要多轮对决才能决出冠军。而CHOPS方法则像是让专业评委直接给所有选手打分，一次性决出优胜者。实验数据显示，CHOPS方法在开放性问题上的表现尤其出色，平均能够将AI的回答质量提升11-12.8个百分点。

第二种方法被称为"跨语言最小贝叶斯风险"（X-MBR）。这种方法的创新之处在于利用了AI的多语言能力，通过跨语言验证来提高选择的准确性。具体来说，当AI需要用中文回答问题时，X-MBR方法会让AI同时生成一些英语回答作为参考，然后通过比较不同语言版本的回答来判断哪个中文答案最可靠。

这个过程可以用翻译验证的例子来理解：假设你正在学习法语，写了一篇法语作文，但不确定质量如何。一个聪明的做法是把这篇作文翻译成你熟悉的中文，看看意思是否通顺合理。如果中文版本读起来很流畅，那么原法语版本很可能也是高质量的。X-MBR方法运用的正是这种跨语言验证的智慧。

实验结果表明，X-MBR方法在语言差异较大的场景中表现尤其突出。例如，当处理日语问题时，通过英语参考答案的辅助验证，AI选择的日语回答质量显著提升。这种方法的另一个优势是能够利用AI在强势语言（如英语）上的优秀表现来帮助改善弱势语言的输出质量。

研究团队还测试了这两种方法在真实应用场景中的表现。他们让改进后的8B参数AI模型与谷歌的Gemini 2.0 Flash进行比较。Gemini 2.0 Flash是一个规模更大、性能更强的商业AI模型。令人惊喜的是，使用新方法的小型AI模型在多语言任务上的表现显著提升，平均胜率提高了6.8个百分点。这个结果特别有意义，因为它证明了通过巧妙的策略设计，较小的AI模型也能在特定任务上挑战大型商业模型。

三、实战验证：从理论到现实应用的完美转换

为了验证这些方法在实际应用中的效果，研究团队设计了三类不同的测试场景，每一类都代表了AI在日常使用中会遇到的典型情况。

第一类测试专注于开放性问题回答，使用了m-ArenaHard数据集。这类问题就像日常生活中我们向AI咨询的各种复杂问题，比如"如何规划一次完美的欧洲旅行"或"怎样在工作中保持创造力"。这些问题没有标准答案，需要AI展现出深度思考和创造性表达能力。在这类测试中，研究团队发现，改进后的AI在处理非英语问题时表现出了显著提升。以Aya Expanse 8B模型为例，使用新方法后，其多语言回答的胜率提升了17.3个百分点，这意味着AI给出令人满意答案的概率大幅增加。

第二类测试关注数学推理能力，使用了MGSM数据集。这类测试可以比作给AI出数学应用题，但题目是用不同语言描述的。例如，同样是计算"小明买苹果"的问题，会分别用中文、日语、法语等不同语言表述。这类测试特别能反映AI的逻辑推理能力是否会受到语言切换的影响。实验结果显示，新方法能够显著提高AI在非英语数学问题上的准确率，平均提升了7.9个百分点。这个改进特别重要，因为数学推理是许多实际应用的基础，从简单的计算到复杂的数据分析都会用到这种能力。

第三类测试评估了机器翻译质量，使用了WMT24++数据集。这个测试环节就像让AI担任专业翻译，将英语内容准确翻译成其他语言。虽然这看起来是一个相对简单的任务，但实际上对AI的语言理解和表达能力要求很高。好的翻译不仅要准确传达原文意思，还要符合目标语言的表达习惯。实验显示，新方法在翻译质量上也有显著提升，XComet评分平均提高了0.72分。虽然这个数字看起来不大，但在翻译质量评估中，这已经是一个相当显著的改进。

特别值得一提的是，研究团队还进行了"自我改进"实验。他们使用Command A（一个拥有1110亿参数的大型AI模型）来同时承担生成答案和选择最佳答案的双重角色。这就像让一个学生既要写作文，又要当自己的老师评改作文。通常这种做法会被认为不够客观，但实验结果令人惊喜：即使在这种"自己评判自己"的情况下，新方法仍然能够带来平均9.0个百分点的性能提升。这个结果证明了方法的稳健性，也说明即使是性能已经很强的大型AI模型，仍然可以通过更好的推理策略获得进一步改进。

研究团队还特别关注了方法的计算效率。虽然生成多个候选答案会增加计算成本，但相比重新训练整个AI模型，这种代价是完全可以接受的。CHOPS方法特别注重效率优化，能够在一次计算过程中完成所有候选答案的评估，大大减少了计算时间。这使得新方法不仅在实验室环境中有效，在实际部署时也具有很强的可行性。

四、突破性成果：重新定义AI多语言能力的边界

这项研究最令人印象深刻的成果是证明了一个看似简单但实际上深刻的观点：AI的智能提升不一定需要通过增加模型大小或重新训练来实现，而可以通过更聪明的使用方式来获得。这就像发现了一个高效的学习方法，不需要延长学习时间，只需要改变学习策略，就能显著提高学习效果。

从数据角度来看，研究结果令人振奋。在最具挑战性的开放性问题测试中，8B参数的Aya Expanse模型使用新方法后，其表现足以挑战规模更大的商业AI模型。具体来说，当与谷歌Gemini 2.0 Flash进行比较时，改进后的小型模型在多语言任务上的胜率大幅提升。这个结果具有重要的实际意义：它表明普通用户和小公司也有可能使用相对较小的AI模型获得接近大型商业模型的性能，大大降低了AI应用的门槛。

研究团队还发现了一个有趣的现象：不同语言对于"创造性"参数的敏感性存在显著差异。英语作为AI模型的强势语言，在各种参数设置下都能保持相对稳定的性能。但对于其他语言，特别是日语和俄语，AI的表现会随着参数变化出现较大波动。这个发现为未来的AI优化工作提供了重要指导：针对不同语言需要采用不同的策略，而不能简单地使用统一的方法。

更进一步，研究团队提出了"多语言AI柠檬水配方"这一形象化的方法总结。这个配方包含两个关键步骤：首先使用对冲采样策略生成多个候选答案，确保在追求创造性的同时保持稳定性；然后使用CHOPS或X-MBR方法从候选答案中选择最优结果。这个配方的美妙之处在于其普适性：无论是处理哪种语言或哪类问题，都可以应用相同的基本原理，只需要根据具体情况进行微调。

研究还揭示了跨语言学习的巨大潜力。X-MBR方法的成功表明，AI可以通过不同语言之间的相互验证来提高整体性能。这就像一个精通多种语言的人，可以通过在不同语言之间切换思考来更好地理解复杂概念。这种跨语言的"智慧借鉴"为未来的AI发展开辟了新的方向。

从技术发展的角度来看，这项研究代表了AI领域的一个重要转向：从单纯追求模型规模的扩大，转向追求使用策略的优化。这种转向具有深远的意义，它意味着AI技术的进步不再完全依赖于计算资源的增加，而可以通过算法创新来实现。这为资源有限的研究团队和应用开发者提供了新的可能性。

此外，研究成果对于促进语言多样性的保护和发展也具有积极意义。通过提高AI在非英语语言上的表现，这项研究有助于缩小不同语言之间的数字鸿沟，让更多语言的使用者能够享受到高质量的AI服务。这对于维护语言文化的多样性，促进全球范围内的平等信息获取具有重要价值。

说到底，这项研究为我们展示了AI技术发展的一个新方向：不是简单地让AI"变得更大"，而是让AI"变得更聪明"。通过巧妙的策略设计，我们可以让现有的AI模型发挥出超越其原始设计的能力。这种思路不仅在技术上具有创新性，在资源利用上也更加高效和可持续。

对于普通用户而言，这项研究意味着未来我们将能够享受到更好的多语言AI服务。无论你使用哪种语言与AI交流，都能获得更准确、更有用的回答。这种改进将让AI真正成为一个"多语言助手"，而不是一个"主要说英语的助手"。

研究团队在论文最后展望了这项技术的未来发展前景。他们认为，随着方法的进一步完善和应用场景的扩展，这种推理时计算扩展的方法将在更多领域发挥重要作用。从自动客服到教育辅导，从内容创作到科学研究，改进后的多语言AI将为各行各业带来新的可能性。

最重要的是，这项研究证明了一个乐观的观点：技术进步不一定需要昂贵的代价。通过聪明的方法设计，我们可以用更少的资源获得更好的结果。这种理念不仅适用于AI技术的发展，也为其他领域的创新提供了有益的启示。

Q&A

Q1：什么是"推理时计算扩展"？它是如何工作的？ A：推理时计算扩展就像让AI在回答问题时多想几遍，然后选出最好的答案。具体来说，AI会针对同一个问题生成多个不同的回答（比如5个），然后通过特殊的评估方法从中选出质量最高的那个。这样做不需要重新训练AI，只是改变了它的"思考方式"。

Q2：这种方法会不会让AI回答问题的速度变慢很多？ A：虽然需要生成多个答案会增加一些计算时间，但研究团队特别开发了高效的选择方法（如CHOPS），能够快速完成评估。而且相比重新训练整个AI模型需要的巨大时间和资源成本，这种方法的代价是完全可以接受的，在实际应用中是可行的。

Q3：普通用户能否使用这种改进方法？它对哪些应用场景最有帮助？ A：这项技术主要面向AI开发者和服务提供商，普通用户会通过使用改进后的AI产品间接受益。这种方法对需要高质量多语言交流的场景特别有效，比如跨国客服、多语言内容创作、国际教育辅导等。未来我们使用AI助手时，无论用哪种语言提问，都能获得更准确有用的回答。

特别声明：以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布，本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.