大型语言模型(LLM)可以创建类似人类的文本并处理复杂的推理任务。近年来,得益于机器学习(ML)算法的进步、计算能力的提高以及用于训练的大量数据集的可用性,该技术发展迅速。然而,即使具有高级功能,LLM模型也容易出现事实和逻辑错误,特别是对于复杂的推理任务。这限制了LLM在准确性和可靠性至关重要的应用程序中的使用,例如医疗保健和金融。
包括牛津大学在内,近期发表的几项研究都强调了研究人员尝试了各种解决方案来解决准确性挑战,包括验证器和判别奖励模型等技术。
验证器通过评估LLM输出的正确性并过滤错误来确保事实一致性和逻辑连贯性。奖励模式通过提供对其产出质量的反馈来帮助训练LLM。
这些传统方法的一个关键限制是,它们被训练成根据预定义的标准区分正确和不正确的响应,而不会创建新的文本或精炼输出。这意味着这些方法没有利用LLM的基本设计目的——文本生成功能。
另一种广泛使用的方法是LLM-as-a-Judge方法,其中预训练的语言模型评估解决方案的准确性。虽然这种方法提供了灵活性,但与更专业的验证器相比,它往往不足,特别是在需要详细和微妙判断的推理任务中。
谷歌Deepmind的一个研究团队与多伦多大学、Mila(魁北克人工智能研究所)和加州大学洛杉矶分校合作,推出了一种新方法,可以提高LLM在推理任务中的准确性和可靠性。
这种新方法被称为生成式奖励模型(GenRM),它使用下一个令牌预测来训练验证器,以利用LLM的文本生成能力。研究人员在arXiv上发表的一篇论文中概述了这种新方法。
GenRM使模型能够根据提供的上下文预测序列中的下一个单词或标记。通过同时生成和评估潜在的解决方案,GenRM提供了一个统一的训练策略,增强了模型的生成和验证能力。
此方法还支持思维链(CoT)推理,即在得到答案之前提示模型生成一个思维过程。这使得核查过程更加全面和系统。
新模型在各种环境中进行了测试,包括算法解决问题的任务和学前数学。研究人员声称,与歧视性奖励模型和LLM-as-a-Judge的方法相比,新模型将解决问题的成功率从16%提高到64%。该模型的性能也优于GPT-4和Gemini 1.5 Pro。
GenRM模型的性能提升证明了它在解决标准验证器可能遗漏的错误方面的有效性,特别是在复杂的推理任务中。研究人员还观察到,GenRM在更大的数据集和增加的模型容量上可以很好地扩展,扩大了它对各种推理场景的适用性。
研究人员在他们的论文中写道:“GenRM是一种比歧视性奖励模型更高效的替代方案,并解锁了强大工具的使用,比如思维链推理和多数投票,以更好地验证。”“GenRM还将生成和验证统一为一个LLM,并证明这种统一对生成和验证都有利。”
GenRM方法通过结合生成和验证来推进GenAI,提高推理任务的准确性和可靠性。这种方法为精度至关重要的未来人工智能研究和应用提供了坚实的基础。研究人员计划将生成验证框架扩展到更广泛的应用中,包括回答开放式问题和编码。他们还计划研究如何将生成验证器集成到现有的LLM自我改进算法中。
特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.