网易首页 > 网易号 > 正文 申请入驻

通过自我验证模型彻底改变人工智能准确性

0
分享至

大型语言模型(LLM)可以创建类似人类的文本并处理复杂的推理任务。近年来,得益于机器学习(ML)算法的进步、计算能力的提高以及用于训练的大量数据集的可用性,该技术发展迅速。然而,即使具有高级功能,LLM模型也容易出现事实和逻辑错误,特别是对于复杂的推理任务。这限制了LLM在准确性和可靠性至关重要的应用程序中的使用,例如医疗保健和金融。

包括牛津大学在内,近期发表的几项研究都强调了研究人员尝试了各种解决方案来解决准确性挑战,包括验证器和判别奖励模型等技术。

验证器通过评估LLM输出的正确性并过滤错误来确保事实一致性和逻辑连贯性。奖励模式通过提供对其产出质量的反馈来帮助训练LLM。

这些传统方法的一个关键限制是,它们被训练成根据预定义的标准区分正确和不正确的响应,而不会创建新的文本或精炼输出。这意味着这些方法没有利用LLM的基本设计目的——文本生成功能。

另一种广泛使用的方法是LLM-as-a-Judge方法,其中预训练的语言模型评估解决方案的准确性。虽然这种方法提供了灵活性,但与更专业的验证器相比,它往往不足,特别是在需要详细和微妙判断的推理任务中。

谷歌Deepmind的一个研究团队与多伦多大学、Mila(魁北克人工智能研究所)和加州大学洛杉矶分校合作,推出了一种新方法,可以提高LLM在推理任务中的准确性和可靠性。

这种新方法被称为生成式奖励模型(GenRM),它使用下一个令牌预测来训练验证器,以利用LLM的文本生成能力。研究人员在arXiv上发表的一篇论文中概述了这种新方法。

GenRM使模型能够根据提供的上下文预测序列中的下一个单词或标记。通过同时生成和评估潜在的解决方案,GenRM提供了一个统一的训练策略,增强了模型的生成和验证能力。

此方法还支持思维链(CoT)推理,即在得到答案之前提示模型生成一个思维过程。这使得核查过程更加全面和系统。

新模型在各种环境中进行了测试,包括算法解决问题的任务和学前数学。研究人员声称,与歧视性奖励模型和LLM-as-a-Judge的方法相比,新模型将解决问题的成功率从16%提高到64%。该模型的性能也优于GPT-4和Gemini 1.5 Pro。

GenRM模型的性能提升证明了它在解决标准验证器可能遗漏的错误方面的有效性,特别是在复杂的推理任务中。研究人员还观察到,GenRM在更大的数据集和增加的模型容量上可以很好地扩展,扩大了它对各种推理场景的适用性。

研究人员在他们的论文中写道:“GenRM是一种比歧视性奖励模型更高效的替代方案,并解锁了强大工具的使用,比如思维链推理和多数投票,以更好地验证。”“GenRM还将生成和验证统一为一个LLM,并证明这种统一对生成和验证都有利。”

GenRM方法通过结合生成和验证来推进GenAI,提高推理任务的准确性和可靠性。这种方法为精度至关重要的未来人工智能研究和应用提供了坚实的基础。研究人员计划将生成验证框架扩展到更广泛的应用中,包括回答开放式问题和编码。他们还计划研究如何将生成验证器集成到现有的LLM自我改进算法中。

特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相关推荐
热点推荐
《给阿嫲的情书》因回避时代背景而使其人性光辉变得不再真实....

《给阿嫲的情书》因回避时代背景而使其人性光辉变得不再真实....

细雨中的呼喊
2026-05-30 23:39:48
家家有本难念的经!林俊杰跟哥嫂开撕,疑似被吃绝户仅是冰山一角

家家有本难念的经!林俊杰跟哥嫂开撕,疑似被吃绝户仅是冰山一角

好贤观史记
2026-05-29 10:55:39
雪饼猴首发5分钟,长春差点把大连掀了

雪饼猴首发5分钟,长春差点把大连掀了

吉刻新闻
2026-05-31 23:12:54
中国人正集体拒接陌生电话

中国人正集体拒接陌生电话

难得君
2026-05-28 09:06:16
有色金属:大家系好安全带了,不出意外的话,下周或将再次重演历史

有色金属:大家系好安全带了,不出意外的话,下周或将再次重演历史

爱看剧的阿峰
2026-05-31 22:05:42
崩溃!山东女子怒斥公婆未经同意入住婚后新房,此前买房支持90万

崩溃!山东女子怒斥公婆未经同意入住婚后新房,此前买房支持90万

火山詩话
2026-06-01 07:48:42
穆里尼奥不要的人,阿隆索当成宝!切尔西强挖 8700 万伯纳乌真核

穆里尼奥不要的人,阿隆索当成宝!切尔西强挖 8700 万伯纳乌真核

澜归序
2026-06-01 06:43:38
中国男篮拒绝输球!全力击败塞尔维亚球队,崔永熙回归首秀

中国男篮拒绝输球!全力击败塞尔维亚球队,崔永熙回归首秀

体坛瞎白话
2026-06-01 07:26:44
克宫发布俄罗斯、白俄罗斯、吉尔吉斯斯坦和哈萨克斯坦领导人关于亚美尼亚问题的联合声明

克宫发布俄罗斯、白俄罗斯、吉尔吉斯斯坦和哈萨克斯坦领导人关于亚美尼亚问题的联合声明

俄罗斯卫星通讯社
2026-05-31 16:07:21
93万买的战国青铜剑,竟然用热熔胶粘过?浙江紧急调查:没有调包

93万买的战国青铜剑,竟然用热熔胶粘过?浙江紧急调查:没有调包

听心堂
2026-05-31 12:11:27
打虎!王益华被查

打虎!王益华被查

新京报
2026-05-30 20:29:17
3-0夺赛点!上海男篮打崩广厦,朱芳雨一针见血的点评全说中

3-0夺赛点!上海男篮打崩广厦,朱芳雨一针见血的点评全说中

去山野间追风
2026-06-01 01:35:19
马布里:中国球迷很喜欢要签名合影;看见外国人像看见外星人

马布里:中国球迷很喜欢要签名合影;看见外国人像看见外星人

懂球帝
2026-05-31 16:00:15
我年过六十岁才恍然大悟:为什么大多数女人都对六十岁以上的男人敬而远之,甚至会主动回避,两个原因

我年过六十岁才恍然大悟:为什么大多数女人都对六十岁以上的男人敬而远之,甚至会主动回避,两个原因

心理观察局
2026-05-04 08:51:10
5千万挥霍一空后,沦落超市打工,不敢见人!马蓉现状太落魄

5千万挥霍一空后,沦落超市打工,不敢见人!马蓉现状太落魄

明天后天大后天
2026-05-13 11:56:55
坏消息!国际乒联官宣最新排名:国乒世界第1丢了三

坏消息!国际乒联官宣最新排名:国乒世界第1丢了三

好乒乓
2026-05-31 23:11:46
失欧冠后遭英超4队嘲讽!阿森纳双星回怼:冠军到手,笑看柠檬精

失欧冠后遭英超4队嘲讽!阿森纳双星回怼:冠军到手,笑看柠檬精

我爱英超
2026-06-01 07:09:45
他汀药有7种,只有一种不影响血糖,早知道早收益!

他汀药有7种,只有一种不影响血糖,早知道早收益!

药师方健
2026-05-31 22:45:44
前男友搂新欢笑我送外卖,我掏出门禁卡进豪宅,他悔疯了

前男友搂新欢笑我送外卖,我掏出门禁卡进豪宅,他悔疯了

深夜列车故事集
2026-05-25 22:39:38
马刺,总决赛:血与火的过程,童话般的结局

马刺,总决赛:血与火的过程,童话般的结局

张佳玮写字的地方
2026-05-31 11:52:06
2026-06-01 08:19:00
Ai时代前沿
Ai时代前沿
人工智能新闻动态及应用案例。
1754文章数 512关注度
往期回顾 全部

科技要闻

戴尔诺基亚又回来了!AI重估老牌科技公司

头条要闻

媒体:中国防长不去"香会" 主办方的意图落空了

头条要闻

媒体:中国防长不去"香会" 主办方的意图落空了

体育要闻

阿森纳用最悲壮的方式,成就了巴黎王朝

娱乐要闻

朱军退休,正义虽迟但到,女方受惩

财经要闻

网红驱蚊产品,标注化妆品竟含农药成分

汽车要闻

900V+3.2秒破百 领克10+&领克10上市16.99万元起

态度原创

健康
艺术
游戏
家居
公开课

尝试干细胞疗法如何避免踩坑?

艺术要闻

李讷刘思齐邵华童年照曝光!"红二代"狂草热榜,大草为何难写好?

超越十年二游皇帝,登顶手游氪金榜!胜利女神是怎么做到的?

家居要闻

云栖 舒展如流云

公开课

李玫瑾:为什么性格比能力更重要?

无障碍浏览 进入关怀版