网易首页 > 网易号 > 正文 申请入驻

可协助 AI 改善纠错能力,谷歌推出 BIG-Bench Mistake 数据集

0
分享至

IT之家 1 月 15 日消息,谷歌研究院日前使用自家 BIG-Bench 基准测试建立了一项“BIG-Bench Mistake”数据集,并利用相关数据集对市面上流行的语言模型“出错概率”及“纠错能力”进行了一系列评估研究。

谷歌研究人员表示,由于过去没有能够评估大语言模型“出错概率”及“自我纠错能力”的数据集,因此他们创建了一项名为“BIG-Bench Mistake”的专用基准数据集用于评估测试。

据悉,研究人员首先使用 PaLM 语言模型在自家 BIG-Bench 基准测试任务中运行了5项任务,之后将生成的“思维链(Chain-of-Thought)”轨迹修改加入“逻辑错误”部分,之后重新丢给模型判断思维链轨迹中哪些地方存在错误。

为了提升数据集准确程度,谷歌研究人员反复进行上述过程,最终形成了一项内含“255 项逻辑错误”的“BIG-Bench Mistake”专用基准数据集。

研究人员提到,由于“BIG-Bench Mistake”数据集中的逻辑错误较为“简单明确”,因此可以作为一个良好的测试标准,可协助语言模型先从简单的逻辑错误开始练习,逐步提升辨识错误的能力。

研究人员利用该数据集对市面上模型进行测试,发现虽然绝大多数语言模型可以识别在推理过程中出现的逻辑错误并进行自我修正,但这个过程“并不够理想”,通常需要人工干预来纠正模型输出的内容。

▲ 图源 谷歌研究院新闻稿

IT之家从报告中发现,谷歌声称“目前最先进的大语言模型”自我纠错能力也相对有限,在相关测试结果中成绩发挥最好的模型,也仅仅找出了 52.9% 的逻辑错误。

谷歌研究人员同时声称,这一 BIG-Bench Mistake 数据集有利于改善模型自我纠错能力,经过相关测试任务微调后的模型,“即便是小型模型表现也通常比零样本提示的大模型更好”。

据此,谷歌认为在模型纠错方面,可以使用专有小型模型“监督”大型模型,相对于让大语言模型学会“纠正自我错误”,部署专用于监督大模型的小型专用模型有利于改善效率、降低相关AI 部署成本,并更便于微调。

特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相关推荐
热点推荐
孙宇晨九亿美元灰飞烟灭,地表最强也难逃被收割的命运!

孙宇晨九亿美元灰飞烟灭,地表最强也难逃被收割的命运!

大秦共和国
2026-04-23 13:03:21
定了!5月1日起,医生收“红包回扣”不再是违规,直接算犯罪

定了!5月1日起,医生收“红包回扣”不再是违规,直接算犯罪

生活魔术专家
2026-04-24 16:41:31
被挤爆!佛山首家山姆来了!顺德店开业直击!购物车都堆成山?!

被挤爆!佛山首家山姆来了!顺德店开业直击!购物车都堆成山?!

乐居好房
2026-04-24 14:47:33
震惊!徐向前揭露西安事变背后的惊天秘密!

震惊!徐向前揭露西安事变背后的惊天秘密!

鉴史录
2026-04-23 00:15:03
中日关系冰封 5 个月的死局,被日本用一招谁都没料到的棋

中日关系冰封 5 个月的死局,被日本用一招谁都没料到的棋

果妈聊娱乐
2026-04-24 07:27:25
限制特朗普战争权力议案,第五次被否决

限制特朗普战争权力议案,第五次被否决

南方都市报
2026-04-23 21:32:58
媒体人:四川女篮主力外援坎贝奇大概率缺席WCBA总决赛G5

媒体人:四川女篮主力外援坎贝奇大概率缺席WCBA总决赛G5

懂球帝
2026-04-24 11:01:14
不再是120/80,“新血压标准”已公布,别再自己吓自己!

不再是120/80,“新血压标准”已公布,别再自己吓自己!

芹姐说生活
2026-04-14 23:27:03
3艘俄军舰被炸沉!局势触及核红线,美方:俄罗斯或动用核武器!

3艘俄军舰被炸沉!局势触及核红线,美方:俄罗斯或动用核武器!

健身狂人
2026-04-23 15:46:53
27%!16%!客场不敌猛龙,骑士揪出最大水货,他真不值1410万年薪

27%!16%!客场不敌猛龙,骑士揪出最大水货,他真不值1410万年薪

麦子的篮球故事
2026-04-24 16:24:17
卖国求财!稀土老总7项机密被境外买走,美国F-35差点被开卷考试

卖国求财!稀土老总7项机密被境外买走,美国F-35差点被开卷考试

菁菁子衿
2026-04-23 09:16:23
震惊!广州一互联网公司招5名文员,收到4000余份简历,HR慌了…

震惊!广州一互联网公司招5名文员,收到4000余份简历,HR慌了…

火山詩话
2026-04-23 16:46:58
14年前拿U型锁砸人的蔡洋:2022年出狱,找不到工作靠打零工为生

14年前拿U型锁砸人的蔡洋:2022年出狱,找不到工作靠打零工为生

天天热点见闻
2026-04-21 05:15:28
福建永安这个男保安,扇了不能扇的人…

福建永安这个男保安,扇了不能扇的人…

媒体人溪婉
2026-04-24 13:50:51
个人获赔1.2亿元!江苏这个案例创国内之最

个人获赔1.2亿元!江苏这个案例创国内之最

现代快报
2026-04-23 18:03:34
森林狼3将身价暴涨!戈贝尔强防守,道苏姆奇兵,迪温琴佐迎蜕变

森林狼3将身价暴涨!戈贝尔强防守,道苏姆奇兵,迪温琴佐迎蜕变

篮球资讯达人
2026-04-24 13:08:49
阿瑙托维奇:因疫情在中国隔离至抑郁,最终选择重返欧洲

阿瑙托维奇:因疫情在中国隔离至抑郁,最终选择重返欧洲

懂球帝
2026-04-23 08:32:10
任何一艘美航母上,都要带足大量女兵?她们在航母上有什么作用?

任何一艘美航母上,都要带足大量女兵?她们在航母上有什么作用?

探源历史
2026-04-06 04:10:07
2009年孔东梅偶遇蒋孝严,面对祖坟被挖的半世纪世仇,毛蒋后人仅用四字破局震惊全场!

2009年孔东梅偶遇蒋孝严,面对祖坟被挖的半世纪世仇,毛蒋后人仅用四字破局震惊全场!

寄史言志
2026-04-23 22:43:11
巅峰时的十三爷胤祥,权力到底有多大?雍正:他若反,我只能等死

巅峰时的十三爷胤祥,权力到底有多大?雍正:他若反,我只能等死

凡人侃史
2026-04-23 23:08:50
2026-04-24 18:19:00
IT之家
IT之家
爱科技,爱这里 - 前沿科技人气平台
340935文章数 607168关注度
往期回顾 全部

科技要闻

DeepSeek V4牵手华为,价格依然"屠夫级"

头条要闻

媒体:伊朗将恢复往返中国航班 霍尔木兹决战或收兵了

头条要闻

媒体:伊朗将恢复往返中国航班 霍尔木兹决战或收兵了

体育要闻

里程碑之战拖后腿,哈登18分8失误

娱乐要闻

停工16个月!赵露思证实接拍新剧

财经要闻

19家企业要"铝代铜",格力偏不

汽车要闻

零跑Lafa5 Ultra北京车展上市:11.88-12.48万

态度原创

手机
艺术
旅游
公开课
军事航空

手机要闻

Nothing OS 4.1发布,看看更新了啥?

艺术要闻

赵孟頫仅存的《金刚经》真迹,曾被台北故宫“秘藏”多年,800年来无人超越!

旅游要闻

郡王府化身茶香游园会,2026北京朝阳国际茶香文化周将启幕

公开课

李玫瑾:为什么性格比能力更重要?

军事要闻

美伊陷入互相封锁僵局

无障碍浏览 进入关怀版