网易首页 > 网易号 > 正文 申请入驻

可协助 AI 改善纠错能力,谷歌推出 BIG-Bench Mistake 数据集

0
分享至

IT之家 1 月 15 日消息,谷歌研究院日前使用自家 BIG-Bench 基准测试建立了一项“BIG-Bench Mistake”数据集,并利用相关数据集对市面上流行的语言模型“出错概率”及“纠错能力”进行了一系列评估研究。


谷歌研究人员表示,由于过去没有能够评估大语言模型“出错概率”及“自我纠错能力”的数据集,因此他们创建了一项名为“BIG-Bench Mistake”的专用基准数据集用于评估测试。

据悉,研究人员首先使用 PaLM 语言模型在自家 BIG-Bench 基准测试任务中运行了5项任务,之后将生成的“思维链(Chain-of-Thought)”轨迹修改加入“逻辑错误”部分,之后重新丢给模型判断思维链轨迹中哪些地方存在错误。

为了提升数据集准确程度,谷歌研究人员反复进行上述过程,最终形成了一项内含“255 项逻辑错误”的“BIG-Bench Mistake”专用基准数据集。

研究人员提到,由于“BIG-Bench Mistake”数据集中的逻辑错误较为“简单明确”,因此可以作为一个良好的测试标准,可协助语言模型先从简单的逻辑错误开始练习,逐步提升辨识错误的能力。

研究人员利用该数据集对市面上模型进行测试,发现虽然绝大多数语言模型可以识别在推理过程中出现的逻辑错误并进行自我修正,但这个过程“并不够理想”,通常需要人工干预来纠正模型输出的内容。


▲ 图源 谷歌研究院新闻稿

IT之家从报告中发现,谷歌声称“目前最先进的大语言模型”自我纠错能力也相对有限,在相关测试结果中成绩发挥最好的模型,也仅仅找出了 52.9% 的逻辑错误。


谷歌研究人员同时声称,这一 BIG-Bench Mistake 数据集有利于改善模型自我纠错能力,经过相关测试任务微调后的模型,“即便是小型模型表现也通常比零样本提示的大模型更好”。

据此,谷歌认为在模型纠错方面,可以使用专有小型模型“监督”大型模型,相对于让大语言模型学会“纠正自我错误”,部署专用于监督大模型的小型专用模型有利于改善效率、降低相关AI 部署成本,并更便于微调。

特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相关推荐
热点推荐
“非夫妻”的男女开房,若只登记1人信息,被警察查房有啥后果?

“非夫妻”的男女开房,若只登记1人信息,被警察查房有啥后果?

105度的世界
2024-06-13 10:32:14
将成都27岁女子捅致身亡凶手身份曝光!事后被父母送医,邻居发声

将成都27岁女子捅致身亡凶手身份曝光!事后被父母送医,邻居发声

林大师热点
2024-06-12 15:09:24
文旅局局长被指“官谱太大” 调研时有人打伞? 本人回应

文旅局局长被指“官谱太大” 调研时有人打伞? 本人回应

蓬勃新闻
2024-06-13 09:36:31
率队出战亚少预选赛!08国少日本籍主帅上村健一简介

率队出战亚少预选赛!08国少日本籍主帅上村健一简介

直播吧
2024-06-13 15:39:02
当前社会风气败坏是谁造成的?我觉得是一切向钱看思想导致的!

当前社会风气败坏是谁造成的?我觉得是一切向钱看思想导致的!

王二哥老搞笑
2024-06-12 00:32:49
千万网红郭有才停播后,最新面貌呈现,穿衣打扮有讲究

千万网红郭有才停播后,最新面貌呈现,穿衣打扮有讲究

你我话娱乐
2024-06-12 12:20:11
普京还没踏上访朝飞机,金正恩率先发来贺电,中俄朝有件大事要干

普京还没踏上访朝飞机,金正恩率先发来贺电,中俄朝有件大事要干

说天说地说实事
2024-06-13 15:48:07
新能源轿车冲进商户家致1人受伤!成都交警展开调查

新能源轿车冲进商户家致1人受伤!成都交警展开调查

鲁中晨报
2024-06-13 18:11:04
岚图难借“东风”

岚图难借“东风”

蓝鲸财经
2024-06-12 18:16:39
极右翼将竭尽全力削弱这些群体的权利!

极右翼将竭尽全力削弱这些群体的权利!

新欧洲
2024-06-12 19:31:38
1951年,小战士送炮弹见军长眼熟,意外发现是他“牺牲”19年的父亲

1951年,小战士送炮弹见军长眼熟,意外发现是他“牺牲”19年的父亲

古今档案
2024-06-01 23:29:16
火速接到代言桑尼代言某品牌:中国球迷最爱!新加坡第一门神

火速接到代言桑尼代言某品牌:中国球迷最爱!新加坡第一门神

直播吧
2024-06-12 23:09:10
又赚到了!孟加拉四处炫耀中国给建的大桥:开通当天过路费破千万

又赚到了!孟加拉四处炫耀中国给建的大桥:开通当天过路费破千万

文雅笔墨
2024-06-12 21:49:22
“土猪拱白菜”学霸现状令人唏嘘:考上浙大,被骂3年,面相已经变了……

“土猪拱白菜”学霸现状令人唏嘘:考上浙大,被骂3年,面相已经变了……

窈窕妈妈
2024-06-12 19:40:46
688008,利润大增1000%触底反转,A股下一个紫金矿业!

688008,利润大增1000%触底反转,A股下一个紫金矿业!

飞鲸投研
2024-06-13 18:48:34
日军战俘吃不起饭,曾克林少将送去50头羊,换回了四个空军司令

日军战俘吃不起饭,曾克林少将送去50头羊,换回了四个空军司令

祥瑞
2024-06-12 17:45:32
瓜帅看走眼!曼城清洗25岁铁腰 花了6200万仅用一年

瓜帅看走眼!曼城清洗25岁铁腰 花了6200万仅用一年

球事百科吖
2024-06-13 01:35:39
中产家庭消费降级的也是厉害

中产家庭消费降级的也是厉害

悠闲葡萄
2024-06-13 11:10:15
强对流天气黄警:北京北部等地将有10级以上雷暴大风

强对流天气黄警:北京北部等地将有10级以上雷暴大风

新京报
2024-06-13 07:20:57
妻子:第一次见守田英正时,我感觉他完全不是我喜欢的类型

妻子:第一次见守田英正时,我感觉他完全不是我喜欢的类型

懂球帝
2024-06-13 11:25:21
2024-06-13 21:18:44
IT之家
IT之家
爱科技,爱这里 - 前沿科技人气平台
233104文章数 604981关注度
往期回顾 全部

科技要闻

小红书员工仅1/5工龄满2年 32岁就不让进了

头条要闻

俄核潜艇率队抵达"美国后院":没带核弹 带了3种导弹

头条要闻

俄核潜艇率队抵达"美国后院":没带核弹 带了3种导弹

体育要闻

乔丹最想单挑的男人走了

娱乐要闻

森林北报案,称和汪峰的感情遭受压力

财经要闻

私募大佬孙强:中国为什么缺少耐心资本

汽车要闻

升级8155芯片 新款卡罗拉锐放售12.98-18.48万

态度原创

手机
教育
旅游
数码
亲子

手机要闻

小米 Redmi K70 Ultra 手机参数曝光,搭载“光影猎人 800”主摄

教育要闻

山东各地中考考点多措并举防暑降温,确保考生顺利完成考试

旅游要闻

山西文旅厅厅长与董宇辉拉家常:中午回家吃了饭

数码要闻

宏碁传奇 Go AI 笔记本电脑开售,14/16 英寸 3999/4299 元

亲子要闻

当孕妈想知道孩子的性别 医生直接开启斗智斗勇

无障碍浏览 进入关怀版