网易首页 > 网易号 > 正文 申请入驻

人类评估已不是NLG的最佳标准,华盛顿大学提出新观点遭网友质疑

0
分享至

明敏 发自 凹非寺
量子位 报道 | 公众号 QbitAI

AI生成的文本好不好,最权威的评估者竟然不是人类自己?

最近,华盛顿大学和艾伦人工智能研究院的学者们在研究中发现:

未经过训练的人类评估文本时,往往过分关注生成文本像不像人话,而忽略了生成文本更重要的问题,即它的内容是否正确、合乎逻辑。

研究人员就给出了一个例子:

他们分别让未经训练的人类和机器来评价一段GPT-3生成的文字。

这段文字翻译过来为:

从前,有一个海盗。他是那种宁愿把时间花在驱赶在船周围游泳的鲨鱼上,也不愿驶向外国港口寻找战利品的海盗。他是个好海盗,高尚的海盗,诚实的海盗。他是个宁愿和妻儿呆在家里也不愿出海的海盗。

人类评估员认为这段文字除了有些啰嗦外,没什么大毛病。

这可能就是一个海盗想回家陪老婆孩子吧,AI可能没理解,但是这也没什么稀奇的。

机器评估也认为这段文字很啰嗦,不过它对文段的内容提出了质疑:

海盗会有老婆孩子?还不和他一起在船上生活?

对比两种判断,人类评估更看重这段话像不像人话,在检验过它的确非常流畅后,就会默认这段文本没什么大问题了。

而机器的判断角度则更加多维,会考虑到文字传达的意思是否正确。

很难分辨出GPT-3生成的文本

为了验证自己的观点,研究人员让未经训练的评估人员来区分人类写的文本和AI生成的文本。

他们选择了故事、新闻、菜谱三种不同的文体进行测试。

具体测试中,受试人员不仅要判断给出的文本是否人类创作的,还要填写相应的理由。

结果显示,在区分人类和GPT-2创作的文本时,被测试群体的正确率为57.9%

但是在区分GPT-3生成的文本上,正确率就下降到了49.9%

而二选一问题的随机概率就有50%……

显然,普通人已经很难识别出当下最先进的NLG模型所生成的文本。

为了更进一步了解受试人员是如何做出判断的,研究人员对150个回答进行了分析。

结果发现,受试人员在做出判断后,更加倾向于从文本的格式、风格、语法角度上给出理由。

150个回答中,基于文本形式的判断几乎是基于内容判断的2倍

但是,GPT-3在文本流畅度方面的表现其实已经非常出色,这或许也是为什么人类很难分辨GPT-3生成文本。

而且研究人员发现,受试人员给出判断的理由都不尽相同,这也表明人类评估文本没有一个明确的标准。

既然NLG模型训练后可以变强,那培训一下评估人员呢?

研究人员决定对一些受试人员进行了培训,提高他们评估文字的能力和速度。

他们准备了3种不同的培训:

第一种是给出明确的判断标准,让受试人员学习后来判断;

第二种是通过大量的实例训练,也就是题海战术;

第三种是通过不断对比来完成训练。

然而结果表明,这好像并没有什么用

三种培训后的判断正确率分别为52%、55%、53%,相较于未受训时的表现,没有显著提高。

不过从受试人员的回答中可以看到,更多人现在会多维度判断文本了,还是有进步的。

基于这样的实验结果,研究人员认为在评估最先进的NLG模型方面,人类可能真的不太靠谱了。

这实验不太靠谱

对于这样的结论,网友们提出了一些不同的看法:

判断文本质量其实是一件非常艰巨的任务,需要专家来进行评估。
或许是这项研究中的受试人员不太行?

有人就指出了问题所在:他们用的Amazon Mechanical Turk的评估员。

是受试人员不太行。

AMTurk作为一个众包平台,近年来实在是饱受诟病。

此前BBC报道称,由于招募到的志愿者所在的地区存在一些观念偏见,导致最后研究出的算法也存在偏见。

而且招募到的人员水平也常常参差不齐。

不过有人也表示:这些人可能也是最适合的,因为他们最接近普通大众水平,专家认为好的文字,普通人未必也这么认为。

这要取决于生成文本的目标人群是谁。
实验中的志愿者对乔伊斯(后现代文学作家)的欣赏程度肯定和英文系教授不同。
尽管顶级文学评论家将其描述为“20世纪实验文学的伟大纪念碑之一”和“英语中最美丽的散文诗之一”,但对于大多数普通读者而言,它非常晦涩难懂。

此外,也有人就对这项研究提出了改进建议:

我认为他们可以用更简单的NLG算法(基于规则,n-gram, rnn)进行更精细的分析,并对“非专家”评估者进行排名,而不是将他们作为一个群体来处理。

而关于NLG模型生成文本的评估问题,谷歌曾给出过一个方案。

2020年,他们提出了一个可量化评估NLG模型性能的指标——BLEURT

这是一个基于BERT的学习评价指标,在学习了几千个人类评估案例后,它可以对不同模型生成的文本进行打分。

其最大的优势就是,评估速度更快

谷歌研究人员认为这个指标有助于NLG模型的研究和开发,而且可以为开发人员提供更加多维的评判标准。

论文地址:
https://arxiv.org/pdf/2107.00061.pdf

参考链接:
[1]https://www.reddit.com/r/MachineLearning/comments/ok6c4k/r_human_evaluations_no_longer_the_gold_standard/
[2]https://arxiv.org/abs/2004.04696

特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相关推荐
热点推荐
不幸中的万幸!ST宁科生物这个位置能逃出来,真是祖坟冒青烟了

不幸中的万幸!ST宁科生物这个位置能逃出来,真是祖坟冒青烟了

股海风云大作手
2024-04-25 08:03:49
范曾携爱妻外出游玩!86岁打扮时髦被搀扶,徐萌皮草外套近9万

范曾携爱妻外出游玩!86岁打扮时髦被搀扶,徐萌皮草外套近9万

听栀子说
2024-04-24 21:27:43
武警部队经费属公共安全开支、不计入军费,军队干休所却使用军费

武警部队经费属公共安全开支、不计入军费,军队干休所却使用军费

小圣杂谈原创
2024-04-23 09:25:58
前中超江苏苏宁主帅,崔龙洙谈到了在中国执教经历,可谓句句在理

前中超江苏苏宁主帅,崔龙洙谈到了在中国执教经历,可谓句句在理

百里无心
2024-04-25 07:18:45
老外分享自己在中国的看病过程,评论区引发了大量老外的共鸣!

老外分享自己在中国的看病过程,评论区引发了大量老外的共鸣!

今日养生之道
2024-04-23 19:42:34
42岁凯特王妃难得露面,穿着黑色西装出席活动,面容憔悴略显老

42岁凯特王妃难得露面,穿着黑色西装出席活动,面容憔悴略显老

小seven的囧囧啊
2024-04-22 23:29:48
他是湖南“奢靡老虎”!住一晚宾馆花几万!饭局配年轻女秘书,企图办假证掩盖罪行!

他是湖南“奢靡老虎”!住一晚宾馆花几万!饭局配年轻女秘书,企图办假证掩盖罪行!

天闻地知
2024-04-25 09:21:42
1-3!朱婷12分丢掉冠军点,蔡斌提出新要求:澳门站之前回归

1-3!朱婷12分丢掉冠军点,蔡斌提出新要求:澳门站之前回归

天涯沦落人
2024-04-25 08:48:56
福建舰新视角,排水量肯定不止8万余吨

福建舰新视角,排水量肯定不止8万余吨

三叔的装备空间
2024-04-24 14:50:30
皇马1.8亿巨星恋爱!已同居网红模特,女方大5岁,身材颜值俱佳

皇马1.8亿巨星恋爱!已同居网红模特,女方大5岁,身材颜值俱佳

足球慢镜头
2024-04-25 08:51:02
浙江女子做“阴超”遇男医生,将手指伸入下体,事后:正规操作!

浙江女子做“阴超”遇男医生,将手指伸入下体,事后:正规操作!

荷兰豆爱健康
2024-04-25 08:00:09
不建议你吃三文鱼的原因,只有一个

不建议你吃三文鱼的原因,只有一个

丁香生活研究所
2024-04-18 12:09:41
央行出“新规定”,这4类存款不能再存了,有存款的人要这样处理

央行出“新规定”,这4类存款不能再存了,有存款的人要这样处理

庞明说财经
2024-04-24 16:48:01
上海,一女子将名下房产悉数变卖,拿到了近600万元后又悉数捐出

上海,一女子将名下房产悉数变卖,拿到了近600万元后又悉数捐出

娱乐洞察点点
2024-04-25 07:10:19
周星驰首部短剧《金猪玉叶》杀青:按电影拍,然后拆成24集

周星驰首部短剧《金猪玉叶》杀青:按电影拍,然后拆成24集

红星新闻
2024-04-25 10:49:21
特维斯被紧急送往医院

特维斯被紧急送往医院

星耀国际足坛
2024-04-25 01:25:03
世界上最难吃的菜:蒜苔,山东人在瑟瑟发抖

世界上最难吃的菜:蒜苔,山东人在瑟瑟发抖

花小猫的美食日常
2024-04-24 20:56:40
吴亦凡有没有后悔没有给都美竹索要的800万,如果最初给了800万是不是就不会发生后面的事?

吴亦凡有没有后悔没有给都美竹索要的800万,如果最初给了800万是不是就不会发生后面的事?

阿芒娱乐说
2024-04-24 07:55:26
“一箭双星”宣告失败,点火8分钟后偏离轨道,24.5亿打水漂!

“一箭双星”宣告失败,点火8分钟后偏离轨道,24.5亿打水漂!

星辰故事屋
2024-03-08 21:12:51
闹大了!东郊到家回应男子遭女技师色诱冲上热搜,评论区炸锅了

闹大了!东郊到家回应男子遭女技师色诱冲上热搜,评论区炸锅了

行者聊官
2024-04-24 23:24:28
2024-04-25 14:40:49
量子位
量子位
追踪人工智能动态
9317文章数 175241关注度
往期回顾 全部

科技要闻

雷军:希望小米SU7能成为苹果用户购车首选

头条要闻

男子被上门女技师触摸隐私部位要求"加钟" 平台回应

头条要闻

男子被上门女技师触摸隐私部位要求"加钟" 平台回应

体育要闻

当胜利变成意外,就不要再提未来……

娱乐要闻

心疼!伊能静曝儿子曾被狗仔追到洗手间

财经要闻

先涨价再降价,特斯拉“打脸”只用20天?

汽车要闻

这灯效我能看半小时 奥迪Q6L e-tron有备而来

态度原创

房产
游戏
手机
健康
公开课

房产要闻

涉及黄埔、番禺、增城!广州新一轮大规模征地启动

老外都不解《剑星》涂鸦歧视寓意 黑人称没感觉被冒犯

手机要闻

IDC:一季度中国折叠屏手机市场华为第一,荣耀、vivo 前三

这2种水果可降低高血压死亡风险

公开课

睡前进食会让你发胖吗?

无障碍浏览 进入关怀版