网易首页 > 网易号 > 正文 申请入驻

处处是“垃圾”:人工智能太缺高质量数据了

0
分享至

全文共2611字,预计学习时长7分钟

图源:blazent

某种程度上讲,人工智能已经超越了我们过去最大胆的想象;但再看实际中,Siri甚至无法告诉用户今天天气如何。

问题在于什么呢?创建高质量的数据库来训练和测量我们的模型仍然是件无比困难的事情。我们本应能在一天内收集到20000个标签来训练Reddit分类器,但实际相反,我们等待了三个月并得到了一个满是垃圾邮件的训练集。

四年前,AlphaGo打败了世界围棋专家们,大型科技公司们对每一个能接触到的机器学习创业公司进行了人才收购,《纽约时报》宣称道“机器学习将对计算机技术进行彻底改造”。

DeepMind建造人工智能来玩《星际争霸2》,到2019年底,名为“AlphaStar”的人工智能程序达到了大师级成就。

好像不用几年,Alexa就将会占领我们的家园,而Netflix会比我们的朋友更好地提出电影建议。

在那之后发生了什么?

更快的GPU放弃了训练神经网络的消耗,并允许越来越大的模型得到训练。新型工具们使基础建设工作更加的简单。

能够学习运行更主观的任务的新型神经网络结构也得到了发展。比如说OpenAi的GPT-3模型,这是一个语言生产器,能够撰写博客文章且拿下黑客新闻网站的头条。

一个关于生产效率的GPT-3写的博文拿下了黑客新闻的头条。

那么改革发生在何处?

所以为什么人工智能还没占领世界?为何人们虽然能用GPT-3来生成博文,但是社交媒体公司很难将煽动性的内容从订阅源中剔除?为何有了超人类的星际争霸算法,但电商们仍在推荐我再买一个吐司机?为何模型们能够合成现实的图片(和电影)但却无法面目识别?

模型正在进步,而数据仍止步不前。模型们在数据集上受到训练,而这些数据集仍存在有错误,且和创作者真正想表达的鲜少相符。

现在的数据怎么了?来也垃圾,去也垃圾

在某些情况下,数据是在基于类如链接和用户协议的代理商上进行训练。

比如说,社交媒体推文不是为了提供用户最佳体验而得到训练;相反,它们只是对链接和协议充分利用,这是最简单的数据获取途径。

但是点赞量与数量无关,骇人听闻的阴谋论非常捉人眼球,但是你真的想在你的推文中看到他们吗?这样的错误匹配导致了许多意料之外的副作用,包括有点击诱饵的激增,政治上的虚假信息广泛传播,充满恶意的、煽动性的内容广泛存在。

在另一些时候,模型在这样的数据集上进行训练:由非母语使用者或由那些知道低质量的结果永远不会被检测到的工作者创立的数据集。以下面推文为例:

一个典型的标记器会识别到“bitches”,“fucking”和“shit”并将此推文标记为有害的,不管这些谩骂其实是基于一个正向的,向上的态度。在训练集中这样的情况出现过无数次。数据定义模型。如果数据是错误标记的垃圾,没有一位机器学习专家能够防止模型也同样无用无效。

我们需要怎样的进步?

数据集问题引起了一大堆问题。

当遇到运行不佳的模型时,工程师们花费数月的时间来修补产品特征和新的算法,未曾意识到问题存在于他们的数据当中。本应用来凝聚亲情和友情的算法,相反之下,带来了炽热的情绪和愤怒的评论。如何解决这些问题呢?

· 熟练且高质量的,能够理解你正尝试去解决的问题的标记器

虽然AI系统越来越复杂,我们需要先进巧妙的人类标记系统来教导和测量它们的性能。想想那些对世界有足够了解的模型,可以对误导的信息进行分类,或者那些可以增加时间而不是点击的算法。

这种复杂程度不会因为多用低技能工人而提高。为了让我们的机器了解仇恨言论,并识别算法的偏见,我们需要高质量的、它们自己也了解这些问题的标签力量。

· 给机器学习小组和识别器交流的空间

机器学习模型在不断变化着。今日被识别为垃圾邮件的信息明天可能不会如此,而我们永不可能对标记口令的每一个边边角角都有所掌握。

正如构建产品是用户和工程师之间反馈驱动的过程一样,创建数据集也应该如此。当数一张图片中的脸时,卡通人物算吗?当标记仇恨言论时,引号在哪里?标记器在浏览了成千上万的例子后发现了歧义和见解,为了最大化数据质量,我们需要双方进行沟通。

· 目标功能与人类价值观一致

模型常常是在数据集上训练的,而这些数据集仅仅是它们真实目标的近似值,从而导致了意想不到的分歧。

例如,在人工智能安全的辩论中,人们担心机器智能发展到威胁世界的程度。另一些人则反驳说,这是一个在遥远的未来才会出现的问题——然而,看看今天科技平台面临的最大问题,这不是已经发生了吗?

例如,Facebook的使命不是获得“赞”,而是将我们与朋友和家人联系起来。但是通过训练其模型来增加喜好和互动,他们学会了传播那些高度吸引人的内容,但也会带来伤害和误导。

如果Facebook能将人类价值观注入到其培训目标中会怎样?这并不是一个幻想:谷歌搜索已经在其实验过程中使用了人类评估,我们正在构建的人工智能系统也致力于这样做。

一个数据驱动的AI未来

从核心而言,机器学习是关于教导计算机按照我们所想的方式工作,而我们通过示以正例的方法来实现目标。所以为了构建高质量的模型,一个机器学习工程师需要掌握的最重要技能不应该是构建高质量的数据集,并确保他们与手头的问题相符吗?

最终,我们关心的是AI能否解决人类的需求,而不是它是否超过了人工基准。

如果你在处理内容调节,你的数据集是检测到了恶意言论,还是也捕捉到积极向上、振奋人心的谩骂?

如果你正在建设下一代的搜索和推荐系统,你的数据集是在设置模型的相关性和质量,——还是令人入迷的误导和引诱点击?

创建数据集不是学校里教的东西,对于那些花了数年时间研究算法的工程师来说,专注于arXiv中最花哨的模型是很容易的。但如果希望人工智能能够解决自己的现实需求,我们需要对定义模型的数据集进行深度思考,并赋予它们一定的人文色彩。

特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相关推荐
热点推荐
江苏35岁包工头顾培华,无法接受妻子身份,被妻子绑葡萄园活埋

江苏35岁包工头顾培华,无法接受妻子身份,被妻子绑葡萄园活埋

安妮Emotiong
2024-05-28 19:43:32
李盈莹说出实情,朱婷未主打事出有因,蔡斌罕见表情失控

李盈莹说出实情,朱婷未主打事出有因,蔡斌罕见表情失控

跑者排球视角
2024-06-03 00:31:58
奥尼尔:投3分真太TMD爽了 羡慕现在的中锋 我打球时教练根本不让

奥尼尔:投3分真太TMD爽了 羡慕现在的中锋 我打球时教练根本不让

直播吧
2024-06-03 16:09:12
找到了砍树人,已找不回“迎客松”,如何处罚愚昧无知者

找到了砍树人,已找不回“迎客松”,如何处罚愚昧无知者

谭浩俊
2024-06-03 07:55:02
结婚多年,在我面前一直性冷淡的老婆,没想到竟有如此疯狂的一面

结婚多年,在我面前一直性冷淡的老婆,没想到竟有如此疯狂的一面

封河日丽
2023-05-23 12:44:05
混战失控!编剧赵冬苓力挺王阳遭舆论围攻,本人逐条怼王一博粉丝

混战失控!编剧赵冬苓力挺王阳遭舆论围攻,本人逐条怼王一博粉丝

萌神木木
2024-06-02 15:57:18
北京女孩怒砸父母房子,有钱也过苦日子,戳穿多少精神穷人的伪装

北京女孩怒砸父母房子,有钱也过苦日子,戳穿多少精神穷人的伪装

子芫伴你成长
2024-06-02 21:07:15
菲律宾军舰人员枪指中国海警!我方防长:中方的克制也是有限度的

菲律宾军舰人员枪指中国海警!我方防长:中方的克制也是有限度的

云姐闲聊
2024-06-03 00:06:13
定了!天津又将新增一家山姆超市!选址在这里!

定了!天津又将新增一家山姆超市!选址在这里!

天津族
2024-06-03 07:32:42
前妻追尾前夫车,被索要5万私了费!前夫:赔不起钱就赔点感情吧

前妻追尾前夫车,被索要5万私了费!前夫:赔不起钱就赔点感情吧

佑宛故事汇
2024-06-02 17:00:25
庆余年原著最凶险的范闲战豆豆剑庐之战,战豆豆:朕要在上面!

庆余年原著最凶险的范闲战豆豆剑庐之战,战豆豆:朕要在上面!

神娱电影
2024-06-03 12:39:28
朝鲜副国级高官叛逃脱北,曝光金家秘闻:酒池肉林、80万买轩尼诗

朝鲜副国级高官叛逃脱北,曝光金家秘闻:酒池肉林、80万买轩尼诗

猫眼观史
2024-03-25 14:31:14
《我要成名》背后的辛酸:霍思燕的演艺圈之路

《我要成名》背后的辛酸:霍思燕的演艺圈之路

谈史大讲师
2024-06-03 09:53:28
将船拖走!中方下达最后通牒!西部战区司令被撤职,菲方彻底慌了

将船拖走!中方下达最后通牒!西部战区司令被撤职,菲方彻底慌了

慎独赢
2024-05-24 13:05:54
家长:恢复八十年代的教材刻不容缓,现在的教材简直乱来!

家长:恢复八十年代的教材刻不容缓,现在的教材简直乱来!

李老师讲最真教育
2024-06-02 16:18:10
浙江台州两名游客横渡溪流落水失联超18小时,应急部门:仍在搜救

浙江台州两名游客横渡溪流落水失联超18小时,应急部门:仍在搜救

极目新闻
2024-06-03 09:48:20
陈妍希41岁生日双喜临门,对镜比耶俏皮可爱,疑陈晓送鲜花超幸福

陈妍希41岁生日双喜临门,对镜比耶俏皮可爱,疑陈晓送鲜花超幸福

深剖娱乐圈
2024-06-02 21:00:38
490分农村女孩连线张雪峰,他的一席话,多少农村学生“破防了”

490分农村女孩连线张雪峰,他的一席话,多少农村学生“破防了”

跳妈谈教育
2024-06-03 11:13:44
马斯克有一个“疯狂”的计划:将全车电线从5000米,降至100米

马斯克有一个“疯狂”的计划:将全车电线从5000米,降至100米

娱乐圈的笔娱君
2024-06-03 12:18:07
坎耶29岁娇妻只穿一件连体衣现身意大利,当地人看得目不转睛

坎耶29岁娇妻只穿一件连体衣现身意大利,当地人看得目不转睛

译言
2024-06-03 15:41:59
2024-06-03 18:38:44
读芯术
读芯术
专注年轻人的AI学习平台
2097文章数 5641关注度
往期回顾 全部

科技要闻

特斯拉回应单踏板模式可能被禁止:暂无影响

头条要闻

美国放宽限制后 乌克兰首次使用"海马斯"袭击俄本土

头条要闻

美国放宽限制后 乌克兰首次使用"海马斯"袭击俄本土

体育要闻

万人空巷!皇马举行欧冠夺冠庆典

娱乐要闻

混战升级!编剧赵冬苓力挺王阳遭围攻

财经要闻

接班100天,宗馥莉急了

汽车要闻

搭载华为HiCAR 传祺M6 MAX售14.58万元

态度原创

教育
家居
亲子
房产
军事航空

教育要闻

志愿填报内参:湖南大学2024年高考录取分数线预测

家居要闻

静谧极简 让空间回归本质

亲子要闻

宝妈发现新大陆 迫不及待让萌娃试试 网友:你搁这包饭团呢?

房产要闻

12000+起!海口40+楼盘,最新价格曝光!

军事要闻

泽连斯基称俄武器来自中国 外交部回应

无障碍浏览 进入关怀版