网易首页 > 网易号 > 正文 申请入驻

繁荣背后存隐忧 美AI巨头被控秘密“侵吞”数据

0
分享至

【今日视点】

◎本报记者 张佳欣

人工智能(AI)迅速发展离不开对模型的训练。然而,高质量数据短缺以及部分领域封闭式的数据生态似乎成为AI发展的掣肘。

据多家外媒报道,OpenAI、谷歌和Meta等公司正寻求在线信息来训练最新的AI系统。但他们无视既定政策,蓄意改变规则,并试图规避版权法。

收集数据“走捷径”

英国《泰晤士报》近日刊文指出,科技巨头一直在“走捷径”为其AI系统收集训练数据。OpenAI开发了一款名为Whisper的语音识别工具,可将YouTube视频中的音频文件转录为纯文本文档,从而创建一个口语对话数据源,帮助训练其下一代基于文本的GPT-4算法。

美国《商业内幕》网报道称,YouTube在其官网明令禁止“独立”于其之外的应用程序使用其视频内容。而OpenAI的数据并非意外收集的。

实际上,OpenAI员工知道这样做会涉足法律灰色地带。OpenAI总裁格雷格·布罗克曼甚至亲自参与了所使用视频的收集。但OpenAI依然认为这是合理的,最终获得了超过100万小时的转录视频。

最大的谜团在于,OpenAI如何访问足够多的YouTube视频来完成这项工作。

当OpenAI首席技术官米拉·穆拉蒂被问及该公司是否使用YouTube视频来训练Sora时,她表示并不确定。当再次被问及训练数据的来源时,她表示不会透露细节。

《纽约时报》称,与OpenAI一样,谷歌也转录了YouTube视频,为其AI模型收集文本,这可能侵犯了视频创作者的版权。去年,谷歌还更改了其服务条款。此番动机意图明显,即允许AI对来自谷歌文档中公开可用文档的数据以及上传到谷歌地图的餐馆评论等其他材料进行训练。

面临“数据瓶颈”

对于科技公司来说,庞大的数据“肥料”是生成式AI的核心养分,也是大模型发展的必争之地。唯有足够的数据才能指导技术即时生成与人类创作相似的文本、图像、声音和视频,实现系统创新。

但随着AI发展,现有互联网信息量的不足、高质量文本数据的匮乏以及科技巨头优质数据的垄断,都可能导致AI“养分不足”。即便谷歌和Meta拥有数十亿用户,每天都会产生搜索查询和社交媒体帖子,但这些数据在很大程度上受到隐私法和自身政策的限制,无法让AI利用这些内容。

这些科技公司的处境似乎十分窘迫。据人工智能研究机构Epoch称,科技公司最快将于2026年耗尽互联网上的高质量数据。这些公司使用数据的速度超过了产生数据的速度。

Meta同样也遇到了训练数据可用性限制。该公司打算采取一些措施,例如支付图书许可费用,甚至直接收购一家大型出版商。Meta也曾作出以隐私为中心的变革,因此它使用消费者数据的方式显然也受到了限制。

在人类数据告急的情况下,不少公司甚至试图用AI“喂”AI。包括微软、OpenAI在内的公司正在把大模型生成的结果,也就是所谓的“合成数据”,“喂”给参数更小的模型。但有研究认为,合成数据最终将让AI“自食其果”。

因版权被多方状告

《纽约时报》去年起诉OpenAI和微软,称其在未经许可的情况下使用受版权保护的新闻文章来训练AI聊天机器人。OpenAI和微软回应称,这属于“合理使用”,或者说是版权法允许的,因为他们为了不同的目的而改造了这些作品。

去年,超过1万个贸易团体、作者、公司和其他人士向美国版权局提交了有关AI模型使用创意作品的意见。

生成式AI的迅速兴起引发了一场全球性的高质量数据竞赛。然而,在这个新领域中,关于什么是合法的、道德的,没有明确规定。

《商业内幕》网称,目前,谷歌、OpenAI和其他科技公司正在辩解,认为将受版权保护的内容用于AI模型训练是合法的,但监管机构及法院尚未对此作出裁决。

美国电影制作人、前演员及作家贾斯汀·贝特曼告诉版权局,AI模型在未经许可或付费的情况下获取了其作品内容。她称,“这是美国最大的盗窃案”。(科技日报)

特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相关推荐
热点推荐
中国男排主教练女友曝光!小29岁高颜值,职业模特身材好

中国男排主教练女友曝光!小29岁高颜值,职业模特身材好

跑者排球视角
2024-04-30 09:14:42
斯诺克世锦赛:希金斯绝杀艾伦,宾汉姆压哨晋级,八强全员落位

斯诺克世锦赛:希金斯绝杀艾伦,宾汉姆压哨晋级,八强全员落位

撒丁岛体育
2024-04-30 05:59:51
国际评级机构穆迪再次下调了万科的评级

国际评级机构穆迪再次下调了万科的评级

侦姐有料
2024-04-28 07:52:41
买超,被曝出大瓜!

买超,被曝出大瓜!

一个小小人物
2024-04-29 11:13:06
为烈士寻亲最新进展:烈士可能名叫薛锦荣

为烈士寻亲最新进展:烈士可能名叫薛锦荣

大象新闻
2024-04-29 19:45:05
胖了20斤后的海边OOTD

胖了20斤后的海边OOTD

科学发掘
2024-04-30 01:18:10
司法部原党组成员、副部长刘志强被查

司法部原党组成员、副部长刘志强被查

新京报
2024-04-30 09:06:22
上海“最大”小区,比一个欧洲国家还大!外卖小哥:我太难了

上海“最大”小区,比一个欧洲国家还大!外卖小哥:我太难了

靓仔情感
2024-04-30 07:05:08
塞力斯问界M7声明与博世冲突,谁的谎言如此不堪?谁在玩弄车主?

塞力斯问界M7声明与博世冲突,谁的谎言如此不堪?谁在玩弄车主?

美芳
2024-04-28 22:27:57
全世界都惧怕美国,为何只有中国不怕?俄罗斯道破真相,句句扎心

全世界都惧怕美国,为何只有中国不怕?俄罗斯道破真相,句句扎心

乐阳聊军事
2024-04-29 10:01:21
“与辉同行”全员完成切割,董宇辉等9位主播名字全部去东方化

“与辉同行”全员完成切割,董宇辉等9位主播名字全部去东方化

校长侃财
2024-04-29 13:04:48
德雷蒙德格林嘲讽努尔基奇,没有我成功,就不要嘲讽我

德雷蒙德格林嘲讽努尔基奇,没有我成功,就不要嘲讽我

阿雄侃篮球
2024-04-30 12:06:09
特斯拉在欧洲展示 FSD,45 分钟内仅需干预 1 次

特斯拉在欧洲展示 FSD,45 分钟内仅需干预 1 次

IT之家
2024-04-29 08:00:44
神舟十七号载人飞船顺利撤离空间站组合体

神舟十七号载人飞船顺利撤离空间站组合体

我们的太空
2024-04-30 09:09:29
绝了,为逼姆巴佩留队!巴黎出三大损招,皇马嗅到不安,或迎反转

绝了,为逼姆巴佩留队!巴黎出三大损招,皇马嗅到不安,或迎反转

阿泰希特
2024-04-30 10:30:40
髌腱撕裂!总冠军悬了?季后赛可能报销了...

髌腱撕裂!总冠军悬了?季后赛可能报销了...

篮球大图
2024-04-30 11:23:40
追梦:如果有人能0-3翻盘逆转 那只能是勒布朗-詹姆斯

追梦:如果有人能0-3翻盘逆转 那只能是勒布朗-詹姆斯

直播吧
2024-04-30 08:02:21
瞧这各省艾滋病严峻程度排行!真叫人大开眼界,引人深思啊

瞧这各省艾滋病严峻程度排行!真叫人大开眼界,引人深思啊

弱肉强食法则
2024-04-30 11:30:42
果然来了!美下任总统板上钉钉?奥巴马高兴一幕出现,局势巨变

果然来了!美下任总统板上钉钉?奥巴马高兴一幕出现,局势巨变

身边小事情
2024-04-30 05:15:03
假如我国从俄罗斯买回了外东北,会形成怎样个地形呢

假如我国从俄罗斯买回了外东北,会形成怎样个地形呢

北筏话史
2024-04-29 12:09:51
2024-04-30 12:14:44
北青网-北京青年报
北青网-北京青年报
北青网官方网易号
719221文章数 846801关注度
往期回顾 全部

科技要闻

特斯拉股价飙涨15% 马斯克中国行大获成功

头条要闻

中纪委节前打虎:司法部原副部长刘志强被查

头条要闻

中纪委节前打虎:司法部原副部长刘志强被查

体育要闻

上海男篮:年轻人,学费总是要交的

娱乐要闻

黄子韬被曝求婚徐艺洋 大量亲密照曝光

财经要闻

查道炯:中国经济的外部挑战与应对思考

汽车要闻

越野老炮最爱 哈弗新H9新增2.4T柴油机

态度原创

健康
游戏
亲子
时尚
数码

春天野菜不知不识莫乱吃

《控制》衍生作进入最后开发 《控制2》仍在概念阶段

亲子要闻

六个方法教会你,如何培养宝宝自主进食

40、50岁女人想要优雅?穿衣简单不穿花,谁见了都会夸美

数码要闻

超轻小尺寸带出门真爽 这几款轻薄本可以看看

无障碍浏览 进入关怀版