网易首页 > 网易号 > 正文 申请入驻

生成式AI热潮掀起“淘数据热”,背后风险有多大?

0
分享至

在2000年最鼎盛时期,Photobucket是全球顶级的图像托管网站,一度拥有7000万用户,占据了美国在线照片市场的近一半市场。

根据分析追踪机构Similarweb的数据,如今只有约200万人仍在使用Photobucket。但该公司首席执行官(CEO)伦纳德(Ted Leonard)透露,目前正在与多家科技公司进行谈判,以授权其130亿张照片和视频,让科技公司用于训练生成式人工智能(AI)大模型,使得这些模型能够响应文本提示,生成新内容。目前谈判的每张照片的价格在5美分~1美元之间,每条视频的价格超过1美元,各个买家所需图像、视频的类型都存在差异。

“许多科技企业告诉我们,他们需要更多AI训练数据。一位潜在买家想要超过10亿个视频,比我们平台拥有的还多。突然之间,我们不再担心没生意可做,而是要抓耳挠腮地想,我们去哪里弄那么多数据?”他表示。

伦纳德以商业机密为由拒绝透露潜在买家的身份,但根据其透露的数据推算,其拥有的数据内容将价值数十亿美元。Photobucket的境遇可谓该行业的缩影。除了对人才的竞争外,科技巨头新一轮竞赛还转向了对AI训练数据。生成式AI革命可能会给这类企业赋予新生命。但同时,这一竞赛背后的数据仍存在一些风险。


生成式AI热潮掀起“淘数据热”

最初,谷歌、Meta和OpenAI等科技巨头使用从互联网上免费的大量数据来训练生成式AI模型。这些科技公司表示,这样做既合法,也合乎道德。并且,如果不能使用大量免费抓取的、在他们看来可“公开可用”的网页数据,例如非盈利机构Common Crawl提供的数据,训练AI模型的成本将难以承受。

但随着生成式AI领域的热潮和竞争加剧,他们开始面临一系列来自版权持有人的诉讼和监管关注,同时也促使部分内容发布者采取措施阻止科技公司的数据抓取。科技公司还开始需要解释如何获取并使用大量数据来训练他们的模型。

也因此,在继续为自己的行为辩护的同时,科技巨头们也开始悄悄针对一些付费内容进行谈判,涉及的内容从聊天记录到那些已经式微的社交媒体应用程序所拥有的、被遗忘已久的个人照片和视频等,使得相关隐性交易逐渐火热起来。

例如,据媒体援引知情人士消息,在ChatGPT于2022年底推出后的数月内,Meta、谷歌、亚马逊和苹果等科技巨头都与图片平台Shutterstock签订协议,以使用其数亿张图片、视频和音乐文件进行AI模型训练。Shutterstock的首席财务官亚哈斯(Jarrod Yahes)透露,与大型科技公司的最初交易额在2500万~5000万美元,大多数交易规模后来均有所扩大。一些较小的科技公司也加入了这一“淘数据热”,在过去两个月中加入谈判。

Shutterstock的竞争对手Freepik也透露,已与两家大型科技公司达成协议,授权拥有的2亿张图片档案中的大部分,每张图片的价格在2~4美分。公司CEO阿布拉(Joaquin Cuenca Abela)表示,目前还有五笔类似交易正在谈判中,但他不愿透露买家身份。

作为Shutterstock早期客户的OpenAI,还与包括美联社、Axel Springer和汤森路透(Thomson Reuters)等至少四家新闻机构签署了数据授权协议,以帮助训练其AI大语言模型,但未披露具体细节。

Klaris law律师事务所的克拉里斯(Edward Klaris)称:“目前,科技公司正竞相争取那些拥有私人数据版权的持有者,这些私人数据无法通过网络免费抓取。”他补充称,该事务所也正在为私人数据持有者提供咨询服务,涉及价值数千万美元的交易,通过交易,这些数据持有者会将照片、电影和书籍档案授权给科技公司,用于AI训练。

对于上述情况,谷歌、Meta、微软、苹果、亚马逊和OpenAI均拒绝予以置评,不过微软和谷歌提供了包含数据隐私条款的供应商行为准则。谷歌并表示,如果发现数据供应商违规,将立即采取行动,包括终止与其合作协议。

许多主要的市场研究机构表示,他们尚未开始评估这个不透明的、隐形的AI数据交易市场的规模,因为在这个市场中,公司通常不会公开协议内容。少数正在试图对该市场进行评估的研究机构,比如Business Research Insights,估计该市场目前价值约25亿美元,预测在未来十年内可能增长至近300亿美元规模。

内容来源“合乎道德”还是“风险很大”?

不仅仅是那些原本拥有数据的企业和平台,这种隐形交易的火热,还滋生出一个专注于AI数据生产的新兴行业。相关企业的主业就是获取例如播客、短视频等现实世界内容的权利,同时建立一些短期合同工网络,从零开始制作定制化的AI训练类视觉和声音样本。

位于西雅图的Defined.ai就是这类企业之一。其CEO巴拉戈(Daniela Braga)向媒体透露,已将数据授权给了一系列科技公司,包括谷歌、Meta、苹果、亚马逊和微软。具体价格根据买家和内容类型而有所不同,通常为每张图片1~2美元,每个短视频2~4美元,长片每小时100~300美元,文本每个单词0.001美元;一些需要处理的图像价格在5~7美元。Defined.ai会与内容提供者分享这些收入。Defined.ai的其中一位供应商,一位巴西的企业家表示,他向所获取的照片、播客和数据所有者支付总交易额的20%~30%。巴拉戈强调称,其数据“来源合乎道德”,会从数据使用者那里获得同意,并去除个人识别信息。

上述巴西供应商称,他所持有的图片中最贵的是用于训练AI模型的、符合科技公司禁止的相关内容的图片。为了满足这些要求,他从警察、自由职业摄影师和医学生那里获取诸如犯罪现场、冲突暴力和手术的图片,主要来源于南美洲和非洲。他的公司还雇佣了习惯于看到暴力伤害的护士,对这些图片进行匿名化和注释。

尽管通过数据、内容授权可以解决一些法律和道德层面的问题,但许多业内专家和企业负责人仍表示,将像Photobucket这样的老牌互联网平台的陈年档案作为新一代AI模型的训练素材,可能会引发一系列新的问题,比如用户隐私问题。

过去,AI系统确实曾出现过复制其训练数据中的某些细节内容并输出的情况,比如带有Getty Images水印的照片、一些媒体文章中的具体内容,以及真实的人物照片等。这意味着,人们多年前上传的私人照片或个人想法,可能会在没有任何通知或明确同意的情况下,被生成式AI作为输出结果广为传播。

巴拉戈就表示,她会避免从像 Photobucket 这样的平台公司获取内容,更倾向于从个人社交媒体大咖处获取他们的原创内容,因为后者对授权有更明确的主张。“我认为从类似Photobucket这样的平台获取内容的风险很大。如果AI模型生成了一些很像某人、但未经本人同意的照片,就会带来问题和麻烦。”她称。

即使是类似Reddit这样的知名平台,也因为相关问题受到调查。今年2月,Reddit与谷歌达成一项协议,授权谷歌使用Reddit的平台内容、数据来训练其AI模型。但在3月进行首次公开募股(IPO)前夕,该公司披露,其数据授权业务正受到美国联邦贸易委员会(FTC)的调查,并承认可能会违反隐私和知识产权法规。FTC在2月时,也曾警告企业不得追溯性地改变服务条款以用于AI训练。对于Reddit披露的调查,FTC不予置评,也未透露是否还在调查其他AI训练数据交易和相关平台。

特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相关推荐
热点推荐
仅一夜! 勇士2笔交易达成, 重组五星首发, 库里势要再夺一冠!

仅一夜! 勇士2笔交易达成, 重组五星首发, 库里势要再夺一冠!

王子说科技
2024-04-30 22:22:08
马斯克来中国后!特斯拉中国官方的FSD购买页面描述由“稍后推出”改为“即将推出”

马斯克来中国后!特斯拉中国官方的FSD购买页面描述由“稍后推出”改为“即将推出”

和讯网
2024-04-29 17:03:03
我们对外部世界的看法是有问题的

我们对外部世界的看法是有问题的

维舟
2024-04-29 21:07:28
完整中国神仙系统。正宗道教认可的神仙,我的认知还停留在西游记

完整中国神仙系统。正宗道教认可的神仙,我的认知还停留在西游记

牛锅巴小钒
2024-04-30 14:55:39
乌克兰媒体:乌军对克里米亚发动大规模导弹袭击

乌克兰媒体:乌军对克里米亚发动大规模导弹袭击

新华社
2024-04-30 22:58:08
世体:若莱万本赛季进球再次超过25个,巴萨将再付拜仁125万欧

世体:若莱万本赛季进球再次超过25个,巴萨将再付拜仁125万欧

直播吧
2024-04-30 20:18:32
马龙:詹姆斯是GOAT&浓眉名人堂 这轮系列赛远比4-1看起来艰难

马龙:詹姆斯是GOAT&浓眉名人堂 这轮系列赛远比4-1看起来艰难

直播吧
2024-04-30 18:52:50
男子西安自驾游被撞还被打,质疑交警处理不当?西安临潼公安通报

男子西安自驾游被撞还被打,质疑交警处理不当?西安临潼公安通报

环球网资讯
2024-05-01 07:07:13
上海男篮大调整!主教练敲定,三人离队,锁定顶级后卫

上海男篮大调整!主教练敲定,三人离队,锁定顶级后卫

保持热爱0263
2024-04-30 20:02:40
中国留学生在澳洲被捕!两华人行李箱机场打开,密密麻麻全是活鱼

中国留学生在澳洲被捕!两华人行李箱机场打开,密密麻麻全是活鱼

平祥生活日志
2024-04-30 15:03:02
乳房。Rebecca那对漂亮的乳房。

乳房。Rebecca那对漂亮的乳房。

秃头研究所新传考研
2024-04-30 00:05:24
旗鼓相当!奥沙利文连扳3局,4-4战平世界冠军,特鲁姆普连丢3局

旗鼓相当!奥沙利文连扳3局,4-4战平世界冠军,特鲁姆普连丢3局

小李子爱体育
2024-05-01 01:52:07
68岁努尔哈赤早上刚死,34岁皇太极晚上就给36岁继母阿巴亥送弓箭

68岁努尔哈赤早上刚死,34岁皇太极晚上就给36岁继母阿巴亥送弓箭

瓜哥的动物日记
2024-04-30 11:51:31
野鸡一步登天成为顶级名媛,江浙沪名媛孵化产业链全曝光

野鸡一步登天成为顶级名媛,江浙沪名媛孵化产业链全曝光

新青年大院NEWYOUTH
2024-04-29 18:49:02
不打了!突然决定结束12年生涯!以快船球员身份退出NBA……

不打了!突然决定结束12年生涯!以快船球员身份退出NBA……

篮球实战宝典
2024-04-30 20:45:52
四川省住建厅原厅长何健被公诉!

四川省住建厅原厅长何健被公诉!

正义网
2024-04-30 16:30:47
“与辉同行”全员完成切割,董宇辉等9位主播名字全部去东方化

“与辉同行”全员完成切割,董宇辉等9位主播名字全部去东方化

校长侃财
2024-04-29 13:04:48
女人在过夫妻性生活时,为什么总发出声音?医生:大多数人不了解

女人在过夫妻性生活时,为什么总发出声音?医生:大多数人不了解

皮皮讲文
2024-01-02 10:36:17
祸害人三年的新冠疫情,为何没人提溯源了?

祸害人三年的新冠疫情,为何没人提溯源了?

李昕言温度空间
2024-04-30 16:40:30
数据不说谎|湖人引援盯上特雷杨:又一场灾难进入倒计时?

数据不说谎|湖人引援盯上特雷杨:又一场灾难进入倒计时?

罗说NBA
2024-05-01 07:19:16
2024-05-01 07:48:49
第一财经资讯
第一财经资讯
第一财经官方账号
188350文章数 613896关注度
往期回顾 全部

科技要闻

余承东卸任华为终端CEO 新任命为董事长

头条要闻

英方称将完全移除敏感场地的中国监控设备 中使馆回应

头条要闻

英方称将完全移除敏感场地的中国监控设备 中使馆回应

体育要闻

诺伊尔:今天氛围很好让我想起了12年决赛;我们想去温布利

娱乐要闻

黄子韬被曝求婚徐艺洋 大量亲密照曝光

财经要闻

查道炯:中国经济的外部挑战与应对思考

汽车要闻

越野老炮最爱 哈弗新H9新增2.4T柴油机

态度原创

房产
健康
教育
时尚
本地

房产要闻

刺激!市区惊现1.1w/㎡新房+现房!海口楼市,五一打响价格战!

春天野菜不知不识莫乱吃

教育要闻

傅佩荣:50岁还在讲18岁如何,不可惜吗?人最重要是肯定当下

岁月不败美人,姐姐们的50岁也太好看了

本地新闻

食味印象 | 潍坊:碳水脑袋的人间乐园

无障碍浏览 进入关怀版