![]()
去年的一个早晨,雅各布·洛乌踏上了每日的邻里散步之路,途中喂养偶遇的海鸥。不过这次,他录制了几段自己脚步和行走路面景色的视频。这段视频为他赚取了14美元,约为该国最低工资的10倍,对于这位居住在南非开普敦的27岁青年来说,足够买半周的食物。
这段视频是洛乌在Kled AI应用上找到的"城市导航"任务,该应用通过用户上传视频和照片等数据来训练人工智能模型并向贡献者付费。在几周内,洛乌通过上传日常生活的照片和视频赚取了50美元。
在数千英里之外的印度兰契,22岁的学生萨希尔·蒂加通过让Silencio(一个为AI训练众包音频数据的平台)访问他手机的麦克风来捕获城市环境噪音,如餐厅内部或繁忙路口的交通声,以此定期赚钱。他还上传自己的语音录音。萨希尔会前往捕获独特的环境,比如Silencio地图上尚未记录的酒店大堂。他每月通过此项工作赚取超过100美元,足以覆盖所有食物开支。
在芝加哥,18岁的焊接学徒拉梅利奥·希尔通过向Neon Mobile(一个对话式AI训练平台,按每分钟0.5美元付费)出售与朋友和家人的私人手机聊天记录,赚取了几百美元。对希尔来说,这个计算很简单:他认为科技公司已经捕获了他如此多的私人数据,所以他不如从中分一杯羹。
这些零工AI训练师——上传从周围场景到自己的照片、视频和音频的一切内容——正处在新一轮全球数据淘金热的最前线。随着硅谷对高质量、人类级数据的渴求超过了从开放互联网上可抓取的内容,一个繁荣的数据市场行业应运而生以填补这一空白。从开普敦到芝加哥,数千人现在正在微型授权他们的生物识别身份和私密数据来训练下一代AI。
但这个新的零工经济伴随着权衡取舍。为了换取几美元,这些训练师正在推动一个最终可能使他们的技能变得过时的行业,同时让其中一些人面临深度伪造、身份盗窃和数字剥削的未来风险,而他们才刚刚开始理解这些风险。
AI面临数据荒
AI的语言模型,如ChatGPT和Gemini,需要大量的学习材料来改进,但它们正面临数据短缺。最常用的训练来源,如C4、RefinedWeb和Dolma,这些占据网络上四分之一最高质量数据集的来源,现在正限制生成式AI公司使用它们的数据训练模型。研究人员估计,AI公司最早将在2026年耗尽新鲜的高质量文本用于训练。虽然一些实验室已诉诸于将其AI生成的合成数据反馈,但这样的递归过程可能导致模型产生错误百出的内容,造成其崩溃。
这正是Kled AI和Silencio等应用介入的地方。在这些类型的数据市场上,数百万人正在将他们的身份货币化来喂养和训练AI。除了Kled AI、Silencio和Neon Mobile,AI训练师还有许多选择:由著名创业孵化器Y-Combinator支持的Luel AI以每分钟约0.15美元的价格采购多语言对话。ElevenLabs允许你数字化克隆自己的声音,并让任何人以每分钟0.02美元的基础费用使用它。
伦敦国王学院的经济学教授鲍克·克莱因·蒂塞林克说,零工AI训练是一个新兴的工作类别,并将大幅增长。
蒂塞林克说,AI公司知道付费让人们授权他们的数据有助于避免如果完全依赖从网络抓取内容可能面临的版权争议风险。AI研究员维尼亚明·韦塞洛夫斯基说,这些公司还需要高质量数据来在其系统中建模新的、改进的行为。"目前,人类数据是从模型分布外取样的黄金标准,"韦塞洛夫斯基补充道。
推动机器的人类,特别是发展中国家的人类,通常需要这些钱,而且很少有其他赚钱选择。对许多零工AI训练师来说,做这项工作是对经济差距的务实回应。在高失业率和货币贬值的国家,赚取美元通常比本地工作更稳定和有回报。他们中的一些人难以找到入门级工作,出于必要而进行AI训练。即使在较富裕的国家,生活成本上升也让出售自己成为合理的财务转向。
然而,零工AI训练的陷阱可能是隐形的。在一些AI市场上,数据训练师授予不可撤销的、免版税的许可,允许公司创造"衍生作品",这意味着今天的20分钟语音录音可能在接下来几年为AI客服机器人提供动力,而训练师再也看不到一分钱。另外,由于这些市场缺乏透明度,用户的面孔可能最终出现在面部识别数据库或半个地球之外的掠夺性广告中,几乎没有法律追索权。
开普敦的AI训练师洛乌意识到隐私权衡。尽管收入不稳定,不足以覆盖他的全部月度开支,但他愿意接受这些条件来赚钱。他多年来一直受神经疾病困扰,无法找到工作,但在包括Kled AI在内的AI市场上赚取的钱让他能够为成为按摩师而储蓄500美元的水疗培训课程费用。
"作为南非人,以美元计酬比人们想象的更值得,"洛乌说。
牛津大学互联网地理学教授、《喂养机器》作者马克·格雷厄姆承认,对发展中国家的个人来说,这些钱在短期内可能是有意义的,但警告说"结构上,这项工作是不稳定的、非进步的,实际上是一个死胡同"。
格雷厄姆补充说,AI市场依赖于"工资的竞次效应"和"对人类数据的临时需求"。一旦这种需求转移,"工人就没有保护、没有可转移技能,也没有安全网"。
格雷厄姆说,唯一的赢家是"全球北方的平台[获得]所有持久价值"。
隐私风险与数据滥用
芝加哥的AI训练师希尔对向Neon Mobile出售私人电话通话有矛盾的感觉。通过约11小时的通话,他赚取了200美元,但他说该应用经常下线,无法释放逾期付款。"Neon对我来说总是很可疑,但我继续使用它来获得一些额外的、轻松的钱来支付账单和其他杂项费用,"希尔说。
现在他正重新考虑那些钱有多容易赚取。9月,就在启动几周后,Neon Mobile在TechCrunch发现一个安全漏洞后下线,该漏洞允许任何人访问用户的电话号码、通话录音和转录。希尔说Neon Mobile从未告知他这一点,现在他担心他的声音可能在互联网上被滥用。
斯坦福人类中心人工智能研究所的数据隐私研究员詹妮弗·金发现令人担忧的是,AI市场对用户数据将如何以及在何处部署不明确。她补充说,在不协商或不了解自己权利的情况下,"消费者面临其数据以他们不喜欢或不理解或预期的方式被重新利用的风险,如果如此,他们将几乎没有追索权"。
当AI训练师在Neon Mobile和Kled AI上分享他们的数据时,他们授予了全权许可(全球性、专有、不可撤销、可转让和免版税)来销售、使用、公开展示和存储他们的肖像——甚至创造他们的衍生作品。
Kled AI创始人阿维·帕特尔说,他的公司的数据协议将使用限制在AI训练和研究目的。"整个业务依赖于用户信任。如果贡献者认为他们的数据可能被滥用,平台就停止工作。"他说他的公司在销售数据集之前会审查企业,以避免与那些有"可疑意图"的企业合作,如色情,以及他们认为可能以与该信任冲突的方式使用数据的"政府机构"。
Neon Mobile未回应置评请求。
根据伦敦城市圣乔治大学法学教授恩里科·博纳迪奥的说法,这些协议的条款允许平台及其客户对"该材料做几乎任何事情,永远,没有进一步付款,贡献者没有现实的方式撤回同意或有意义地重新协商"。
更令人困扰的风险包括训练师的数据被用于深度伪造和冒名顶替。博纳迪奥补充说,尽管数据市场声称在销售前剥离数据的任何识别信息,如姓名和位置,但生物识别模式本质上很难以稳健的方式匿名化。
后悔与反思
即使当AI训练师能够为如何使用他们的数据协商更细致的保护时,他们仍可能感到后悔。当来自纽约的演员亚当·科伊在2024年以1000美元将他的肖像出售给Captions(一个现在称为Mirage的AI驱动视频编辑器)时,他的协议确保他的身份不会被用于任何政治目的或销售酒精、烟草或色情制品,而且许可将在一年后到期。
Captions未回应置评请求。
不久之后,亚当的朋友开始转发他们在网上发现的以他的面孔和声音为特色、获得数百万观看的视频。在其中一个视频,一个Instagram短片中,亚当的AI复制品声称是"阴道医生",并为怀孕和产后妇女推广未经验证的医疗补充剂。
"向人们解释这件事感到尴尬,"科伊说。
"评论读起来很奇怪,因为他们评论我的外表,但那实际上不是我,"科伊补充说。"我[在决定出售我的肖像时]的感觉是,大多数模型无论如何都会从互联网上抓取数据和肖像,所以不如为此获得报酬。"
科伊说他此后没有注册任何AI数据零工。他说,只有当公司提供重大补偿时,他才会考虑。
Q&A
Q1:Kled AI和Silencio这些平台是如何运作的?
A:这些平台通过向用户付费来获取训练AI模型所需的数据。用户可以上传视频、照片、音频录音等个人数据,平台会支付相应费用。比如Kled AI的"城市导航"任务,用户录制行走视频可获得报酬;Silencio则收集环境音频数据来训练AI。
Q2:出售个人数据给AI训练有什么风险?
A:主要风险包括隐私泄露、身份盗用和数据滥用。许多平台要求用户授予不可撤销的全球性许可,意味着数据可能被无限期使用而无需额外付费。更严重的是,个人肖像和声音可能被用于制作深度伪造内容,就像演员亚当·科伊的案例一样,他的AI复制品被用于推广未经验证的医疗产品。
Q3:为什么AI公司需要购买人类数据而不是直接从网络抓取?
A:AI公司面临数据短缺问题,预计2026年将耗尽高质量训练文本。主要数据源如C4、RefinedWeb等已开始限制AI公司使用。购买授权数据可以避免版权争议,而且人类提供的数据质量更高,是训练AI模型的"黄金标准",比从网络抓取或使用AI生成的合成数据更可靠。
特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.