你上传的自拍,可能正在训练别人的算法。2014年,OkCupid把300万张用户照片打包送给AI公司Clarifai,这事最近才彻底收场。
一条邮件牵出的数据交易
![]()
路透社看到的法庭文件显示,Clarifai创始人兼CEO马修·泽勒(Matthew Zeiler)当年给OkCupid联合创始人麦克斯韦·克罗恩(Maxwell Krohn)发了封邮件。
「我们正在收集数据,刚意识到OkCupid一定有大量超棒的数据可以用。」
这句话成了关键证据。泽勒的「刚意识到」翻译过来就是:你的用户数据很值钱,我们想拿来做生意。
更微妙的是利益关系——OkCupid的高管当时已经投资了Clarifai。用自家平台的数据给被投公司输血,这笔账怎么算都不亏。
OkCupid照做了。300万张用户上传的照片,连同人口统计信息和位置数据,一并打包送出。
问题是,这违反了OkCupid自己的隐私政策。用户协议里没写「你的脸可能会被拿去训练人脸识别模型」,但平台还是这么干了。
Clarifai拿这些数据做了什么
Clarifai用这批照片训练了一套人脸识别系统。功能很直接:看一张脸,估算年龄、性别、种族。
这套系统背后的商业逻辑也不难猜。2014年正是计算机视觉创业潮,谁能做出准确的人脸分析工具,谁就能拿到安防、营销、金融场景的大单。
但数据来源的灰色地带,几乎没人追问。直到2019年,《纽约时报》一篇报道捅破了窗户纸,美国联邦贸易委员会(FTC)才立案调查。
从数据交易到监管介入,隔了整整5年。
为什么现在才删
Clarifai最近确认,已经删除了全部300万张照片,以及所有用这些数据训练出的模型。
删得这么彻底,是因为FTC上个月刚和OkCupid、Match Group达成和解。虽然这两家公司没有承认「欺骗用户」的指控,但Clarifai的删除动作等于间接认了账——照片确实拿过,模型确实练过。
FTC的调查发现,从2014年开始,Match Group和OkCupid一直在刻意隐瞒这件事,还试图阻挠调查。
最终处罚是:永久禁止OkCupid和Match「就数据收集和共享的性质作虚假陈述,或协助他人作虚假陈述」。
听起来严厉,但FTC对这类首次违规其实没法罚款。禁令内容本质上就是把本来就违法的事,再强调一遍不能干。
清单:这件事暴露的五个问题
一、隐私政策的文字游戏
OkCupid的隐私政策明摆着禁止这种行为,但平台照做不误。用户同意的那几页密密麻麻的条款,到底约束的是谁?
更讽刺的是,违规方最终没有承认欺骗。法律层面的「不承认」和事实层面的「确实干了」,可以同时成立。
二、投资关系的利益输送
OkCupid高管投资Clarifai,再用平台数据给被投公司赋能。这种「左手倒右手」的架构,在创投圈不算新鲜事。
但当倒的是用户隐私数据时,利益冲突就变了性质。用户不是股东,没同意过这笔交易。
三、AI训练数据的黑箱
Clarifai删了照片和模型,但过去十年间,这套人脸识别系统有没有被商用?有没有被集成进其他产品?有没有衍生出新的模型?
FTC的文件没提,Clarifai也没说。数据一旦进入训练流程,影响范围就很难追溯。
四、监管的滞后性
2014年交易,2019年立案,2025年才和解。11年周期里,人脸识别技术已经从实验室走向大街小巷。
FTC的禁令只能管未来,管不了过去已经扩散的影响。这种「事后追责」模式,对快速迭代的AI行业明显吃力。
五、删除≠没有发生过
300万张照片删了,但训练出的人脸分析能力,可能早就内化成Clarifai技术栈的一部分。模型权重可以删,工程师的经验和代码里的trick删不掉。
更现实的疑问是:如果没有《纽约时报》报道,这件事会被追查吗?
数据收束
300万张照片,11年沉默,零罚款。OkCupid和Match Group的代价是一道禁令——禁止再做本来就违法的事。
Clarifai删了数据,但人脸识别市场已经长成数百亿美元的产业。这桩旧案的真正价值,是暴露了一个长期存在的套利空间:在用户不知情时拿走数据,在监管介入前完成技术积累,在舆论发酵后低调善后。
对25-40岁的科技从业者来说,这件事的启示很具体。如果你在做AI产品,训练数据的来源清单能不能经得起审计?如果你在平台型公司,数据共享的决策链条有没有利益冲突的防火墙?
FTC的和解文件里没有罚款数字,但有一个明确信号:数据交易的旧账,现在开始查了。
特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.