网易首页 > 网易号 > 正文 申请入驻

你点击我不是机器人的时候,都是在帮Google免费训练无人驾驶车

0
分享至

你大概做过无数次这件事:在登录银行账户、注册邮箱或者提交一个表单时,屏幕上弹出一组模糊的街景照片,要求你“点击所有包含红绿灯的图片”或者“选出每一个人行横道”,反复证明自己“不是机器人”。几秒钟后,验证通过,你继续你的操作,不会再多想一秒。

但你有没有想过,你点击的那些红绿灯和人行横道的图片,来自哪里?又去了哪里?

最近,一篇博文把这个问题再次推到了聚光灯下。用户 @sharbel 撰写了一篇长文,详细梳理了 reCAPTCHA(re-Completely Automated Public Turing test to tell Computers and Humans Apart)从诞生到今天的演变,并提出了一个尖锐的论点:过去十几年里,数以亿计的互联网用户在不知情的情况下,免费为 Google 标注了海量图像数据,而这些数据最终流入了 Google Maps 和 Waymo 自动驾驶系统的训练管线。

这不是什么新近泄露的秘密。reCAPTCHA 作为数据采集工具的双重身份,在技术圈里已经是公开的常识。Google 甚至在自己的 reCAPTCHA 开发者网站上写得很清楚:reCAPTCHA 会“将用户解决验证码所花费的时间积极用于文本数字化、图像标注和构建机器学习数据集”。但对绝大多数普通用户来说,他们从未读过这行字。随着如今 AI 数据的价值愈发重要,这个问题随着这条博文再度进入公众视野。

故事要从 2000 年讲起。那时候的互联网正被垃圾邮件和自动注册机器人搞得一团糟。卡内基梅隆大学的危地马拉裔计算机科学家 Luis von Ahn 和他的团队提出了一种区分人类和机器的方法,后来被命名为 CAPTCHA。原理很直观:给用户展示一段扭曲变形的文字,人类能看懂,机器识别不了。


图丨Luis von Ahn(来源:MIT News)

Von Ahn 很快意识到,全世界每天有几亿人在做这件事,每次花大约十秒钟。这些认知劳动加在一起是一个惊人的数字,全部被浪费了。2007 年,他推出了 reCAPTCHA。核心改动很简单:验证码里展示的不再是随机生成的乱码,而是两个词。一个是系统已知的答案,用来验证你是不是人;另一个则来自扫描的旧书籍和报纸,是光学字符识别(OCR)软件无法辨认的文本。你输入答案的同时,也在帮助把这些纸质文字转化成数字文本。

这个设计确实称得上一石二鸟。reCAPTCHA 被部署到超过十万个网站上,到 2011 年,它已经完成了整个 Google Books 档案的数字化,还帮助转录了《纽约时报》从 1851 年至今超过 1,300 万篇文章。Von Ahn 后来在接受 NPR 采访时说,他把 CAPTCHA 的创意免费送了出去,而 reCAPTCHA 被 Google 在 2009 年收购,价格据他本人透露是“数千万美元级别”。收购之后,Von Ahn 又去做了另一件事:创办多邻国,继续用众包的逻辑做语言教育。

Google 拿到 reCAPTCHA 之后,事情开始转向。

大约在 2012 年,扭曲文字时代结束了。Google 当时面对的新挑战是:Street View 拍摄车已经在全球几乎每条道路上跑过了,积累了海量街景照片。但照片本身只是原始像素,要让这些数据对导航和地图服务有用,系统需要知道照片里有什么,哪个是门牌号,哪个是路标,哪个是店面招牌。于是 reCAPTCHA v2 出现了。用户不再输入文字,取而代之的是图片网格。“点击所有包含交通信号灯的方块”“选出每个人行横道”“识别所有店面”。

这些图片来自 Google Street View。用户每一次点击都在告诉 Google 的计算机视觉模型:这块像素区域是红绿灯,这个形状是斑马线。Google 以免费安全服务的名义,将这个工具嵌入了银行、政府网站、电商平台和几乎所有需要登录验证的网页。你别无选择。想访问你的账户?先帮我标注几张图片。

规模有多大?据多个来源估计,reCAPTCHA 在高峰期每天被解答约 2 亿次。加州大学尔湾分校(UC Irvine)2023 年发表的一篇论文《Dazed & Confused: A Large-Scale Real-World User Study of reCAPTCHAv2》给出了更系统的计算:从部署至今的 13 年多时间里,人类总共花费了约 8.19 亿小时在 reCAPTCHA 上,按工资折算至少相当于 61 亿美元。

研究团队还估算,reCAPTCHAv2 产生的追踪 Cookie 数据,终身价值高达 8,880 亿美元。论文的主要作者 Andrew Searles 在接受 The Register 采访时直言:他认为 reCAPTCHA 的真正目的是收集用户信息和免费劳动。


图丨相关论文(来源:arXiv)

这些标注数据去了哪里?最显而易见的方向是 Google Maps。它今天能自动识别路标、读取门牌号、理解城市地理结构,背后依赖的计算机视觉能力,有一部分基础就来自 reCAPTCHA 用户年复一年的标注积累。

更受争议的方向是 Waymo。Waymo 的前身是 Google 在 2009 年启动的自动驾驶项目,2016 年独立为 Alphabet 旗下子公司。一辆自动驾驶汽车要安全运行,必须以接近完美的准确率识别交通灯、人行横道、行人、停车标志等成千上万种视觉模式。

而 reCAPTCHA 要求用户识别的,恰恰就是这些元素。有人推测 reCAPTCHA 数据被用于训练 Waymo 的自动驾驶系统,但一位未具名的 Google 代表否认了这一点,声称截至 2021 年中,这些数据仅用于改进 Google Maps。UC Irvine 的研究者在论文中则认为,reCAPTCHA 提出的图像识别任务,如辨认红绿灯和自行车,看起来非常像是在为自动驾驶收集训练数据。

Google 从未正式确认 reCAPTCHA 数据直接进入了 Waymo 的训练流程。这一点需要说清楚。不过从外部来看,质疑并非没有道理。reCAPTCHA v2 让用户标注的物体类别,与自动驾驶感知系统需要识别的物体类别高度重合。而 Google/Alphabet 同时拥有 reCAPTCHA 和 Waymo,内部数据管线是否有交叉使用,外界无从审计。

Waymo 如今的体量让这个问题变得更加敏感。截至 2026 年 2 月,Waymo 已完成超过 2,000 万次付费载客,自主驾驶里程超过 2 亿英里。仅 2025 年一年,它的年度载客量就增长了两倍,达到 1,500 万次。

2026 年 2 月,Waymo 完成了一轮 160 亿美元的融资,估值达到约 1,260 亿美元,超过了大多数全球主流车企。它计划在 2026 年进入包括伦敦和东京在内的 20 多个新城市。从一个 Google 内部的研究项目,到一家估值千亿美元的独立公司,Waymo 走了不过十多年。


图丨 Waymo 无人驾驶出租车(来源:Waymo)

与此同时,职业数据标注是一个相当昂贵的行业。Scale AI、Appen、Labelbox 等公司雇佣了大量工人来完成图像标注工作,每小时的报酬从几美元到几十美元不等。Google 通过 reCAPTCHA 做到了同样的事,只是标注者不是被雇佣的工人,而是想登录自己银行账户的普通人。

没有报酬,没有合同,甚至不需要征得同意。reCAPTCHA 的服务条款当然存在,但绝大多数用户既没有阅读过,也无法选择拒绝,因为它不是 Google 的产品页面上的可选项,而是横亘在你和你想访问的任何网站之间的一道必经关卡。

2018 年,Google 推出了 reCAPTCHA v3。这一版本不再给用户展示任何验证挑战。它在后台默默运行,通过监测你的鼠标轨迹、滚动模式、悬停时长和浏览器环境来判断你是不是人类。

UC Irvine 的研究发现,reCAPTCHA 广泛监控用户的 Cookie、浏览历史和浏览器环境信息,包括画布渲染、屏幕分辨率、鼠标移动和用户代理数据,所有这些都可以被用于广告和追踪。Google 坚称这些数据不会被用于个性化广告。但 2020 年,Cloudflare 出于隐私担忧从 reCAPTCHA 切换到了竞争对手 hCaptcha,也说明业界并非所有人都对 Google 的说法买账。

更有意思的是,UC Irvine 的研究发现,早在 2016 年就有研究者能以 70% 的准确率击败 reCAPTCHA v2 的图像验证,而 v2 的复选框验证更是可以被 100% 破解。

换句话说,reCAPTCHA 作为安全工具的有效性在持续下降,但它作为数据采集和用户追踪工具的功能却一直在运转。研究者的结论相当犀利:reCAPTCHA 本质上是一个伪装成安全服务的免费图像标注劳动力来源和追踪 Cookie 农场。

需要指出的是,这个结论不代表学术界的共识。也有人认为,reCAPTCHA 确实在防御层面提供了一定价值,至少增加了机器人的攻击成本,不应该完全否定它的安全功能。Google 自身的立场也一直是,reCAPTCHA 首先是一个安全产品。

但争论的核心不在于 reCAPTCHA 有没有安全价值。核心问题是:当一个安全工具同时也是数据采集工具时,用户是否应该被告知?是否应该有选择权?

Luis von Ahn 最初发明 reCAPTCHA 的想法其实很漂亮:既然人们已经在做验证了,为什么不顺便把这些认知劳动用在有益的事情上?帮助数字化全世界的书籍,这是一个能让人心生敬意的目标。但从 Google 收购 reCAPTCHA 之后的演变来看,“有益”的定义被悄悄替换了。数字化公共图书馆的藏书是公益,训练价值千亿美元的商业产品则是另一回事。

奥地利的联邦法院已经裁定 reCAPTCHA 违反了 GDPR,因为它在未经充分知情同意的情况下向 Google 传输用户数据。欧洲的监管压力在上升,但在全球范围内,reCAPTCHA 仍然部署在数百万个网站上,每天默默地运行着。

运营/排版:何晨龙

特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相关推荐
热点推荐
难以置信!连云港一工厂以遭遇群体性阻挠、无法经营为由停产整顿

难以置信!连云港一工厂以遭遇群体性阻挠、无法经营为由停产整顿

火山詩话
2026-05-09 16:19:21
我穿便装到妻子家过年,被厅长大舅哥使唤,警卫员送来文件他愣了

我穿便装到妻子家过年,被厅长大舅哥使唤,警卫员送来文件他愣了

千秋文化
2026-05-08 10:29:06
难怪特朗普访华中方迟迟不表态,美媒:原来中方早看不上我们了

难怪特朗普访华中方迟迟不表态,美媒:原来中方早看不上我们了

云舟史策
2026-05-10 07:19:49
1-3!大连防线太渣了!海牛豪取四连胜,配拿3分,但裁判太逆天了

1-3!大连防线太渣了!海牛豪取四连胜,配拿3分,但裁判太逆天了

刀锋体育
2026-05-10 22:15:41
半年打一针!近4000万慢性鼻窦炎有新药了

半年打一针!近4000万慢性鼻窦炎有新药了

健康触点
2026-05-09 06:08:51
伊朗军方:若敌人再发动侵略 将启用新装备、新战法

伊朗军方:若敌人再发动侵略 将启用新装备、新战法

每日经济新闻
2026-05-10 15:55:06
森林北回应“与汪峰分手”

森林北回应“与汪峰分手”

深圳晚报
2026-05-10 22:57:36
中国男乒四大“贵公子”:家境优渥不缺钱,仍为梦想拼尽全力

中国男乒四大“贵公子”:家境优渥不缺钱,仍为梦想拼尽全力

郭揦包工头
2026-04-29 16:09:40
讣告官宣!陈翔六点半“吴妈”病逝!死因公开,饱受“癌王”折磨

讣告官宣!陈翔六点半“吴妈”病逝!死因公开,饱受“癌王”折磨

舍长阿爷谈事
2026-05-10 22:30:31
一个手握千亿男装帝国的富二代,为什么突然疯了呢?

一个手握千亿男装帝国的富二代,为什么突然疯了呢?

流苏晚晴
2026-05-09 19:01:09
全亚洲穿比基尼最好看的女人,身材到底有多迷人?

全亚洲穿比基尼最好看的女人,身材到底有多迷人?

书画艺术收藏
2026-04-03 19:30:09
做梦?张本智和狂言:开创日本时代!国乒男团决赛王楚钦扛着一单,梁靖崑或打二单

做梦?张本智和狂言:开创日本时代!国乒男团决赛王楚钦扛着一单,梁靖崑或打二单

好乒乓
2026-05-10 21:11:23
5000人滞留新加坡码头1天…迪士尼邮轮曝重大故障!现场哭声一片

5000人滞留新加坡码头1天…迪士尼邮轮曝重大故障!现场哭声一片

新加坡万事通
2026-05-09 18:00:48
先访华再访日?美方故技重施,中方斩钉截铁,特朗普能否来华?

先访华再访日?美方故技重施,中方斩钉截铁,特朗普能否来华?

王姐懒人家常菜
2026-05-10 21:13:41
15公司5月10日中午发布重大利空,大减持公司5家 重组退市公司2家

15公司5月10日中午发布重大利空,大减持公司5家 重组退市公司2家

股市皆大事
2026-05-10 11:30:17
一个网友说,大集体时期按月发粮,评论区炸锅了

一个网友说,大集体时期按月发粮,评论区炸锅了

读鬼笔记
2026-05-09 20:34:04
放弃40万镑周薪!28岁神锋无球可踢,一年身价狂跌5000万欧

放弃40万镑周薪!28岁神锋无球可踢,一年身价狂跌5000万欧

姜来不加盐
2026-05-10 13:39:48
重大科学突破涉嫌造假,中山大学又一杰青副院长遭举报

重大科学突破涉嫌造假,中山大学又一杰青副院长遭举报

风干迷茫人
2026-05-10 19:03:51
瑞舒伐他汀:你每天吃的这颗小药片,藏着多少你不知道的秘密?

瑞舒伐他汀:你每天吃的这颗小药片,藏着多少你不知道的秘密?

橘子约定
2026-05-10 22:08:46
男子打车点承担高速费不给,司机原路返回,可以双输,但不能单赢

男子打车点承担高速费不给,司机原路返回,可以双输,但不能单赢

一盅情怀
2026-05-10 15:46:38
2026-05-11 00:04:49
DeepTech深科技 incentive-icons
DeepTech深科技
麻省理工科技评论独家合作
16683文章数 514939关注度
往期回顾 全部

科技要闻

DeepSeek融资,改写所有人的估值

头条要闻

儿子车祸受伤生存希望不足0.1% 母亲请中医熬"还魂汤"

头条要闻

儿子车祸受伤生存希望不足0.1% 母亲请中医熬"还魂汤"

体育要闻

那个曾让詹姆斯抱头的兄弟,40岁从大学毕业了

娱乐要闻

赵露思老实人豁出去了 没舞蹈天赋硬跳

财经要闻

白酒大逃杀

汽车要闻

轴距加长/智驾拉满 阿维塔07L定位大五座SUV

态度原创

旅游
教育
艺术
亲子
公开课

旅游要闻

重庆新增一夜景打卡点!磁器口步行街看大学生“脑洞”建筑

教育要闻

请教会你的孩子有能力分辨和说不!

艺术要闻

31亿,207米!中国第一大民企的深圳总部,封顶!

亲子要闻

“顺”还是“剖”?从成为母亲的选择说起

公开课

李玫瑾:为什么性格比能力更重要?

无障碍浏览 进入关怀版