在山谷中投喂AI的人：关于中国数据标注劳动的田野思考|算法|投喂ai

分享至

文 _ 吴桐雨（浙江大学社会学系）

公众在谈论人工智能（AI）时，最常见的焦点仍是宏大而抽象的：会不会“失控”？会不会“取代人类”？伦理准则够不够用？……这些问题恢宏、正确，但也很容易把人带到远处，远到几乎让我们都可以忽略AI也需要“吃饭”，也需要“练习”，也需要被一点一点教会关于人类社会的知识、价值和规范。

可当我和华东师范大学的夏冰青老师开始做关于数据标注劳动的田野调查时，我们发现AI并不是一个未来主义的词。它不悬在天上，而是落在地上——落在中西部的山谷里，落在“易地扶贫搬迁社区”里，落在一个个工位、鼠标、耳机、计时器和返工单上。

那里的人被媒体称作“训练AI的老师”。这个说法不算错，但也过于浪漫。更准确的说法应该是：他们在做一种把世界“翻译成机器语言”的工作——把图像、语音、文本这些原始材料，整理、分类、标记成算法可识别的训练材料，供模型学习、纠错、迭代。

在一线工程师的眼里，数据标注常常只是“训练数据的供给”；在中西部的山谷里，它却是一种更具体的日常——给一张照片拉框，框出“人”“车”“坑洼”；给一段录音切片，切成可对齐的词句；给一段对话打分，告诉机器哪些是依人类社会的价值判断能够得高分的回答；用无数次点击，把一个本来模糊的世界打磨得更清晰。

我们的田野就是进入AI世界中这个“隐秘的角落”，在里面一走就走了五年，越走越发现：AI背后不是一条简单的产业链，而是一张绷得很紧的网——沿海大厂的模型部门、产品经理的需求表、远程平台的任务分发与排名、县城边缘机房里的质检与返工，全都被同一根线串起来。下面，我将从三个部分展开这张网：产业如何“内陆化”，性别如何进入数据标注这份工作，以及地方政府与地方管理者如何运用本土知识辅助大厂对于标注劳动的算法控制。

产业的落地：数据标注如何被“内陆化”

在我们调查的“易地扶贫搬迁社区”里面，聚合着从周边山上搬下来的四五个村寨。社区书记最常挂在嘴边的一句话是“要留得住人”。这不是一句口号，而是一串现实问题：人搬下山了，地没了，手艺不值钱，年轻人往外跑，老人、孩子留在楼里。要让人真的在这里安顿下来，就得给他们一份能按月拿到钱的工作——不一定多，但要稳；不一定体面，但要近。

2018 年，机会终于来敲门。社区开始和一家头部科技公司（我们用B-Tech作为其化名）谈合作。几轮谈判后，B-Tech把它的第一座“数据标注基地”放进了山谷：搬迁社区给出三年免租优惠，后续再补贴；水电网维护由社区承担；公司承诺逐步提供岗位，并按社区要求优先招“处境困难的女性”——低学历、中年、离异者先上。如果从外面看，这就是一笔“数字经济招商”的常规交易。但走进去就会发现，这个基地更像一个夹层：它把沿海大厂的AI生产链条，硬生生地楔进了内陆一座山谷的日常。

然而，这一图景与国际上对于AI数据产业和劳动的研究发现是相悖的。国际上讨论数据劳动，常见的图景是“全球分工”：模型和工程师在全球北方，标注外包给全球南方的平台和BPO（Business Process Outsourcing，商务流程外包）；工资按“几美分一单”或“一小时一美元多一点”结算。账本写得很明白：哪里便宜就往哪里去。

中国的大厂当然也懂这笔账，但在很多关键项目上，它们更怕另一件事——泄密。一位工程师说得很直白：大厂不愿把关键数据扔到公开平台上，因为“标什么数据”会暴露公司下一步要做什么。数据在这里不仅是训练的燃料，更像研发路线图。于是，把数据送到内陆，送到更加封闭的社区，就成了自然而然的选择。

我们在近期发表的一个关于中美数据标注产业劳动的比较研究中把这种组织方式概括为inland-sourcing（内陆化/内循环回路）：不是把标注外包到海外，而是把任务从北京、杭州、深圳这些一线或沿海城市总部，送到山西、陕西、甘肃、新疆、贵州、重庆、河南等内陆省份的大厂自建和深度控制的标注基地（data labeling base）。[1]

具体来讲，这种独特的自建基地背后有几股动力叠加在一起。第一重动力是数据的敏感性。就如上文提到的工程师所言：数据本身就是竞争优势，而“标什么数据”会泄露一家公司下一步要做什么。第二重动力来自地方政府对AI经济的参与：对很多内陆三、四线城市来说，参与模型研发像天方夜谭：算力、人才、资本，哪一样都不是说有就有的。但“数据产业”不一样：它劳动密集，门槛相对低，能迅速吸纳一批人。更重要的是，它可以被写进一张张漂亮的汇报表：数字经济就业、AI相关岗位、产业落地、搬迁社区稳定……第三重动力来自企业管理逻辑。标注是高频、琐碎、对质量极其敏感的工作，完全依赖高流动的众包，会把企业拖进无休止的培训与返工：工人刚熟悉规则就离职，新人进来又要从头教；标注质量忽高忽低，返工率上升，项目进度被拖慢。所以许多大厂最终选择“落地”基地：把劳动固定在一个空间里，把经验沉淀在一群人身上，让准确率、保密性与返工率可控。

于是你会看到一种非常中国式的合作形态，正如我们的田野工作反映的那样：数据标注基地的法人是社区书记，书记从社区里挑出一个“读书读得最好的年轻人”来当基地经理；工人则来自社区的劳动力池。这套结构把企业最头疼的两件事也一并解决了：稳定与低成本。稳定来自社区与亲缘网络的“黏性”；低成本来自地方财政承担的一部分基础设施与运营费用。但别误会，这份稳定并不温柔，它更像一种工业化的耐心：让人留得住、学得会、跑不掉，从而把数据做得更准。有人甚至告诉我们，自建基地的数据准确率能做到 97%~98%，明显高于多数外包平台或第三方工厂。

性别进入工位：从“幽灵工作”到“巾帼车间”

欧美学者关于数据劳动的研究[2]很容易让人形成一种“幽灵工”想象：劳动者分散在世界各地，在云端接单、提交、消失；平台只看得见ID、评分、完成率，人本身是隐形的。也正因这种不可见性，女性更容易被吸引进去：平台的“灵活”像一张网，刚好兜住照护、家务、零碎时间，劳动被包装成“补贴性收入”。

投喂AI

[英] 詹姆斯·马尔登，等

中信出版集团2025

然而，我们进行田野调查的自建基地看起来很不一样：虽然大部分也是女性工人（因为这个社区中的男性大多外出务工了），但是女性不是在家里接单，而是进基地打卡，坐在统一的机房里。然而，她们仍然呈现出一种与“幽灵工”相似的结构性处境：工作被安排成可以随时让位于家庭的状态，家庭又被安排成可以随时压住工作的状态。[3]

销声匿迹

[美] 玛丽·L. 格雷 [美]西达尔特·苏里

上海人民出版社2020

你在基地里待久了，就会发现这些女性工作和生活的边界是如此模糊。很多“妈妈工”中午下班时一路小跑去买菜，回家把午饭、晚饭一起做出来，再赶回工位。到了下午四点半，她们又要从工位上撤离去接孩子：有人把孩子送回家，安排作业后，再回来补一两个小时工；有人干脆把孩子带回工位，一边拉框一边盯作业。她们的时间被切成了薄片，一片一片贴在生活的缝里。而就在她们来回奔波的时候，婆婆们往往聚在基地外的小广场晒太阳、聊天——不慌不忙，像一座看不见的“家庭权力中心”。

也正是在这种结构里，“管理”变得很难。基地经理“黑崽”学历高、年纪轻，按亲属辈分来算，只是“妈妈工”的“侄子辈”。他试着贴考勤表，宣布“从今天开始严格遵守上下班时间”，话还没落地，就被二十多位“姑母”围住教育：“你还没结婚，不懂过日子的难处！”最后考勤表成了墙上一张没人看的纸。这里的关键并不是“女人不守纪律”，而是纪律本身被家庭结构重新改写：真正约束“妈妈工”的不是经理，而是婆媳关系、母职伦理以及那种无处可逃的家庭责任。

地方政府当然看见了这一点。对搬迁社区来说，“留得住人”的关键往往在女性：男性继续外出务工，房子要保、老人要照顾、孩子要上学，能把这一切拴在社区里的，常常是媳妇和母亲。于是政府在与B-Tech谈判时坚持优先雇女性，基地后来还被授予“巾帼车间”称号，优秀女工被推到镜头前讲“在家门口上班”的体面。

镜头外，她们确实努力：主动加班、练习技巧、追求准确率和速度，不“愧对”那份“出人头地”的荣誉。但更关键的是，这套“巾帼叙事”并没有把女性从家庭里解放出来，它常常以温柔的方式把家庭再次绑回工作制度中。比如，设置“4:30课堂”——孩子放学后可以托管到母亲下班。它像一种善意的基础设施，同时也是一种明确的暗示：你可以工作，但你要同时完成母职；你被允许进入数字经济，但前提是你不松开照护。

在照料的道德捆绑之下，是“内疚”的政治经济。很多“妈妈工”年轻时南下打工，错过了孩子的成长。回到家乡后，那种缺席感变成一种补偿：宁愿牺牲休息，也要把孩子留在身边。在我们的访谈里，“可可妈”把这件事说得很具体：她在外七年，回来后下决心“孩子必须自己带”，女儿成绩掉下来，她就去争取早班，把时间挪出来盯教育。

这种内疚感会生成一种特殊的劳动顺从：她们更愿意接受“我少赚一点也没关系”，因为这份工作被她们定义为“离家近、能照顾人”的选择。当基地为了“保住订单”重新分工，把“更香的任务”流向少数高效组时，很多“妈妈工”对被分到“油水更少”的工单往往不公开争辩，她们更容易把差异解释为自己的选择：我得顾孩子，所以我就不抢更难、更赚钱的任务。久而久之，“巾帼英雄”的光环就成了一种润滑剂：它让结构性不平等更容易被吞下去，让“你被放到次要位置”听起来像“你高尚地选择了家庭”。

当算法走到“最后一公里”：地方知识介入管理

在全球语境中讨论AI时，人们常说，自动化最难的不是“起飞”，而是“落地”。机器可以“看见”世界，却很难在复杂、含混、随时变动的现实里稳定运转——它需要有人先把世界整理一遍，把脏乱差的生活折叠成它能吞下去的格式。数据标注就是这“最后一公里”的铺路石：把图像里的“人”“车”“坑洼”框出来；把语音切成词句；把文本分成“攻击性”“中性”“误导性”。AI在屏幕上变得聪明之前，先在这些手指的点击里变得可计算。

但我们在田野里看到的“最后一公里”并不只有“人教机器”这一层，还有另一层更少被写进国际议题里：算法的控制要真正生效，也要走完自己的“最后一公里”——它得进入地方、进入关系、进入具体的生活节奏。而这段路的坎坷，往往要靠地方政府、社区组织以及一系列我们称为“算法补足组织”[4]的组织去磨平。

首先，大厂的标注工作订单量并不稳定。订单像潮水，有波峰，也有波谷。波谷一来，最先松动的是人心：没活、工资不稳，就会有人走。人一走，波峰再来又得重新招、重新训、重新磨合——质量掉、返工涨，保密风险也跟着上来。大厂想要一池“稳定”的劳动力，却又不愿为“稳定”长期买单。

这时候地方政府出手，方式看起来很朴素：用培训和补贴把人留在“可随时上场”的状态。订单稀缺时，基地把工人送去参加就业局组织的培训，内容其实还是标注基础训练；人只要签到参训，就能拿到每天50元的补贴。订单骤降时，基地再去争取与“扶贫车间”相关的各种补贴，让符合条件的工人拿到一定比例的补贴（上限500元）。表面上，这是就业扶持；实际上，它承担着更隐秘的功能：把离职冲动按住，把劳动力池维持在“可用”状态——而维持成本并不完全由企业承担。

“粉店姐姐”就是这套机制最生动的注脚。这位我们田野中的关键报道人不是等着工作的那种人：她有自己的小店，有客源，有一天的流水，可她仍然参加了一轮又一轮标注培训。第一次培训后，她开了粉店，还把培训里认识的人变成了顾客；第二次“进阶培训”时，她甚至关店一周去上课，只为“更新技能、为将来留个机会”。这句话听起来像个人选择，实际上是一种特殊的、结构性的劳动组织状态。我们在论文里把它叫作 benching（板凳队员）：培训把人变成“半黏着”的劳动者——既不完全被雇佣，也不完全脱离基地；人生活在社区里，心却被一条看不见的线牵在基地旁边。对平台/企业而言，这太好用了：培训成本被外部化给地方资源；劳动者通过反复训练提升熟练度，却仍保持可替换性；更重要的是，它让劳动供给能跟上AI开发那种忽高忽低、随时加速又随时刹车的节奏。

如果把这种现象放到国际学术语境里讨论，它其实是一种“数字劳动再嵌入”的新版本：不是把市场重新嵌回传统共同体，而是把平台用工的波动嵌进地方政府的培训指标、项目资金和社区动员能力里——用地方经济来做平台的减震器。

更反直觉的发现出现在管理环节。很多关于数字劳动与算法控制的研究都倾向认为：算法可以形成更精细、准确、无路可退的控制系统。因为它面对的不是活生生的人，而是工号、ID、评分、完成率，所以它的管控也更趋于“冷酷”：惩罚自动发生，分配自动完成，人似乎只能被动接受。

但我们在田野里却反复看到另一种现实：在分工、排班、约束这些最具体的环节上，当地人依据地方性知识做出的“人工优化”，常常比平台的算法优化更有效，也更便宜。

一位大厂负责AI数据管理的项目经理坦白说，他们确实在做“启发式优化算法”来生成分工与管理策略，但那需要“特别多的分析工作、数据和算力”。说白了，就是“要投入特别多的钱”，甚至“几千万元起步”。而后来他们发现，基地经理凭经验做的分工，“比启发式算法准确有效得多，而且还省钱”。因为算法看见的是“ID”和“历史表现”，而基地经理看见的是人：谁家孩子几点放学、谁最近眼睛发炎、谁的婆婆卧床、谁能熬夜但周末必须回村里办事。这样的知识无法被完全量化，却能立刻转化为管理——不是更温情，而是更精准。

于是，在订单高峰期，标注基地会把工人分成不同小组：更“年富力强”、更少家庭负担、效率更高的被分到高效组；被家庭琐事缠身的妈妈们则更多被分到难度相对低的小组。这种分工方式看似合理，但也非常残酷：它把生活负担直接转译成生产位置，把母职与照护再次写进工序表里。平台很难洞察每个人真实的生产潜能，基地经理却能用“对人”的认识来释放效率。

地方知识不仅能帮平台分工，还能帮平台监督，一个很小的例子是打卡。基地嵌在生活社区里，很多工人家离基地不到一公里，打卡程序会误判“已经到达”，工人就能在家里先线上打卡，迟到了平台也发现不了。但经理很快发现了这一漏洞，通过调整程序的距离敏感度将其堵住。这件事很说明问题：技术大厂的算法控制原本有缝，地方知识本可以成为“缝里的空气”，让生活喘一口气；但它也可能成为“缝里的钉子”，把控制钉得更紧。

结语

很多人以为AI的故事发生在云端——算力、模型、参数。可在山谷里，你会发现它更像一条贴地爬行的生产线——每一次点击、每一次返工、每一次为了四点半接孩子冲出机房的脚步，都是它向前挪动的力量。当我们重新把目光放低，才会看清：所谓“智能”，并不只属于机器，它也来自那些最难被看见的人。

[1] Wu T, MULDOON J, XIA B. Global Data Empires: Analysing Artificial Intelligence Data Annotation in China and the USA[J]. Big Data & Society, 2025, 12(2): 20539517251340600.

[2] 格雷, 苏里. 销声匿迹[M]. 左安浦, 译. 上海: 上海人民出版社, 2020; 马尔登, 格雷厄姆, 坎特. 投喂AI[M]. 贾青青, 牟一凡, 译. 北京: 中信出版集团, 2025.

[3] 吴桐雨, 夏冰青. 科技资本与地方发展的纠葛——以G省T市数据标注基地为例[J]. 二十一世纪, 2025, 2: 78-92.

[4] 吴桐雨, 夏冰青. 计算与算计：数据标注劳动中的算法补足组织[J]. 社会学评论, 2023, 11(6): 66-86; XIA B, WU T. The Space-Time Game: Workers with Disabilities in China's AI Data Labeling Industry[J]. New Media & Society, 2025: 14614448251320114.

（原载于《信睿周报》第164期，题图来自《投喂AI》书封）

特别声明：以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布，本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.