网易首页 > 网易号 > 正文 申请入驻

给AI打工的人,迷失在数据标注里

0
分享至

文 | 定焦One,作者 | 陈丹,编辑 | 魏佳

北京798附近的一家咖啡馆内,AI数据标注师廖仔在交谈中一再提到店里的咖啡机器人。

在这家占地近3000平米的咖啡馆内,不少咖啡师围绕着中央圆形岛台工作,但其中最引人瞩目的是一台人型机械臂的咖啡机器人。据说,该机器人的脸还是依据咖啡店主理人建模而成。

如果时间回到三四年前,廖仔想不到机器人可以冲咖啡,也想不到自己会进入AI赛道。

99年出生的他,专科学历,曾在深圳一家体制内单位工作,因为不想自己的人生就这样一辈子看到头,廖仔离职读了一个建筑设计相关的课程。后来,他又由设计师切入AI行业,最终成为了大厂的一名外包数据标注师。职业变化背后,廖仔的收入也水涨船高,月薪从一开始3K一路涨到了现在13K。

处在Gap期的苏打也曾试图进入这个行业。

985硕士毕业的她此前工作一直顺风顺水,但去年因为跟上司发生矛盾离职后,进入了漫长的职业空窗期。近半年来,苏打也想过转换赛道。当下火热的AI行业让她心动,数据标注师曾被她视为职业转型的方向之一。

但经过一次兼职后,苏打打消了这个念头。“这就是一个纯烧脑的体力劳动,看不到任何上升的空间。”她对「定焦One」说道。

作为人工智能训练师的一个工种,数据标注师2020年被正式纳入国家职业分类目录,但围绕这个职业前景的讨论却是冰火两重天。

一边是基础大模型高速扩张时期,大厂高薪与“AI红利”吸引而来的数以万计的求职者,全国各地甚至涌现了不少打着AI训练师旗号的培训班;另一边则是弥漫在从业者之中的不安和焦虑,很多人觉得自己是在为AI打零工,或者只是成为了大模型优化的一个耗材,既难以形成技术积累,也随时可能被AI所取代。

如今,随着大模型开发从“拼底层参数”转向“争场景落地”,这一工种的需求也在发生变化。标注岗位不再像过去那样“批量放量”,取而代之的是更垂直化的需求和更强的专业门槛。转型成功的廖仔,和抽身离开的苏打,正是这股AI浪潮下的两个典型注脚。

“拧螺丝”的三种姿势:数据标注师的隐秘分层

如果想要进入AI行业,数据标注或许是最没有门槛的一个岗位——在网络上随手就能找到一份兼职。

「定焦One」体验了一个众包平台的视频审核兼职项目,任务是为自动售货机做数据标注。正式上岗前,求职者先得进群进行一轮训练——为500条视频进行标注,且正确率在90%以上才算通过考核。正式接单后,以计件形式收费,每单费用在0.04元到0.1元浮动,标错还会扣钱。

每个计件视频长度大概十来秒,需要辨别出顾客从自动售货机中拿走的商品种类以及数量。任务看似简单,做起来却并不容易。很多饮品、零食的包装非常接近,加上夜晚光线干扰,极易误判。「定焦One」尝试标注了20条视频,用时25分钟,完全正确的只有14条。

群里负责培训的老师一再鼓励大家:一开始错误率高是正常的,后面会越来越熟练、正确率越来越高,熟练后每天最多可做3000条视频。

但做过类似兼职的人在社交媒体抱怨:真的做不了太久,眼睛受不了。在那个标记为11群的近200人大群内,不断地有人退出、加入,就像一条永不停歇的虚拟流水线。

苏打也在类似的一个微信群里。

前不久,她在招聘平台看到国内某个大厂发布的数据标注兼职岗位。专业不限、经验不限,唯一的门槛是学历——必须是985/211硕士及以上。

这份兼职是为大模型思考过程和输出结果进行打分。输出结果的正确与否、是否照顾到了用户的情绪、感受,以及思考过程是否符合逻辑且高效等等都需要纳入考量。

苏打通过筛选后,也被拉到了一个微信群。同样的,在正式接单之前,需要先进行培训和测试。

苏打收到了一份长达几十页的文件,详细介绍了各个打分维度和评判标准。根据这个打分体系,她需要先进行两到三轮的试标,达标后才可进行接单。通过测试后,在正式的标注过程中,也需保证正确率。如果正确率低于平均水平,便会失去标注资格,需要重新测试。

据苏打观察,她所在群里测试的通过率并不高。

“这份工作的难点是记忆、理解的成本特别高。在标注之前,你得先理解、记住他们的评价体系和打分标准。”更让苏打难受的是,这些标准并不是固定不变的。有时候,面对相似的问题和回答,她用相同的思考方式去打分,结果却截然相反。

就像是写没有标准答案的一张张试卷,无法通过自我努力或学习提升正确率,只能原地不停得打转、消耗自己的脑力和体力,最后获得的报酬微乎其微。苏打告诉「定焦One」,这份兼职也是按计件收费,标注一件的费用只有3-7元。

比苏打幸运一些,廖仔没有这些严苛的KPI和考核标准。

廖仔参与标注的是国内另外一家互联网大厂的外包项目。他领导着一个由10名标注师组成的小组。项目里,有好几个这样的组别,对该大厂的大模型进行评估、鉴定、指定标注规则。廖仔会对每天需要标注的任务进行分配,再告诉组员具体的规则和评判标准确保客观性。除数据标注之外,他还需跟算法团队、产品研发团队沟通,根据上下游反馈调整模型的评估和鉴定。

廖仔还是以咖啡机器人举例,如果要AI制作咖啡,那么就需告诉它整个链路,包括咖啡树如何种植、咖啡豆有哪些品类、分子结构如何、怎么研磨等等。通过每一步的数据标注,对它进行调校,然后再回归到模型,让它自主训练。

三种数据标注工作可以大致勾勒出这个职业背后的隐形分层:自动售货机标注,考验“体力+注意力”,靠重复和熟练提升效率;为大模型的思考过程和输出结果打分,要求较强的理解力和记忆力,像在答一道道没有标准答案的试卷;大模型评估,则在标注之外承担流程管理和沟通工作,具备一定自主性。

常有人将数据标注比做AI流水线上的“螺丝钉”。在廖仔看来,即便是拧螺丝钉,到他这一步,最起码清楚了用什么工具拧、怎么拧效率会更高。

尴尬的岗位:重要,但是廉价

站在产业链更上游的Jackson,能从更为完整的流水线上审视数据标注的意义。

Jackson是海外一所名校研究生毕业,现在在上海一家科技企业从事基础模型训练工作。他告诉「定焦One」,模型训练主要包含三个部分:预训练、监督微调和强化学习。

预训练所需的数据量动辄十几TB,主要来源于公开爬虫数据、模型合成数据、第三方采购数据或企业自有数据。这一阶段对人工标注的依赖较少。

数据标注师主要介入的,是后两个阶段。

微调阶段(Supervised Fine-Tuning,简称SFT)目标是让预训练后的通用语言模型适应特定任务或对话场景,使其输出更符合人类期望。简而言之,就是输入特定数据后,教会模型“如何回答”。

强化阶段(Reinforcement Learning from Human Feedback,简称RLHF)的核心是利用人类偏好数据优化模型输出质量。

用再通俗一点的话解释,SFT是要写出一个答案让AI学习、模仿;而RLHF则是在AI给出几个答案后,帮助AI选择一个更符合人类偏好的答案。

廖仔大部分的工作都属于前者,很难量化;苏打的工作则是后者,可以计件考核。而像前文提到的自动售货机标注这类较为简单的数据收集工作,将很快被AI替代。

Jackson介绍,在微调和强化阶段都可以使用一些自动化手段,或是使用其他模型生成的数据,但其内容的多元性、正确性以及专业性可能不如人工标注的数据。就像DeepSeek生成的内容一眼就能看出来。

“最好的效果肯定是全部由人工标注,但(AI公司)老板们比起做个完美的模型,更在意成本。能用模型合成一个次优版本,也是可以接受的。”

据Jackson估算,一次完整的微调和强化训练多则需要几十万条数据,而且模型还会更新迭代,数据的需求也会成倍累积。据他观察,目前国内的大模型团队有财力做人工数据标注的只有几家顶级大厂,其他团队大部分都是用别人的模型生成数据。

根据公开资料,字节跳动在AI上的投入仅2024年就达到了800亿,2025年这一数字还要翻番到1600亿。今年2月,阿里巴巴集团CEO吴泳铭宣布,未来三年,阿里将投入超3800亿元用于建设云和AI硬件基础设施。

但即便是这些头部玩家,也必须在各环节精打细算。数据标注作为成本可控的一环,被大厂选择以外包、众包的形式进行,成为常态。

苏打每天兼职的工作量大概在3-4个小时,她计算了一下时薪,也就30-60块之间。苏打说,这三四个小时必须全神贯注,一点水分也挤不出。这样的一个付出和回报,如果不是对这个行业感兴趣真的很难坚持下来。

但苏打所在的微信群每天还在不断进人。“你不干,有的是人肯干,价格自然上不去。”

问题的本质不在于数据标注不重要,而在于这类工作缺乏技术壁垒。大模型的生成、优化是一个非常精细化的过程。每一条数据就好像是布玩偶身上的一个针脚、斑马身上的一根毛发,很难辨析出其对于整体的意义。在这条流水线上,标注师很难积累出个人能力上的“独占优势”,非常容易被替代。

没有壁垒,就难有议价能力。

从招聘网站公开信息来看,兼职数据标注师日薪多在120-500元之间,外包岗位月薪大部分在9-17K之间。几家大厂的正式岗位,月薪则在15-25K之间。相对技术岗和算法岗,这样的薪资水平并不算高。

被自己训练的AI替代:谁能突破金字塔?

因为没有成长性,苏打最终放弃了兼职,也不打算再投任何数据标注相关的岗位。为此,她还专门咨询了一位从事AI数据标注多年的朋友。

这位朋友在大模型爆火之前,便加入了国内的一家大模型团队,后来又跳槽去了另外一家大厂。朝阳行业、高薪岗位,很多人羡慕她踩中了风口,但她劝苏打慎重投递这个岗位。因为数据标注师职业发展空间有限,很难跳进AI产业真正的核心环节。

Jackson也持类似的观点。

他用金字塔形容当前AI从业者的阶梯式分布:塔底是标注,腰部是应用,再往上是做微调和后训练,塔尖才是基础模型设计和预训练。“现在基本上是背景决定一切,很难从塔底一层层向上突破。”

所谓的背景是指学历和学术背景。譬如,很多岗位,学历就是一个硬性门槛。Jackson分析,应用层面需要本科学历,微调和后训练阶段硕士起步,基础模型基本上都是博士。

就拿他所在的算法岗来说,找工作要看学历、实习、比赛、论文若干个维度。AI圈尤其重视学术背景。如果没有过硬的论文,即便是排名还不错的学校毕业,也很难进入大厂的AI团队。

“站在金子塔尖的,大部分是顶级学校的博士,还需要发很多论文的那种。”他总结。

与此同时,标注师们训练出来的模型本身,在悄然和标注师展开竞争。会不会被AI取代,成为悬在标注师们头上的达摩克利斯之剑。

Jackson指出,在一些成熟的文本模型中,模型合成的数据已经替代了80%的人工标注。这背后的逻辑是,模型不强时,对标注的需求就大;标注多了模型能力变强了,AI就会在这个任务或者这个领域把标注师替代了。

在海外的一些高科技企业,这样的情况已经发生。

据彭博社报道,苹果公司于2024年1月关闭了一个与Siri人工智能业务相关的团队。他们原本负责对用户与Siri交互时产生的数据进行监听分析、标注和理解用户需求。同样因为自动标注能力大幅改善,2022年6月,特斯拉裁撤了200名为其标注视频以改进辅助系统的美国员工。

另一方面,大厂战略的变化,也影响着数据标注师的职业前景。

2023年初,基础大模型是所有科技巨头竞相投入的战场,百度、字节、阿里、腾讯等大厂商高调押注自研大模型,数据标注一度成为不可或缺的基础岗位。

但进入2024年,这场竞赛明显降温。多家大厂陆续调整重心,开始从“造更大参数的模型”,转向“让模型真正落地”。

这一转向,也直接影响到数据标注这一基础工种的岗位供给与预算安排。于是,用于支持基础大模型训练的数据标注需求可能被压缩。未来企业需要的将不再是成千上万“能标数据的人”,而是“懂业务、懂模型的人”。

当然,需求并未完全消失。一方面,Jackson解释,随着AI技术的发展、大模型进一步落地将会产生大量的应用场景。每当有新的场景出现,就需要找人标注数据。数据标注的需求仍将长期、大量存在。另一方面,根据清华大学发布的《智能数据产业发展观察报告》,2024年数据标注产业有用工需求的企业从2023年的457家升至1195家。另据IDC数据测算,2025年中国人工智能基础数据服务市场规模将突破120亿元,2019-2025年年均复合增长率(CAGR)约为47%。

只不过,这些增长更多属于“横向增量”——也就是新场景带来的数据标注需求扩容,而非“标注师”作为工种本身的上升通道被打开。对绝大多数从业者而言,他们所做的,依然是为流水线打工。

已经被AI“抢”过一次饭碗的廖仔对自己的职业未来充满信心。

在来北京之前,廖仔在上海的一家设计公司做了两年设计师。那时候,AI对于设计行业的冲击已经开始,廖仔所在的公司也不得不向AI转型,决定做一个客服类大模型。他主动请缨参与其中,这个AI项目为他打开了新世界大门。

后来,他从公司离职,对AI进行了更为系统的学习。今年春节后,他入职了现在的公司。每天下班不管多晚,廖仔都会学习两个小时AI相关的内容,他还开了一个小红书账号“炸毛疯兔”,记录AI心得。

“凡事发生,皆有利于我。”在交流时,廖仔一再引用这句古语。

咖啡店的工作人员时不时会送来一些新品试吃,服务细致妥帖。而引人注目的咖啡机器人一下午并没有冲调一杯咖啡。最起码现阶段,机器人对这家咖啡馆而言,更多是一个装饰品。尽管未来不可控,但人的主动性始终是关键。

*文中廖仔、苏打、Jackson皆为化名。

特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相关推荐
热点推荐
最后一次冬奥短节目滑行,“葱桶组合”没有泪水只有从容

最后一次冬奥短节目滑行,“葱桶组合”没有泪水只有从容

澎湃新闻
2026-02-16 11:40:08
国家终于出手了!不仅是李梓萌被牵连,就连全红婵张文宏也没逃过

国家终于出手了!不仅是李梓萌被牵连,就连全红婵张文宏也没逃过

巧手晓厨娘
2025-12-26 21:34:40
周深忘词引爆热搜?天花板没提词器,3秒救场封神!

周深忘词引爆热搜?天花板没提词器,3秒救场封神!

新金牌娱乐观察家
2026-02-12 09:25:34
中国科学家发现黄铁矿能炼出黄金,简单来说就是:黄金可以长出来

中国科学家发现黄铁矿能炼出黄金,简单来说就是:黄金可以长出来

暮雨咋歇着
2026-02-16 13:16:15
与王毅会晤后,鲁比奥态度大变,提起中国,他给盟友了交一个任务

与王毅会晤后,鲁比奥态度大变,提起中国,他给盟友了交一个任务

观星赏月
2026-02-16 23:34:54
巴基斯坦空军透露对印空战细节:原来真的没有投入东大造预警机!

巴基斯坦空军透露对印空战细节:原来真的没有投入东大造预警机!

阿龙聊军事
2026-02-14 12:02:08
霸气,马刺队维克托·文班亚马不屑成为“NBA门面”

霸气,马刺队维克托·文班亚马不屑成为“NBA门面”

好火子
2026-02-17 00:00:21
发现没?凡是男人带女人出去玩,女的都会穿裙子,你知道为什么吗

发现没?凡是男人带女人出去玩,女的都会穿裙子,你知道为什么吗

老好人的愤怒
2026-01-15 18:52:47
生姜立大功?美国研究发现:生姜可在48小时内清除50%老化细胞?

生姜立大功?美国研究发现:生姜可在48小时内清除50%老化细胞?

39健康网
2026-02-11 09:11:33
都体丨拒绝沙特1000万年薪,他接近续约

都体丨拒绝沙特1000万年薪,他接近续约

米兰圈
2026-02-16 08:50:18
seedance2.0太恐怖了,随手生成电影级别短片,业内人士惊呼:我们完蛋了

seedance2.0太恐怖了,随手生成电影级别短片,业内人士惊呼:我们完蛋了

风向观察
2026-02-15 22:35:48
一场追思会,戳穿翁帆沉默两个月真相,原来杨振宁生前真的没说错

一场追思会,戳穿翁帆沉默两个月真相,原来杨振宁生前真的没说错

来科点谱
2025-12-15 09:06:33
韩媒:中国U17可派出两套阵容征战亚洲杯 他们有进世少赛

韩媒:中国U17可派出两套阵容征战亚洲杯 他们有进世少赛

林子说事
2026-02-16 22:16:33
十余款六座SUV扎堆 3-4月密集上市 谁击穿价格天花板?

十余款六座SUV扎堆 3-4月密集上市 谁击穿价格天花板?

刘哥谈体育
2026-02-16 22:26:05
Meta推出Manus Agents 将AI代理功能带入即时通讯应用

Meta推出Manus Agents 将AI代理功能带入即时通讯应用

cnBeta.COM
2026-02-17 01:41:05
被成龙称为顶级美人,62岁高龄,220斤体重,却依旧美得不可方物

被成龙称为顶级美人,62岁高龄,220斤体重,却依旧美得不可方物

观察鉴娱
2026-02-09 10:40:07
24岁神锋有望加盟!利物浦被当成冤大头?纽卡要价9500万镑

24岁神锋有望加盟!利物浦被当成冤大头?纽卡要价9500万镑

锐评利物浦
2026-02-16 22:51:07
尼日尔正式向法国宣战,局势紧张升级!

尼日尔正式向法国宣战,局势紧张升级!

乐天派WMQ
2026-02-13 00:46:02
吴艳妮穿紧身三角裤太窄被批“露骨”,到底碍了谁的眼?

吴艳妮穿紧身三角裤太窄被批“露骨”,到底碍了谁的眼?

傲娇的马甲线
2025-09-17 18:06:44
日本小哥晒花350日元就能吃到白饭配汤,感恩生在日本!网友:吃点好的吧…

日本小哥晒花350日元就能吃到白饭配汤,感恩生在日本!网友:吃点好的吧…

东京新青年
2026-02-16 17:05:29
2026-02-17 02:28:49
钛媒体APP incentive-icons
钛媒体APP
独立财经科技媒体
129668文章数 861776关注度
往期回顾 全部

科技要闻

阿里除夕发布千问3.5,性能媲美Gemini 3

头条要闻

日方宣称向中方提出交涉 中使馆驳斥

头条要闻

日方宣称向中方提出交涉 中使馆驳斥

体育要闻

全明星正赛美国星辰队夺冠 爱德华兹MVP

娱乐要闻

王菲六登春晚献唱 水滴钻石耳环再出圈

财经要闻

2025,中国商业十大意外,黄金只排第九

汽车要闻

叫停纯屏操作 工信部拟推车内实体操作件强制国标

态度原创

艺术
时尚
游戏
旅游
军事航空

艺术要闻

名家笔下话过年,别有风味!

记录最近收获很大的一次深度链接

索尼又背刺PS5Pro用户?独占《战神》新作不支持强化

旅游要闻

巨型“彩马”驰骋上海夜空 上千架无人机浪漫烟花交相辉映

军事要闻

慕安会美国角色逆转 中国议题"打满全场"

无障碍浏览 进入关怀版