网易首页 > 网易号 > 正文 申请入驻

没个985,数据标注员的工作都找不到了?

0
分享至

在阅读正文前,先考你三个问题,回答出第三个,将会受到硅基君的膜拜。

Q1:把图片中的猫框选出来

你:这还不简单?

Q2:下面的表情包展现的态度是积极的还是消极的?

你:有点难度,但我可是十级上网冲浪选手!

Q3:把下列图片中有病的地方圈出来,并标明出现了什么问题。

你:???

从非常简单,到汗流浃背,这三个问题展现了数据标注行业,在如今的变化,从是个人就能做,到专业性越来越强。

夸张点说,不是专业对口的985,未来连数据标注都做不了。

前不久,Scale AI创始人表示了类似的观点:“我们需要最优秀和最聪明的头脑来贡献数据。”

Scale AI是一家估值138亿美元的数据标注公司,估值都快赶上马斯克的x.ai了。它们的主要的工作就是给OpenAI、Meta、谷歌等公司提供训练AI的数据,被称为大模型公司的弹药库。

从实际行动上来看,Scale AI也的确在“开除”低学历人群。据Rest of World的报道,Scale AI关闭了肯尼亚、尼日利亚和巴基斯坦的承包商站点。

公司的招聘重点转向美国本土,招募高知人士,来帮助标注训练大模型的专业知识。

在传统语境下,数据工人不就应该选非洲、亚洲的廉价劳动力,怎么现在还需要高知人士了?

这其实就是因为随着大模型的不断进化,所需要的数据质量水涨船高,而事实上,数据标注已经分化成了两种完全不同的行业。

首先我们要区分一下,简单数据标注和复杂数据标注有什么不同。

下图是简单数据标注的几种方式,先感受一下。

简单的数据标注也就是我们更为熟悉的“把猫框出来”、“把脸部轮廓线描出来”。

用专业点的话来表述就是:针对语音、图像、文本等通过做标记、框对象、做注释等方式对数据集作出标注,再将这些数据集喂给机器训练和学习。

这类数据标注任务的特点就是,简单但量大,和在流水线上打螺丝类似,是个劳动密集型产业,是个正常人就能做。

比较知名较为简单的数据标注就是,李飞飞开发的ImageNet。在2009年推出时,是人工智能史上最大的数据集,包含1500万张图像,涉及22000个类别。

下图就是一个ImageNet数据标注案例,比如图片中的泰迪熊框出来,并标注上Teddy Bear。

李飞飞的项目借助了亚马逊的mechanical turk平台,众包了来自167个国家的4万9千名工作者,从近10亿张候选图片中筛选出符合条件的数据。

如今类似的数据标注的众包网站,需求很大,像行人轨迹采集,经久不衰的宠物图片采集,人像分析,眼球采集等。

从招聘jd上来看,只需要有基础的计算机操作能力,经过简单培训,人人都可以上手。

而随着技术进步,人们对于AI的要求越来越高,AI可执行的任务也变得复杂,因此AI对于数据的要求也变得复杂。

简单来说,是从简单的“框出某个东西”,变成了给某个数据写一串具体的描述。

举个例子,以前的AI只需要判断一张图片中的动物是不是猫,这个手写数字是1还是2,往往只需要学习二维数据。

而如今AI不光要学习光谱、热成像等数据,还要在专业场景下用术语进行准确描述。就像文章开头那个X光片,没有专业知识如何分辨不同病状?

同时,以ChatGPT为代表的生成式人工智能,还需要AI学会带有逻辑的编程工作,这时,我们就需要投喂AI带有“关系”的数据。

简单来说,简单的数据标注工作只需要告诉机器“1是1,2是2”,但复杂的数据标注工作,要告诉机器“1+1=2”。

具体来说,ChatGPT为代表的大模型所需要的数据标注,可以基于训练过程分为预训练、监督微调、人类反馈三个阶段。

阿里研究院《2024大模型训练数据白皮书》

第一阶段预训练,数据相对简单,用到的就是一些网页、书籍等,OpenAI、谷歌等公司陷入的侵权官司涉及的数据,也主要用在预训练中。

虽然预训练用到的数据很多,但大多未经过滤,存在很多暴力、反话、脏话等“垃圾信息”,此时的预训练模型有一定的逻辑,但回答的内容效果往往不佳。

比如你问预训练大模型,“张三偷税漏税该怎么处罚”,大模型原本应该根据法律条文进行回答,但预训练大模型可能直接使用罗翔讲的段子。

这时候就需要人类(数据标注员)的介入,也就是第二、三阶段。

第二阶段微调,数据标注员会设计问答,编写正确答案,将题目喂给模型让模型学习。

这一阶段,虽然问题形式内容看起来都不难,但真正操作起来需要有一定经验。针对不同功能/形式的大模型就需要不同的微调数据集,如何快速找到/维护合适的数据,如何处理大量数据都有技术要求。

而如果你要做一个垂类行业大模型,微调数据就要更加专业。

同样拿法律大模型为例,Gtihub上有一个LexiLaw - 中文法律大模型项目,项目中的微调数据如下。不说有多难,但起码要是法律科班出生吧,还要懂一点大模型的技术。

第三阶段人类反馈,训练目标是让模型的价值观与人类对齐,需要人类对模型的回答进行打分、排序,让模型知道什么才是好答案。

比如,大模型会针对“人工智能有什么用”这个问题,给出四个答案,数据标注员就需要对这个四个答案的好坏排个序。有时候,针对“张三偷税漏税该怎么处罚”这类专业问题,还需要做进一步的事实核实。

与“把猫框出来”这种有标准答案的数据标注不同,大模型的数据标注没有标准答案,更像是阅读理解。在数据标注员拿不定答案时,就得向知识储备的数据标注员求助。

如果是行业大模型的数据标注员,在微调/反馈阶段还需要具备行业知识,比如训练法律大模型就需要法律知识,微调古诗词大模型还需要具备文学素养,评价上海话大模型的回答就需要会上海话。

这也就是为什么,随着大模型向着能力越来越强的AGI,专业的垂类模型发展,对数据的要求越来越高,导致数据标注需要高学历高素质人才。

大模型时代的数据标注行业也从劳动密集型转变成知识密集型。

面对数据标注员要求不一的情况,科技公司也采取了不同措施。

比如,OpenAI的前期数据标注员大多在肯尼亚,主要工作是帮大模型过滤掉“有害”内容,标注员月薪在200到300美元之间。

但涉及模型微调的时候,就真是一群名校毕业的博士生上了。

不信,你试试给下面这个甲骨文打标注?

微软亚洲研究院甲骨文校重助手Diviner

全文完。

作者:董道力

编辑:张泽一

视觉设计:疏睿

责任编辑:张泽一

关于「新硅NewGeek」:我们以AI为圆心,追踪科技领域的方方面面,努力用最简单的方式阐述技术是如何改变世界。敬请关注。

特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相关推荐
热点推荐
七一勋章算什么级别?含金量多少?

七一勋章算什么级别?含金量多少?

匹夫来搞笑
2026-07-01 17:18:55
京圈大佬集体全哑火,3 部大片累计亏超 5 亿,观众凭啥买单?

京圈大佬集体全哑火,3 部大片累计亏超 5 亿,观众凭啥买单?

知法而形
2026-07-01 23:22:31
小区废弃角落突然长满番茄,发生了什么?

小区废弃角落突然长满番茄,发生了什么?

宇宙来信2
2026-07-01 13:18:33
笑死!日本46岁女子遇印度男子爱情杀猪盘,得到永居权后却被分手

笑死!日本46岁女子遇印度男子爱情杀猪盘,得到永居权后却被分手

小徐讲八卦
2026-07-02 06:01:52
达成了!76人轰动大交易!曝下一步签约詹姆斯

达成了!76人轰动大交易!曝下一步签约詹姆斯

篮球实战宝典
2026-07-02 10:52:16
陕西省妇女书画协会原主席、著名女画家张臻逝世

陕西省妇女书画协会原主席、著名女画家张臻逝世

大风新闻
2026-07-02 09:48:02
凯恩11分钟双响!爆射世界波,超越贝利追平方丹,连刷7大纪录

凯恩11分钟双响!爆射世界波,超越贝利追平方丹,连刷7大纪录

奥拜尔
2026-07-02 01:55:44
1换5交易!布朗换乔治,凯尔特人到底图啥?

1换5交易!布朗换乔治,凯尔特人到底图啥?

篮球实录
2026-07-02 14:16:45
拉姆:德国队不知道想踢什么样的足球,我原本还期待对阵法国

拉姆:德国队不知道想踢什么样的足球,我原本还期待对阵法国

懂球帝
2026-07-02 12:40:08
CCTV直播!男单世界冠军出局!王楚钦回应3-0!孙颖莎双线作战!国乒7月2日赛程出炉

CCTV直播!男单世界冠军出局!王楚钦回应3-0!孙颖莎双线作战!国乒7月2日赛程出炉

好乒乓
2026-07-01 17:12:48
外媒:情报显示俄军准备发动大规模袭击,泽连斯基紧急中断出访返回基辅

外媒:情报显示俄军准备发动大规模袭击,泽连斯基紧急中断出访返回基辅

环球网资讯
2026-07-02 13:22:43
A股:股民系好安全带,大主力明牌了,明天将迎来更大级别变盘?

A股:股民系好安全带,大主力明牌了,明天将迎来更大级别变盘?

云鹏叙事
2026-07-02 00:00:05
世界杯刚出线!佛得角转头就把公务车全换成了比亚迪

世界杯刚出线!佛得角转头就把公务车全换成了比亚迪

快科技
2026-07-01 19:20:05
3-0横扫!赢球不可怕,可怕的是孙颖莎赛后这番话,低调且自信!

3-0横扫!赢球不可怕,可怕的是孙颖莎赛后这番话,低调且自信!

田先生篮球
2026-07-02 11:58:37
花8000雇退伍军人当男友,回家被亲戚嫌弃,当团长的大伯见他敬礼

花8000雇退伍军人当男友,回家被亲戚嫌弃,当团长的大伯见他敬礼

小月故事
2026-06-29 20:13:07
原来他们早已离婚,一个在上海独自养娃,一个在西班牙向名媛求婚

原来他们早已离婚,一个在上海独自养娃,一个在西班牙向名媛求婚

荣亭小吏
2026-06-30 10:52:03
放下薪资执念!Shams爆料:詹姆斯愿意自降身价,可以接受底薪加盟冲冠球队!

放下薪资执念!Shams爆料:詹姆斯愿意自降身价,可以接受底薪加盟冲冠球队!

顺静自然
2026-07-02 00:49:29
詹姆斯结束8年湖人队生涯,潜在下家曝光;美国体育评论员:他离开不是因为钱,而是感到不被尊重

詹姆斯结束8年湖人队生涯,潜在下家曝光;美国体育评论员:他离开不是因为钱,而是感到不被尊重

鲁中晨报
2026-07-01 14:30:03
高市早苗支持率68%,创下20多年纪录,对中日关系有4点思考

高市早苗支持率68%,创下20多年纪录,对中日关系有4点思考

共工之锚
2026-07-01 00:38:09
李春平百亿好莱坞遗产传闻败露,卷入零二年承德特大文物盗窃大案

李春平百亿好莱坞遗产传闻败露,卷入零二年承德特大文物盗窃大案

磊子讲史
2026-06-30 11:54:08
2026-07-02 15:24:49
新硅NewGeek incentive-icons
新硅NewGeek
专注AI、机器人、芯片领域的深度研究
191文章数 35关注度
往期回顾 全部

科技要闻

奥特曼的新算盘:给白宫5%股权 换政策绿灯

头条要闻

中国超级计算机时隔9年重回世界第一 中方亮出底牌

头条要闻

中国超级计算机时隔9年重回世界第一 中方亮出底牌

体育要闻

世界杯硬核球迷,把自己变成了雕像

娱乐要闻

霍震霆回应霍启山娜然结婚传闻

财经要闻

千亿茶市场无赢家:澜沧巨亏 八马停"蹄"

汽车要闻

小鹏MONA L03 智能化水平拉满 还有玩法多样的巧思大空间

态度原创

时尚
艺术
本地
数码
房产

月入3万,时代红利砸向文科生

艺术要闻

光辉历程 时代丹青——庆祝中国共产党成立105周年美展 油画选

本地新闻

这场穿越酉阳的光影之旅,张张都是壁纸!

数码要闻

红魔游戏平板5 PRO评测:RGB水冷灯效 把旗舰游戏体验揣进口袋

房产要闻

海口安居房,重大利好来了!

无障碍浏览 进入关怀版