网易首页 > 网易号 > 正文 申请入驻

AI训练数据耗尽,这家数据标注公司为何暴涨?丨氪金·硬科技

0
分享至

作者 |耿宸斐

编辑 |宋婉心

“数据标注”是伴随AI进程诞生的重要的产业链一环。尤其在大模型问世后,数据标注行业规模极速扩张,但随着大模型迭代,作为劳动密集型行业,数据标注又不断被市场重估。

美股市场的头部数据标注公司Innodata是这一过程的一个典型缩影。

近一年以来,Innodata股价涨幅高达432%。最新财报显示,2024全年Innodata营收同比大涨96.44%,且8家大客户中,有5家来自美股七巨头。

不过稳健的基本面挡不住市场预期的调整。DeepSeek发布后,市场对用于训练的公开数据的需求开始产生怀疑,Innodata股价因此产生波动,尤其在三月,公司股价下跌了超30%。

对于这家公司,目前市场声音分歧较大。

看空者认为在过去十年中,Innodata仅盈利了两次,因此股价飙升是没有道理的,而看多者则认为,因为大模型现在的情况已经不同,Innodata已将业务模式转向了大模型的数据清理。

01 价值重估

数据标注行业的第一次高光时刻,是来自自动驾驶的发展。在大模型出现之前,德勤报告显示,2022年自动驾驶领域的标注需求占整个AI下游应用的38%。

而大模型对数据标注的需求提升到了另一个量级。

“如果不是大模型出现,就算是干成自动驾驶行业数据标注龙头的Scale AI,在2023年之前,其年收入也就1亿至2亿美金。而到了2024年,Scale AI全年的ARR预计在12-14亿美金,比2022年翻了7倍左右。”有投资者表示。

大模型行业的Scaling Law理论认为,模型性能与模型参数量、训练数据量和计算资源相关。以GPT-4为例,其参数量从GPT-3的约1750亿提升至约1.8万亿,而训练数据集的规模也从GPT-3的几千亿Token扩大到13万亿Token。

业务集中在数据工程领域的Innodata,吃到了大模型卖铲人的大量红利。

最新财报显示,Innodata的最大客户授予该公司价值约2400万美元的额外合同,使来自该客户的总年化运营收入达到约1.35亿美元。

除了该最大客户之外,来自Innodata的另外七家大型科技公司客户的收入,在第四季度环比增长了159%。

从近期业绩看,Innodata的收入增长明显加速。2024年一至四季度,该公司营收的同比增速分别为40.7%、65.6%、135.6%和126.6%。而且Innodata预计,2025年公司收入增长将超过40%。

不过,如今大模型行业扩张期过去之后,数据标注行业的矛盾已经开始浮现——即将耗尽的数据难以支撑模型迭代与与大模型落地等所带来的训练需求。

Epoch AI的研究估计,自2020年以来,用于训练大语言模型的数据增长了100倍,且AI训练数据集的规模每年翻倍。然而,互联网可用内容每年的增长却不足10%。到2028年,AI训练数据很可能耗尽。

事实上,数据不足所造成的发展瓶颈已经是行业中的普遍现象。去年11月,The Information爆料称,OpenAI下一代旗舰模型Orion改进大幅放缓,一个主要原因正是高质量训练数据的短缺。

行业共识是,目前通用数据的供给已接近饱和,垂类数据将是未来AI模型差异化的关键。

02 DeepSeek淘汰数据标注?

作为美股市场上仅有的AI数据标注标的,Innodata的“AI含量”至今仍饱受质疑。

早在2019年,Innodata就宣称自己开始实施人工智能和机器学习流程,并将自己划为一家人工智能公司。但去年2月, Wolfpack Research发布的一份报告称,Innodata是在拿AI炒作股价,其核心业务仍是依靠海外廉价劳动力进行基础数据标注,而非自主研发的AI技术。

报告引用前员工说法,称公司为硅谷客户提供的服务本质是“键盘劳动”。

“Innodata的商业模式上就是基于人力外包的数据标注,赚一份血汗钱。和同业的差异只是他们干得最久,做得最大。”有投资者评价,“技术只能让数据标注更快,要让数据标注更好,现在只能靠人。

据智研咨询报告,尽管已经有数据标注公司开发了相应的半自动化工具,但从标注比例来看,机器标注和人工标注的比例约为3:7。

Innodata的财报数据也侧面印证了这一现实。仅在2024年第二季度,Innodata就花费了360万美元的招聘代理费,这表明公司仍旧非常依赖人力。

业内人士告诉36氪,这主要是由于数据标注的复杂性和多样性,以及不同领域的数据标注要求不同。此外,自动化标注技术在现阶段还存在一定的局限性,如对某些类型的数据的识别准确率不高、对复杂场景的处理能力有限等。

但DeepSeek一定程度上改写了数据需求的逻辑。

技术层面来看,简单而言,DeepSeek采用的强化学习(RL)技术,让大模型不再需要被不断喂养模型外的新数据,只用模型内已存在的数据即可进行自我训练。

这一方面降低了大模型厂商对数据量的需求,另一方面,全联并购工会信用管理委员会专家安光勇认为,企业出于开源节流的考虑,有可能会倾向于低成本合成数据。这也会在一定程度上冲击Innodata等数据标注企业。

关于DeepSeek冲击的质疑,财报电话会上,Innodata管理层表示,他们相信,预训练数据和微调数据对AGI发展而言是无法替代的。

在他们看来,DeepSeek依赖以现有模型数据训练新模型,会极大地压缩数据,最终导致模型崩溃。

从市场质疑声音来看,Innodata可持续增长的不确定性来源于两点,一是数据标注需求是否持续增长,二是标注工作是否持续低自动化。

针对前者,科技部国家科技专家周迪告诉36氪,合成数据的适用边界在于它更适合于生成新的、用于训练模型的数据,而人工标注则更适合对已有数据进行深入的理解和解读。

尽管合成数据可以提供更加一致和可控的数据,但在情感分析和文本生成等需要深度语义理解的领域,人工标注数据仍具有不可替代性。

另有投资者分析指出,随着DeepSeek带来的模型部署和运行的成本大幅降低,会有越来越多应用层的公司部署自己的大模型,这也会带来额外的数据标注的需求。所以DeepSeek的出现对Innodata至少不会是一个利空。

但针对后者,这一问题沦为了“鸡生蛋还是蛋生鸡”的悖论。当市场投资者们质疑Innodata“AI含量”低时,一个可能性很大的未来是,数据标注工作的AI化会首先革掉数据标注公司自己的命。

关注获取更多资讯

特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相关推荐
热点推荐
“网约车电车晕车的原因”引热议,网友:原来不是我的体质差

“网约车电车晕车的原因”引热议,网友:原来不是我的体质差

中国日报
2026-03-10 20:24:55
王诗龄这会儿估计也挺闹心的,李湘自己没料到,孩子怕是也想不通

王诗龄这会儿估计也挺闹心的,李湘自己没料到,孩子怕是也想不通

小光侃娱乐
2026-01-25 14:45:03
脑机接口,重大利好!

脑机接口,重大利好!

赛柏蓝
2026-03-11 19:34:40
【2026.3.11】爆姐的饭后爆料:生命不止,爆料不息!

【2026.3.11】爆姐的饭后爆料:生命不止,爆料不息!

娱乐真爆姐
2026-03-11 23:23:48
伊朗危机如何收场?

伊朗危机如何收场?

中国青年报
2026-03-11 17:15:06
特朗普人还没到,先改访华规格,中方已得到消息:美国要弯道超车

特朗普人还没到,先改访华规格,中方已得到消息:美国要弯道超车

牛锅巴小钒
2026-03-11 18:04:31
不装了!英媒自曝:伊朗战争撕碎同盟,美国已正式决定放弃欧洲

不装了!英媒自曝:伊朗战争撕碎同盟,美国已正式决定放弃欧洲

寂寞染指悲伤
2026-03-10 23:08:01
3月12日精选热点:太空光伏再次出史诗级利好  这些龙头率先上涨

3月12日精选热点:太空光伏再次出史诗级利好 这些龙头率先上涨

元芳说投资
2026-03-11 21:14:25
林肯号真中弹了:福特号开战一周还在打酱油,现在突然前出补位

林肯号真中弹了:福特号开战一周还在打酱油,现在突然前出补位

军武次位面
2026-03-11 12:03:37
千人排队领养的“赛博龙虾”,为何成了Token收割机?

千人排队领养的“赛博龙虾”,为何成了Token收割机?

观察者网
2026-03-11 17:50:17
快讯!伊朗伊斯兰革命卫队,重大宣布

快讯!伊朗伊斯兰革命卫队,重大宣布

南权先生
2026-03-11 15:45:20
深圳上线“政务龙虾”,却被发现政务系统还在用IE浏览器,网友担心信息遭泄露

深圳上线“政务龙虾”,却被发现政务系统还在用IE浏览器,网友担心信息遭泄露

小萝卜丝
2026-03-10 17:33:28
乌军425团横扫库皮扬斯克核心据点,俄军残部尽数覆灭

乌军425团横扫库皮扬斯克核心据点,俄军残部尽数覆灭

老马拉车莫少装
2026-03-08 13:59:40
怪不得特朗普着急停火,美国出现了致命问题,只有找中国帮忙解决

怪不得特朗普着急停火,美国出现了致命问题,只有找中国帮忙解决

一杯浓茶
2026-03-11 18:17:27
“小命不保了还在炫耀”,无知家长晒00后毛娘女儿:收入比她爸高

“小命不保了还在炫耀”,无知家长晒00后毛娘女儿:收入比她爸高

妍妍教育日记
2026-02-26 20:15:22
马斯克宣布X Money四月公测

马斯克宣布X Money四月公测

财闻
2026-03-10 23:34:18
新外援4记三分,辽宁男篮逆转深圳 赵继伟关键球果断 莫兰德21+13

新外援4记三分,辽宁男篮逆转深圳 赵继伟关键球果断 莫兰德21+13

替补席看球
2026-03-11 21:29:40
2026年中央一号文件:乡村学校的留与变

2026年中央一号文件:乡村学校的留与变

糖逗在娱乐
2026-03-11 14:19:41
原来睡眠差的根源,是肝血太少!建议常吃这8样,补足肝血

原来睡眠差的根源,是肝血太少!建议常吃这8样,补足肝血

美食店主
2026-03-01 00:31:53
浙江广厦男篮有新变化,卫冕路上再添“强援”

浙江广厦男篮有新变化,卫冕路上再添“强援”

都市快报橙柿互动
2026-03-11 16:53:03
2026-03-12 04:31:00
36氪 incentive-icons
36氪
让一部分人先看到未来
150820文章数 2848368关注度
往期回顾 全部

科技要闻

腾讯"养虾"暴涨后,百度急得在门口"装虾"

头条要闻

特朗普再次威胁将切断与西班牙贸易往来:非常糟糕

头条要闻

特朗普再次威胁将切断与西班牙贸易往来:非常糟糕

体育要闻

郭艾伦重伤,CBA下半赛季还能期待些什么

娱乐要闻

蔡少芬晒全家福照,两女儿成最大亮点

财经要闻

唤醒10万亿存量资金 公积金改革大潮来了

汽车要闻

莲花纠偏, 冯擎峰的“收”与“守”

态度原创

本地
艺术
旅游
房产
公开课

本地新闻

这档韩国玄学综艺,让多少人看得头皮发麻

艺术要闻

砸10亿,张家界奇观建筑,空中有一个巨型“门洞”

旅游要闻

昆明呈贡第十四届“万溪梨花节”将于3月13日启幕

房产要闻

最低杀到7800元/㎡!海口2026第一波房价大调整来了!

公开课

李玫瑾:为什么性格比能力更重要?

无障碍浏览 进入关怀版