网易首页 > 网易号 > 正文 申请入驻

AI训练数据耗尽,这家数据标注公司为何暴涨?丨氪金·硬科技

0
分享至

作者 |耿宸斐

编辑|宋婉心

封面来源|视觉中国

“数据标注”是伴随AI进程诞生的重要的产业链一环。尤其在大模型问世后,数据标注行业规模极速扩张,但随着大模型迭代,作为劳动密集型行业,数据标注又不断被市场重估。

美股市场的头部数据标注公司Innodata是这一过程的一个典型缩影。

近一年以来,Innodata股价涨幅高达432%。最新财报显示,2024全年Innodata营收同比大涨96.44%,且8家大客户中,有5家来自美股七巨头。

不过稳健的基本面挡不住市场预期的调整。DeepSeek发布后,市场对用于训练的公开数据的需求开始产生怀疑,Innodata股价因此产生波动,尤其在三月,公司股价下跌了超30%。

对于这家公司,目前市场声音分歧较大。

看空者认为在过去十年中,Innodata仅盈利了两次,因此股价飙升是没有道理的,而看多者则认为,因为大模型现在的情况已经不同,Innodata已将业务模式转向了大模型的数据清理。

价值重估

数据标注行业的第一次高光时刻,是来自自动驾驶的发展。在大模型出现之前,德勤报告显示,2022年自动驾驶领域的标注需求占整个AI下游应用的38%。

而大模型对数据标注的需求提升到了另一个量级。

“如果不是大模型出现,就算是干成自动驾驶行业数据标注龙头的Scale AI,在2023年之前,其年收入也就1亿至2亿美金。而到了2024年,Scale AI全年的ARR预计在12-14亿美金,比2022年翻了7倍左右。”有投资者表示。

大模型行业的Scaling Law理论认为,模型性能与模型参数量、训练数据量和计算资源相关。以GPT-4为例,其参数量从GPT-3的约1750亿提升至约1.8万亿,而训练数据集的规模也从GPT-3的几千亿Token扩大到13万亿Token。

业务集中在数据工程领域的Innodata,吃到了大模型卖铲人的大量红利。

最新财报显示,Innodata的最大客户授予该公司价值约2400万美元的额外合同,使来自该客户的总年化运营收入达到约1.35亿美元。

除了该最大客户之外,来自Innodata的另外七家大型科技公司客户的收入,在第四季度环比增长了159%。

从近期业绩看,Innodata的收入增长明显加速。2024年一至四季度,该公司营收的同比增速分别为40.7%、65.6%、135.6%和126.6%。而且Innodata预计,2025年公司收入增长将超过40%。

不过,如今大模型行业扩张期过去之后,数据标注行业的矛盾已经开始浮现——即将耗尽的数据难以支撑模型迭代与与大模型落地等所带来的训练需求。

Epoch AI的研究估计,自2020年以来,用于训练大语言模型的数据增长了100倍,且AI训练数据集的规模每年翻倍。然而,互联网可用内容每年的增长却不足10%。到2028年,AI训练数据很可能耗尽。

事实上,数据不足所造成的发展瓶颈已经是行业中的普遍现象。去年11月,The Information爆料称,OpenAI下一代旗舰模型Orion改进大幅放缓,一个主要原因正是高质量训练数据的短缺。

行业共识是,目前通用数据的供给已接近饱和,垂类数据将是未来AI模型差异化的关键。

DeepSeek淘汰数据标注?

作为美股市场上仅有的AI数据标注标的,Innodata的“AI含量”至今仍饱受质疑。

早在2019年,Innodata就宣称自己开始实施人工智能和机器学习流程,并将自己划为一家人工智能公司。但去年2月, Wolfpack Research发布的一份报告称,Innodata是在拿AI炒作股价,其核心业务仍是依靠海外廉价劳动力进行基础数据标注,而非自主研发的AI技术。

报告引用前员工说法,称公司为硅谷客户提供的服务本质是“键盘劳动”。

“Innodata的商业模式上就是基于人力外包的数据标注,赚一份血汗钱。和同业的差异只是他们干得最久,做得最大。”有投资者评价,“技术只能让数据标注更快,要让数据标注更好,现在只能靠人。

据智研咨询报告,尽管已经有数据标注公司开发了相应的半自动化工具,但从标注比例来看,机器标注和人工标注的比例约为3:7。

Innodata的财报数据也侧面印证了这一现实。仅在2024年第二季度,Innodata就花费了360万美元的招聘代理费,这表明公司仍旧非常依赖人力。

业内人士告诉36氪,这主要是由于数据标注的复杂性和多样性,以及不同领域的数据标注要求不同。此外,自动化标注技术在现阶段还存在一定的局限性,如对某些类型的数据的识别准确率不高、对复杂场景的处理能力有限等。

但DeepSeek一定程度上改写了数据需求的逻辑。

技术层面来看,简单而言,DeepSeek采用的强化学习(RL)技术,让大模型不再需要被不断喂养模型外的新数据,只用模型内已存在的数据即可进行自我训练。

这一方面降低了大模型厂商对数据量的需求,另一方面,全联并购工会信用管理委员会专家安光勇认为,企业出于开源节流的考虑,有可能会倾向于低成本合成数据。这也会在一定程度上冲击Innodata等数据标注企业。

关于DeepSeek冲击的质疑,财报电话会上,Innodata管理层表示,他们相信,预训练数据和微调数据对AGI发展而言是无法替代的。

在他们看来,DeepSeek依赖以现有模型数据训练新模型,会极大地压缩数据,最终导致模型崩溃。

从市场质疑声音来看,Innodata可持续增长的不确定性来源于两点,一是数据标注需求是否持续增长,二是标注工作是否持续低自动化。

针对前者,科技部国家科技专家周迪告诉36氪,合成数据的适用边界在于它更适合于生成新的、用于训练模型的数据,而人工标注则更适合对已有数据进行深入的理解和解读。

尽管合成数据可以提供更加一致和可控的数据,但在情感分析和文本生成等需要深度语义理解的领域,人工标注数据仍具有不可替代性。

另有投资者分析指出,随着DeepSeek带来的模型部署和运行的成本大幅降低,会有越来越多应用层的公司部署自己的大模型,这也会带来额外的数据标注的需求。所以DeepSeek的出现对Innodata至少不会是一个利空。

但针对后者,这一问题沦为了“鸡生蛋还是蛋生鸡”的悖论。当市场投资者们质疑Innodata“AI含量”低时,一个可能性很大的未来是,数据标注工作的AI化会首先革掉数据标注公司自己的命。

点击图片即可阅读

特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相关推荐
热点推荐
千古仁君宋仁宗

千古仁君宋仁宗

尚曦读史
2024-10-06 07:39:06
李延贺煽动分裂国家破坏国家统一 被定罪判刑

李延贺煽动分裂国家破坏国家统一 被定罪判刑

闪电新闻
2026-03-09 17:46:01
直击西贝闭店最后一夜,“我们也不知道会被安排去哪儿”

直击西贝闭店最后一夜,“我们也不知道会被安排去哪儿”

凤凰网财经
2026-03-10 22:17:25
胡齐斯坦倒向巴列维!伊朗南部三大阿拉伯部落公开叛向世俗化

胡齐斯坦倒向巴列维!伊朗南部三大阿拉伯部落公开叛向世俗化

老马拉车莫少装
2026-03-10 12:05:47
小姑子请全家吃大餐,我提前关掉手机免密支付,结账时小姑子急了

小姑子请全家吃大餐,我提前关掉手机免密支付,结账时小姑子急了

奶茶麦子
2026-03-10 16:51:18
镇压抗议的伊朗巴斯基负责人被斩首

镇压抗议的伊朗巴斯基负责人被斩首

桂系007
2026-03-10 23:37:31
不可错过!3月10日晚上19:40比赛!中央5套CCTV5、CCTV5+直播表

不可错过!3月10日晚上19:40比赛!中央5套CCTV5、CCTV5+直播表

皮皮观天下
2026-03-10 12:34:48
上海这夜!瘦到认不出的蒋欣 大气优雅的吴越 败给两个70岁老太太

上海这夜!瘦到认不出的蒋欣 大气优雅的吴越 败给两个70岁老太太

阿纂看事
2026-03-09 18:55:52
亚足联不公?中国女足赢球仅1天,VAR裁判身份曝光,让3队不满意

亚足联不公?中国女足赢球仅1天,VAR裁判身份曝光,让3队不满意

何老师呀
2026-03-10 08:54:48
震惊全球!澳洲天才男子狂买2500万张彩票,卷走$9500万大奖!警方介入调查

震惊全球!澳洲天才男子狂买2500万张彩票,卷走$9500万大奖!警方介入调查

澳洲红领巾
2026-03-10 13:39:36
伊朗女足疑似被困机场,媒体称没有国家提供中转回国,怎么回事?

伊朗女足疑似被困机场,媒体称没有国家提供中转回国,怎么回事?

之乎者也小鱼儿
2026-03-11 00:10:14
Ella西安演唱会“真空腹”火上热搜,网友吵翻:自律or畸形审美?

Ella西安演唱会“真空腹”火上热搜,网友吵翻:自律or畸形审美?

东方不败然多多
2026-03-09 03:24:21
以色列军方称打击伊朗多地安全机构目标

以色列军方称打击伊朗多地安全机构目标

财联社
2026-03-11 01:15:22
敞开天窗说亮话!对于特朗普月底访华,中方终于回应了!

敞开天窗说亮话!对于特朗普月底访华,中方终于回应了!

现代小青青慕慕
2026-03-10 09:39:02
央视坐实!成本2元售价19800元!不少人受骗,赶紧别用了

央视坐实!成本2元售价19800元!不少人受骗,赶紧别用了

世界圈
2026-02-12 17:06:45
揭秘!外卖员几乎不骑雅迪、爱玛,背后原因太现实,全是无奈之举

揭秘!外卖员几乎不骑雅迪、爱玛,背后原因太现实,全是无奈之举

老特有话说
2026-03-08 15:32:40
把天捅破!美国驻以色列大使:若以色列拿下整个中东,那也没问题

把天捅破!美国驻以色列大使:若以色列拿下整个中东,那也没问题

达文西看世界
2026-02-22 21:18:10
随着印度1-3,越南0-4,中国女足四分之一决赛对手正式诞生

随着印度1-3,越南0-4,中国女足四分之一决赛对手正式诞生

侧身凌空斩
2026-03-10 19:01:07
《生化危机9》里昂裸体mod再激起性别双标争议

《生化危机9》里昂裸体mod再激起性别双标争议

3DM游戏
2026-03-09 09:46:05
伊朗实施“真实承诺4”第35轮打击行动

伊朗实施“真实承诺4”第35轮打击行动

界面新闻
2026-03-11 00:00:41
2026-03-11 02:16:49
36氪财经 incentive-icons
36氪财经
寻找下一支十倍股。
789文章数 172关注度
往期回顾 全部

科技要闻

全民"养虾"背后:大厂集体下场疯狂卖Token

头条要闻

伊朗新最高领袖在袭击中受伤未公开发表讲话 官方回应

头条要闻

伊朗新最高领袖在袭击中受伤未公开发表讲话 官方回应

体育要闻

加兰没那么差,但鲈鱼会用吗?

娱乐要闻

《逐玉》注水风波升级!315评论区沦陷

财经要闻

“龙虾补贴”密集出炉 最高1000万!

汽车要闻

MG4有SUV衍生 上汽乘用车多款新车规划曝光

态度原创

游戏
房产
健康
手机
艺术

《德波尼亚》Steam 免费领 / 《超级马力欧银河大电影》最终预告曝光

房产要闻

信号!千亿巨头入局,三亚开启新一轮大征拆!

转头就晕的耳石症,能开车上班吗?

手机要闻

M5 Max 版 16 英寸 MacBook Pro 体验:算力巅峰与专业视界

艺术要闻

震撼!美国油画家约书亚·拉洛克的作品让人惊叹不已!

无障碍浏览 进入关怀版