网易首页 > 网易号 > 正文 申请入驻

AI训练数据耗尽,这家数据标注公司为何暴涨?丨氪金·硬科技

0
分享至

作者 |耿宸斐

编辑 |宋婉心

“数据标注”是伴随AI进程诞生的重要的产业链一环。尤其在大模型问世后,数据标注行业规模极速扩张,但随着大模型迭代,作为劳动密集型行业,数据标注又不断被市场重估。

美股市场的头部数据标注公司Innodata是这一过程的一个典型缩影。

近一年以来,Innodata股价涨幅高达432%。最新财报显示,2024全年Innodata营收同比大涨96.44%,且8家大客户中,有5家来自美股七巨头。

不过稳健的基本面挡不住市场预期的调整。DeepSeek发布后,市场对用于训练的公开数据的需求开始产生怀疑,Innodata股价因此产生波动,尤其在三月,公司股价下跌了超30%。

对于这家公司,目前市场声音分歧较大。

看空者认为在过去十年中,Innodata仅盈利了两次,因此股价飙升是没有道理的,而看多者则认为,因为大模型现在的情况已经不同,Innodata已将业务模式转向了大模型的数据清理。

01 价值重估

数据标注行业的第一次高光时刻,是来自自动驾驶的发展。在大模型出现之前,德勤报告显示,2022年自动驾驶领域的标注需求占整个AI下游应用的38%。

而大模型对数据标注的需求提升到了另一个量级。

“如果不是大模型出现,就算是干成自动驾驶行业数据标注龙头的Scale AI,在2023年之前,其年收入也就1亿至2亿美金。而到了2024年,Scale AI全年的ARR预计在12-14亿美金,比2022年翻了7倍左右。”有投资者表示。

大模型行业的Scaling Law理论认为,模型性能与模型参数量、训练数据量和计算资源相关。以GPT-4为例,其参数量从GPT-3的约1750亿提升至约1.8万亿,而训练数据集的规模也从GPT-3的几千亿Token扩大到13万亿Token。

业务集中在数据工程领域的Innodata,吃到了大模型卖铲人的大量红利。

最新财报显示,Innodata的最大客户授予该公司价值约2400万美元的额外合同,使来自该客户的总年化运营收入达到约1.35亿美元。

除了该最大客户之外,来自Innodata的另外七家大型科技公司客户的收入,在第四季度环比增长了159%。

从近期业绩看,Innodata的收入增长明显加速。2024年一至四季度,该公司营收的同比增速分别为40.7%、65.6%、135.6%和126.6%。而且Innodata预计,2025年公司收入增长将超过40%。

不过,如今大模型行业扩张期过去之后,数据标注行业的矛盾已经开始浮现——即将耗尽的数据难以支撑模型迭代与与大模型落地等所带来的训练需求。

Epoch AI的研究估计,自2020年以来,用于训练大语言模型的数据增长了100倍,且AI训练数据集的规模每年翻倍。然而,互联网可用内容每年的增长却不足10%。到2028年,AI训练数据很可能耗尽。

事实上,数据不足所造成的发展瓶颈已经是行业中的普遍现象。去年11月,The Information爆料称,OpenAI下一代旗舰模型Orion改进大幅放缓,一个主要原因正是高质量训练数据的短缺。

行业共识是,目前通用数据的供给已接近饱和,垂类数据将是未来AI模型差异化的关键。

02 DeepSeek淘汰数据标注?

作为美股市场上仅有的AI数据标注标的,Innodata的“AI含量”至今仍饱受质疑。

早在2019年,Innodata就宣称自己开始实施人工智能和机器学习流程,并将自己划为一家人工智能公司。但去年2月, Wolfpack Research发布的一份报告称,Innodata是在拿AI炒作股价,其核心业务仍是依靠海外廉价劳动力进行基础数据标注,而非自主研发的AI技术。

报告引用前员工说法,称公司为硅谷客户提供的服务本质是“键盘劳动”。

“Innodata的商业模式上就是基于人力外包的数据标注,赚一份血汗钱。和同业的差异只是他们干得最久,做得最大。”有投资者评价,“技术只能让数据标注更快,要让数据标注更好,现在只能靠人。

据智研咨询报告,尽管已经有数据标注公司开发了相应的半自动化工具,但从标注比例来看,机器标注和人工标注的比例约为3:7。

Innodata的财报数据也侧面印证了这一现实。仅在2024年第二季度,Innodata就花费了360万美元的招聘代理费,这表明公司仍旧非常依赖人力。

业内人士告诉36氪,这主要是由于数据标注的复杂性和多样性,以及不同领域的数据标注要求不同。此外,自动化标注技术在现阶段还存在一定的局限性,如对某些类型的数据的识别准确率不高、对复杂场景的处理能力有限等。

但DeepSeek一定程度上改写了数据需求的逻辑。

技术层面来看,简单而言,DeepSeek采用的强化学习(RL)技术,让大模型不再需要被不断喂养模型外的新数据,只用模型内已存在的数据即可进行自我训练。

这一方面降低了大模型厂商对数据量的需求,另一方面,全联并购工会信用管理委员会专家安光勇认为,企业出于开源节流的考虑,有可能会倾向于低成本合成数据。这也会在一定程度上冲击Innodata等数据标注企业。

关于DeepSeek冲击的质疑,财报电话会上,Innodata管理层表示,他们相信,预训练数据和微调数据对AGI发展而言是无法替代的。

在他们看来,DeepSeek依赖以现有模型数据训练新模型,会极大地压缩数据,最终导致模型崩溃。

从市场质疑声音来看,Innodata可持续增长的不确定性来源于两点,一是数据标注需求是否持续增长,二是标注工作是否持续低自动化。

针对前者,科技部国家科技专家周迪告诉36氪,合成数据的适用边界在于它更适合于生成新的、用于训练模型的数据,而人工标注则更适合对已有数据进行深入的理解和解读。

尽管合成数据可以提供更加一致和可控的数据,但在情感分析和文本生成等需要深度语义理解的领域,人工标注数据仍具有不可替代性。

另有投资者分析指出,随着DeepSeek带来的模型部署和运行的成本大幅降低,会有越来越多应用层的公司部署自己的大模型,这也会带来额外的数据标注的需求。所以DeepSeek的出现对Innodata至少不会是一个利空。

但针对后者,这一问题沦为了“鸡生蛋还是蛋生鸡”的悖论。当市场投资者们质疑Innodata“AI含量”低时,一个可能性很大的未来是,数据标注工作的AI化会首先革掉数据标注公司自己的命。

关注获取更多资讯

特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相关推荐
热点推荐
继张雪峰之后,中医大师黄贵华被曝心梗去世,社交账号已变黑白

继张雪峰之后,中医大师黄贵华被曝心梗去世,社交账号已变黑白

180视角
2026-03-26 11:52:12
我就不信张一山没有后悔过吗?这么美的前任拱手让出去了

我就不信张一山没有后悔过吗?这么美的前任拱手让出去了

喜欢历史的阿繁
2026-03-26 09:20:58
我有一个朋友在张雪峰公司上班他说张雪峰根本不是大家看到的样子

我有一个朋友在张雪峰公司上班他说张雪峰根本不是大家看到的样子

乐悠悠娱乐
2026-03-26 10:27:07
俄罗斯警告日本!俄输油重港接连遭攻击,“现场浓烟滚滚”;俄乌战场惊现持枪机器人:身高180cm,可AI评估战场并侦察射击

俄罗斯警告日本!俄输油重港接连遭攻击,“现场浓烟滚滚”;俄乌战场惊现持枪机器人:身高180cm,可AI评估战场并侦察射击

每日经济新闻
2026-03-26 15:53:05
汽车出海闯进新周期,广汽首个服务品牌GAC CARE捉住“决胜点”

汽车出海闯进新周期,广汽首个服务品牌GAC CARE捉住“决胜点”

功夫AUTO
2026-03-26 11:51:12
袁家军会见王兴兴

袁家军会见王兴兴

新京报政事儿
2026-03-26 16:45:34
张雪峰助理万霞:十年相伴,生死相隔最痛的人!

张雪峰助理万霞:十年相伴,生死相隔最痛的人!

天光破云来
2026-03-26 11:55:41
高速统一限速3月26日正式落地!五档限速+清理非标不会再乱扣分!

高速统一限速3月26日正式落地!五档限速+清理非标不会再乱扣分!

沙雕小琳琳
2026-03-26 09:41:30
突发传闻:封锁霍尔木兹的伊朗关键人物被击毙

突发传闻:封锁霍尔木兹的伊朗关键人物被击毙

桂系007
2026-03-26 16:19:32
张雪峰猝然离世,办公室内景曝光,摆设奇怪,写真照被指像遗照,生前的话字字催泪

张雪峰猝然离世,办公室内景曝光,摆设奇怪,写真照被指像遗照,生前的话字字催泪

笔墨V
2026-03-26 14:53:51
伊朗:击中击落美以202架飞机;以方:坦格西里身亡,他负责封锁霍尔木兹!想快速抽身,特朗普:打伊朗不是战争,是“军事行动”

伊朗:击中击落美以202架飞机;以方:坦格西里身亡,他负责封锁霍尔木兹!想快速抽身,特朗普:打伊朗不是战争,是“军事行动”

每日经济新闻
2026-03-26 17:27:09
上海一女子“闪婚”拿到价值近千万房产99%份额,“闪离”后起诉分割房产,法院判了!

上海一女子“闪婚”拿到价值近千万房产99%份额,“闪离”后起诉分割房产,法院判了!

环球网资讯
2026-03-26 08:13:14
广东一男子买啤酒抽中电动车大奖,将中奖二维码发网上询问后被他人扫走核销,网友:“这下又上了一课”

广东一男子买啤酒抽中电动车大奖,将中奖二维码发网上询问后被他人扫走核销,网友:“这下又上了一课”

洪观新闻
2026-03-26 10:56:49
伊朗官媒发布《为众人复仇》AI短片:一枚伊朗导弹在哈梅内伊等人注视下,精准炸毁幻化成羊头恶魔的美国自由女神像

伊朗官媒发布《为众人复仇》AI短片:一枚伊朗导弹在哈梅内伊等人注视下,精准炸毁幻化成羊头恶魔的美国自由女神像

大象新闻
2026-03-26 09:45:03
比国足还惨!意大利已12年未踢世界杯,仅剩33岁维拉蒂踢过世界杯

比国足还惨!意大利已12年未踢世界杯,仅剩33岁维拉蒂踢过世界杯

小金体坛大视野
2026-03-26 11:16:02
坚决反对中国任何城市申办奥运会,国际奥委会这次怕是真失算了

坚决反对中国任何城市申办奥运会,国际奥委会这次怕是真失算了

南权先生
2026-03-25 15:25:11
突发心梗,吃丹参滴丸有用吗?医生:这2种药才是心梗急救药!

突发心梗,吃丹参滴丸有用吗?医生:这2种药才是心梗急救药!

健康科普365
2026-03-26 09:57:24
引而不发才是王道,封锁霍尔木兹海峡,伊朗打完了最后一张牌……

引而不发才是王道,封锁霍尔木兹海峡,伊朗打完了最后一张牌……

家传编辑部
2026-03-26 10:34:27
美团:2025年营收3,648.5亿元人民币 同比增长8.1%

美团:2025年营收3,648.5亿元人民币 同比增长8.1%

财联社
2026-03-26 17:40:04
塞尔维亚购买中国超音速导弹?国防部:正常军贸合作,不针对第三方

塞尔维亚购买中国超音速导弹?国防部:正常军贸合作,不针对第三方

澎湃新闻
2026-03-26 17:24:26
2026-03-26 18:08:49
36氪 incentive-icons
36氪
让一部分人先看到未来
150976文章数 2848564关注度
往期回顾 全部

科技要闻

Meta高管狂分百亿期权,700名员工却下岗

头条要闻

男子从四家公司贷出共计356万元 实际到手却仅8万多元

头条要闻

男子从四家公司贷出共计356万元 实际到手却仅8万多元

体育要闻

申京努力了,然而杜兰特啊

娱乐要闻

张雪峰家人首发声 不设追思会丧事从简

财经要闻

长护险谁能享受?享受多少?解答来了

汽车要闻

一汽奥迪A6L e-tron开启预售 CLTC最大续航815km

态度原创

游戏
教育
房产
家居
艺术

又一经典最终幻想游戏将停运!开服至今已六年有余

教育要闻

中小学家长必看数据,看与不看都会后悔

房产要闻

突发,三亚又有大批征迁补偿方案出炉!

家居要闻

傍海而居 静观蝴蝶海

艺术要闻

哪一座桥不是风景?

无障碍浏览 进入关怀版