网易首页 > 网易号 > 正文 申请入驻

AI训练数据耗尽,这家数据标注公司为何暴涨?丨氪金·硬科技

0
分享至

作者 |耿宸斐

编辑|宋婉心

封面来源|视觉中国

“数据标注”是伴随AI进程诞生的重要的产业链一环。尤其在大模型问世后,数据标注行业规模极速扩张,但随着大模型迭代,作为劳动密集型行业,数据标注又不断被市场重估。

美股市场的头部数据标注公司Innodata是这一过程的一个典型缩影。

近一年以来,Innodata股价涨幅高达432%。最新财报显示,2024全年Innodata营收同比大涨96.44%,且8家大客户中,有5家来自美股七巨头。

不过稳健的基本面挡不住市场预期的调整。DeepSeek发布后,市场对用于训练的公开数据的需求开始产生怀疑,Innodata股价因此产生波动,尤其在三月,公司股价下跌了超30%。

对于这家公司,目前市场声音分歧较大。

看空者认为在过去十年中,Innodata仅盈利了两次,因此股价飙升是没有道理的,而看多者则认为,因为大模型现在的情况已经不同,Innodata已将业务模式转向了大模型的数据清理。

价值重估

数据标注行业的第一次高光时刻,是来自自动驾驶的发展。在大模型出现之前,德勤报告显示,2022年自动驾驶领域的标注需求占整个AI下游应用的38%。

而大模型对数据标注的需求提升到了另一个量级。

“如果不是大模型出现,就算是干成自动驾驶行业数据标注龙头的Scale AI,在2023年之前,其年收入也就1亿至2亿美金。而到了2024年,Scale AI全年的ARR预计在12-14亿美金,比2022年翻了7倍左右。”有投资者表示。

大模型行业的Scaling Law理论认为,模型性能与模型参数量、训练数据量和计算资源相关。以GPT-4为例,其参数量从GPT-3的约1750亿提升至约1.8万亿,而训练数据集的规模也从GPT-3的几千亿Token扩大到13万亿Token。

业务集中在数据工程领域的Innodata,吃到了大模型卖铲人的大量红利。

最新财报显示,Innodata的最大客户授予该公司价值约2400万美元的额外合同,使来自该客户的总年化运营收入达到约1.35亿美元。

除了该最大客户之外,来自Innodata的另外七家大型科技公司客户的收入,在第四季度环比增长了159%。

从近期业绩看,Innodata的收入增长明显加速。2024年一至四季度,该公司营收的同比增速分别为40.7%、65.6%、135.6%和126.6%。而且Innodata预计,2025年公司收入增长将超过40%。

不过,如今大模型行业扩张期过去之后,数据标注行业的矛盾已经开始浮现——即将耗尽的数据难以支撑模型迭代与与大模型落地等所带来的训练需求。

Epoch AI的研究估计,自2020年以来,用于训练大语言模型的数据增长了100倍,且AI训练数据集的规模每年翻倍。然而,互联网可用内容每年的增长却不足10%。到2028年,AI训练数据很可能耗尽。

事实上,数据不足所造成的发展瓶颈已经是行业中的普遍现象。去年11月,The Information爆料称,OpenAI下一代旗舰模型Orion改进大幅放缓,一个主要原因正是高质量训练数据的短缺。

行业共识是,目前通用数据的供给已接近饱和,垂类数据将是未来AI模型差异化的关键。

DeepSeek淘汰数据标注?

作为美股市场上仅有的AI数据标注标的,Innodata的“AI含量”至今仍饱受质疑。

早在2019年,Innodata就宣称自己开始实施人工智能和机器学习流程,并将自己划为一家人工智能公司。但去年2月, Wolfpack Research发布的一份报告称,Innodata是在拿AI炒作股价,其核心业务仍是依靠海外廉价劳动力进行基础数据标注,而非自主研发的AI技术。

报告引用前员工说法,称公司为硅谷客户提供的服务本质是“键盘劳动”。

“Innodata的商业模式上就是基于人力外包的数据标注,赚一份血汗钱。和同业的差异只是他们干得最久,做得最大。”有投资者评价,“技术只能让数据标注更快,要让数据标注更好,现在只能靠人。

据智研咨询报告,尽管已经有数据标注公司开发了相应的半自动化工具,但从标注比例来看,机器标注和人工标注的比例约为3:7。

Innodata的财报数据也侧面印证了这一现实。仅在2024年第二季度,Innodata就花费了360万美元的招聘代理费,这表明公司仍旧非常依赖人力。

业内人士告诉36氪,这主要是由于数据标注的复杂性和多样性,以及不同领域的数据标注要求不同。此外,自动化标注技术在现阶段还存在一定的局限性,如对某些类型的数据的识别准确率不高、对复杂场景的处理能力有限等。

但DeepSeek一定程度上改写了数据需求的逻辑。

技术层面来看,简单而言,DeepSeek采用的强化学习(RL)技术,让大模型不再需要被不断喂养模型外的新数据,只用模型内已存在的数据即可进行自我训练。

这一方面降低了大模型厂商对数据量的需求,另一方面,全联并购工会信用管理委员会专家安光勇认为,企业出于开源节流的考虑,有可能会倾向于低成本合成数据。这也会在一定程度上冲击Innodata等数据标注企业。

关于DeepSeek冲击的质疑,财报电话会上,Innodata管理层表示,他们相信,预训练数据和微调数据对AGI发展而言是无法替代的。

在他们看来,DeepSeek依赖以现有模型数据训练新模型,会极大地压缩数据,最终导致模型崩溃。

从市场质疑声音来看,Innodata可持续增长的不确定性来源于两点,一是数据标注需求是否持续增长,二是标注工作是否持续低自动化。

针对前者,科技部国家科技专家周迪告诉36氪,合成数据的适用边界在于它更适合于生成新的、用于训练模型的数据,而人工标注则更适合对已有数据进行深入的理解和解读。

尽管合成数据可以提供更加一致和可控的数据,但在情感分析和文本生成等需要深度语义理解的领域,人工标注数据仍具有不可替代性。

另有投资者分析指出,随着DeepSeek带来的模型部署和运行的成本大幅降低,会有越来越多应用层的公司部署自己的大模型,这也会带来额外的数据标注的需求。所以DeepSeek的出现对Innodata至少不会是一个利空。

但针对后者,这一问题沦为了“鸡生蛋还是蛋生鸡”的悖论。当市场投资者们质疑Innodata“AI含量”低时,一个可能性很大的未来是,数据标注工作的AI化会首先革掉数据标注公司自己的命。

点击图片即可阅读

特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相关推荐
热点推荐
很多人爱喝的咖啡品牌,被申请破产,曾估值10亿

很多人爱喝的咖啡品牌,被申请破产,曾估值10亿

中国新闻周刊
2026-06-10 23:33:47
净利润大降1563%!A股又一公司被立案,超3万股民受损

净利润大降1563%!A股又一公司被立案,超3万股民受损

21世纪经济报道
2026-06-12 20:42:57
微信出现这条杠,就是被好友删了

微信出现这条杠,就是被好友删了

呼呼历史论
2026-06-10 18:15:48
“中国好人”花2500万买到银行抵押房,帮卖家还钱解押次日又遭抵押贷款;当事人怀疑银行与卖家串通合谋

“中国好人”花2500万买到银行抵押房,帮卖家还钱解押次日又遭抵押贷款;当事人怀疑银行与卖家串通合谋

大风新闻
2026-06-12 17:37:15
北京现代三款新车齐发 精简产品线能否重回增长赛道

北京现代三款新车齐发 精简产品线能否重回增长赛道

周哥一影视
2026-06-13 07:27:56
211院校降为普通本科!

211院校降为普通本科!

老吕教你考MBA
2026-06-02 11:57:50
41岁夫妻因“房事频繁”双双入院,医生提醒:每周不应超过一个数

41岁夫妻因“房事频繁”双双入院,医生提醒:每周不应超过一个数

路医生健康科普
2026-06-03 16:36:08
这很科学:89%的人幻想过同时和多人发生性行为,算精神出轨吗?

这很科学:89%的人幻想过同时和多人发生性行为,算精神出轨吗?

宇宙时空
2026-05-26 18:20:10
宝马iX3青藏高原实测:百公里12.6度电,无补能跑800公里

宝马iX3青藏高原实测:百公里12.6度电,无补能跑800公里

Ping值焦虑
2026-06-12 03:17:58
中国游客到朝鲜游玩,朝鲜人充满疑问:为什么中国人是这样的?

中国游客到朝鲜游玩,朝鲜人充满疑问:为什么中国人是这样的?

共工之锚
2026-06-10 00:25:42
葡萄牙6-1血洗加拿大,雷戈梅开二度领跑射手榜,决赛对阵突尼斯

葡萄牙6-1血洗加拿大,雷戈梅开二度领跑射手榜,决赛对阵突尼斯

林子说事
2026-06-12 19:37:51
韩国前国脚李乙容:我儿子踢世界杯我比自己当球员时还紧张

韩国前国脚李乙容:我儿子踢世界杯我比自己当球员时还紧张

懂球帝
2026-06-12 18:24:14
第五局完成逆转!陈俊菘3-2林诗栋晋级萨格勒布挑战赛八强!

第五局完成逆转!陈俊菘3-2林诗栋晋级萨格勒布挑战赛八强!

篮球资讯达人
2026-06-13 00:40:51
阿尔特塔自毁长城!阿森纳 1700 万清洗功臣,欧冠大腿说走就走

阿尔特塔自毁长城!阿森纳 1700 万清洗功臣,欧冠大腿说走就走

澜归序
2026-06-13 06:16:17
突然想到的一个地狱笑话

突然想到的一个地狱笑话

陈意小可爱
2026-06-12 18:48:31
他曾是江苏省副省长,连任了两届中央委员,1980年却主动辞去职务

他曾是江苏省副省长,连任了两届中央委员,1980年却主动辞去职务

兵卒史
2026-06-13 00:35:05
马科斯没料到,等来的不是中国的援助,而是菲防长被制裁通知书

马科斯没料到,等来的不是中国的援助,而是菲防长被制裁通知书

尘世闲云
2026-06-13 07:27:55
这次,俞灏明苦苦维持的体面,被王晓晨撕的稀碎,郑恺早有提醒

这次,俞灏明苦苦维持的体面,被王晓晨撕的稀碎,郑恺早有提醒

打小我就醜
2026-06-04 12:37:40
“父弱母强”的家庭:养出来的孩子,基本都有三个共性

“父弱母强”的家庭:养出来的孩子,基本都有三个共性

枕边聊育儿
2026-06-12 09:23:03
“清淡饮食”正在毁掉中老年人的血管!我国近20%的老年人患有肌少症,不吃肉,血管反而越来越脆

“清淡饮食”正在毁掉中老年人的血管!我国近20%的老年人患有肌少症,不吃肉,血管反而越来越脆

消化石医生
2026-06-05 21:28:28
2026-06-13 08:48:49
36氪财经 incentive-icons
36氪财经
寻找下一支十倍股。
831文章数 181关注度
往期回顾 全部

科技要闻

刚刚,人类历史上首位万亿美元富豪诞生!

头条要闻

47岁泰国长公主去世 70多岁泰王现继承危机

头条要闻

47岁泰国长公主去世 70多岁泰王现继承危机

体育要闻

欧洲恐韩?肉德维德?

娱乐要闻

一天4个瓜,肖战热巴最意外

财经要闻

梁文锋向左,杨植麟向右

汽车要闻

标配激光雷达/双动力可选 昊铂S600限时售17.99万起

态度原创

健康
教育
手机
公开课
军事航空

老人、小孩、孕妇,吃粽子有啥风险

教育要闻

从“中间”到“中坚”——学校中层管理者的修炼与升维 | 刘玉

手机要闻

三星官网公布Galaxy A27 5G手机参数,搭载骁龙6 Gen 3芯片

公开课

李玫瑾:为什么性格比能力更重要?

军事要闻

伊外长披露伊美谅解备忘录草案部分内容

无障碍浏览 进入关怀版