网易首页 > 网易号 > 正文 申请入驻

Scale AI:从数据标注,到AI应用落地

0
分享至

文|许英博 陈俊云 刘锐 杨泽原 中信证券研究

Scale AI是美国人工智能数据标注领域的独角兽。公司成立于2016年,最初业务为AI数据标注外包,逐渐拓展为企业级数据集成商,协助客户进行AI开发和部署。公司客户亦由B端企业逐渐扩展至G端。2021年以来,公司估值从73亿美元,显著提升至138亿美元,增幅近90%。2024年,公司年化收入(ARR)已超10亿美元,而2018年仅为1700万美元,2018-2024年CAGR超100%。我们认为,公司的商业模式转变,以及快速增长的营收和估值表明,生成式人工智能浪潮正在重构企业的数据需求和软件应用形态。高质量数据对AI应用效果至关重要,尤其在自动驾驶、金融、医疗等专业性较高的垂直领域。此外,AI亦给北美原有高度专业化细分的数据服务产业链带来变化,甚至最终彻底重构软件和数据服务产业链。这一变化,将给软件和数据产业链带来中长期的新的投资机遇,相关机遇亦值得中国软件行业借鉴。

▍报告缘起:为什么我们认为Scale AI值得重视?

1)Scale AI早期主要业务系为自动驾驶公司提供数据标注外包服务,在2022年后与OpenAI等合作,逐步转型为以数据标注和治理为核心的AI基础设施公司,从数据标注逐步拓展至以其企业级数据平台为基础为政企客户提供从AI数据治理到生成式AI应用的落地部署和商业闭环的全流程服务,这一商业模式帮助客户解决了在垂类细分场景下数据质量差、AI应用难以落地的问题,整体提升了下游AI应用的落地速度和迭代节奏。

2)根据The information报道, Scale AI的年化收入从2018年的1700万美元快速上升至2023年的约7.6亿美元,5年CAGR达到113%。至2024年5月,公司的ARR(年化收入)已经突破10亿美元,且几乎完全来源于AI相关的数据业务。公司估值同样快速上升,由2021年的73亿美元上升至2024年5月F轮融资时的138亿美元,增长超过89%。在全球AI相关公司中,除算力产业链以及基座模型相关公司(如Open AI、Anthropic等),Scale AI的营收和市值规模首屈一指。

3)我们认为,公司营收和市值规模在过去三年内快速增长,体现出在AI产业链环节中,数据产业对于AI应用大规模落地的重要性正逐步被行业和市场所认知。

公司商业模式解析:从数据标注外包商向数据集成商转变。公司以高质量数据标注为核心,并以此为基础为B端和G端客户提供一站式的AI应用落地部署服务。

1)公司早期业务系为自动驾驶企业提供数据标注外包服务,从2020年起,随着Scaling Law下大模型参数规模的快速膨胀及所需训练数据量的上升,Scale开始与OpenAI进行合作,为其提供大规模数据标注服务。在该过程中,公司将自己在数据标注业务中的know-how沉淀于其数据引擎平台上,结合AI标注能力,更高效地为客户完成其业务数据的分类、标注和标准化治理。

2)公司从数据标注外包服务商拓展为企业级数据集成商,通过企业级AI数据平台为客户打通AI数据全链路服务,加速客户AI应用开发和部署节奏。Scale并不提供大模型产品,但在标注处理完客户的私有数据后,Scale AI可以为客户比较和测试第三方公司提供的主流大模型(如Google、Anthropic、OpenAI),并通过客户数据对大模型进行微调,最终结合客户的具体使用场景将大模型进行落地部署。公司的AI平台可以帮助没有能力选择相关技术供应商的客户完成AI应用落地所需的技术工作及相关供应商的选择。

3)数据质量对AI在垂类场景落地重要度提升,绑定核心标注人员构筑公司竞争壁垒。对于专业场景而言,通过RAG方法对模型进行微调需要高质量垂类数据,而垂类数据的标注对于精准度和专业性有一定要求。Scale雇佣了数十名相关领域的博士进行数据标注,并借此机会与拥有专业数据标注能力的相关人员进行了绑定,通过和重要行业客户的合作完成了行业知识的积累。

4)公司业务由B端向G端衍生,G端落地速度快。公司积极与美国多个政府部门进行合作,2022年,公司与美国国防部签订订单,单笔金额达到2.5亿美元,公司为美国政府与军方提供了大模型测试与评估、多诺万AI平台、开源数据集评估等多项服务。公司的多诺万AI平台接入了美国军方的数据源,并通过该平台对军方收集的战场图像进行标注。在获取数据后,公司在该平台上通过调用并微调第三方模型完成私有数据集上的大模型训练,进而通过微调模型对军方实时提供的战场图片进行判读、毁伤评估和态势感知,大幅提高了军方对战场情报的分析效率和反应速度。

公司当前情况:经历7轮融资,头部大厂进行背书。

1)公司目前经过7轮融资,历史总融资额超16亿美元。公司E轮及之前融资主要以Y Combinator为代表的财务投资者为主。公司最近一轮融资为2024年5月份的F轮融资,包括Meta、英伟达在内的头部科技公司共计为Scale AI注资达10亿美元。

2)除融资外,公司同样在业务上与头部大厂达成了深度合作关系。Scale AI自2019年开始与Open AI进行合作,并深度参与了GPT-2及以后GPT模型的数据标注工作。Open AI同时将Scale视为优先合作伙伴,优先推荐企业客户使用Scale提供的微调服务。我们认为,头部科技公司主导的产业资本对Scale AI的投资与Scale AI估值水平的快速上升或反映出AI数据基础设施产业或成为AI行业下一阶段的重要发展方向。

Scale AI的经验与借鉴:数据标注业务产业链价值提升,北美数据产业融合发展趋势明显。

1)在Scaling Law的行业趋势下,大模型迭代所需的算力以及对应用于训练的数据均呈现指数级增长。以Open AI为例,从GPT1-GPT3,其模型参数规模在2018-2020年由1.17亿个增长至1750亿个,训练数据集由4.5GB指数级增长至570GB,GPT4约为1PB。根据Epoch AI的预计,全球的公开高质量文本数据将在2027年耗尽。特定企业内部则拥有庞大的私有数据集,以金融业为例,根据SaaStr网站主持人Harry Stebbings对Scale AI创始人 Alex Wang的访谈,摩根大通内部拥有约150PB的专有数据集,但数据因未经清洗和加工,较难为大模型使用。同时,在特定任务领域,例如医疗、金融风控等场景,经过专业人员逻辑性标注的专业数据可降低模型出现幻觉的概率和提高模型准确度。在该种趋势下,我们看到用于AI训练和推理的垂类数据标注的难度和产业价值均在提升。

2)从数据产业链的角度来看,北美数据产业链正从高度分工的业态趋于融合发展。数据软件本身的功能边界趋于模糊,同时各赛道龙头公司通过内生发展或并购方式向产业链各环节进行衍生,以Palantir为代表的数据集成商公司成长显著。我们认为这一产业趋势的背后是B端客户对于以AI为核心的数智化转型存在明确诉求,而该种转型需要企业完成自己内部的数据治理、数据分析平台、数据湖仓等环节的构建,但单一企业很难拥有该种技术能力。因此,从数据本身的数量、质量和管理等方面考量,专注于帮助企业完成AI从数据到应用落地的数据产业集成商的出现是中短期内的产业发展趋势。

投资策略:

参考美国产业发展经验,我们认为率先沉淀出平台能力的数据公司有望把握先发优势,构建长期壁垒,建议关注国内相关映射概念标的。国内当前以AI为对象的数据产业发展尚在早期。对于国内数据产业而言,我们认为相关公司将逐步从集成制、项目制的公司向垂类领域进发,率先锁定垂类领域的相关专家、客户,并能够通过垂类项目经验沉淀出平台能力的公司将持续受益。建议关注国产数据治理概念及数据平台型公司。

风险因素:

全球地缘政治冲突的风险;细分市场需求走弱的风险;数据平台开发进度不达预期的风险;行业竞争加剧的风险;AI下游发展不及预期的风险;云厂商Capex投入不及预期风险;核心客户流失风险;核心管理人员流失风险;推荐公司业绩不达预期的风险;推荐公司产品研发进度不及预期的风险;推荐公司的客户AI相关IT开支意愿波动的风险。

本文源自:券商研报精选

特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相关推荐
热点推荐
广东G3两配角全出价值!张皓嘉强硬防守,王少杰强硬输出!

广东G3两配角全出价值!张皓嘉强硬防守,王少杰强硬输出!

篮球资讯达人
2026-05-04 01:22:04
太阳系中的超级大油田,储量超地球几百倍,足够人类用2万年

太阳系中的超级大油田,储量超地球几百倍,足够人类用2万年

兔斯基聊科学
2026-05-02 09:31:39
广东晋级,1主力最失意!三战2分10犯+放投,球迷:战北京该弃他

广东晋级,1主力最失意!三战2分10犯+放投,球迷:战北京该弃他

南海浪花
2026-05-04 06:18:16
顾不上伊朗了!不到24小时,以色列连遭2大重击,内塔或将卸任

顾不上伊朗了!不到24小时,以色列连遭2大重击,内塔或将卸任

米老鼠的世界
2026-05-04 03:18:46
这才是抗战时期毛主席的真实相貌,美国人拍摄,衣服破旧令人动容

这才是抗战时期毛主席的真实相貌,美国人拍摄,衣服破旧令人动容

兴趣知识
2026-05-01 00:57:05
热搜第一!孙杨玩游戏下狠手 扇52岁范明耳光 后者捂脸:你真打啊

热搜第一!孙杨玩游戏下狠手 扇52岁范明耳光 后者捂脸:你真打啊

念洲
2026-05-02 09:23:08
夏朝真名颠覆认知:被叫错三千年,真实国号藏着上古中国密码

夏朝真名颠覆认知:被叫错三千年,真实国号藏着上古中国密码

傲傲讲历史
2026-04-15 05:26:07
德国变天!魏德尔民调一骑绝尘,默茨四面楚歌,中德关系变数陡增

德国变天!魏德尔民调一骑绝尘,默茨四面楚歌,中德关系变数陡增

舍长阿爷谈事
2026-05-03 10:12:37
高速堵到下车打牌的时候,广东已经玩起了合法逆行?看完太羡慕了

高速堵到下车打牌的时候,广东已经玩起了合法逆行?看完太羡慕了

呼呼历史论
2026-05-04 00:25:01
日本姑娘游中国上海后坦言:日本与中国的差距,比想象中大得多

日本姑娘游中国上海后坦言:日本与中国的差距,比想象中大得多

瓜哥的动物日记
2026-05-03 20:38:15
为什么感觉金融圈子很淫乱呢?看完回答感受到人性欲望的丑恶

为什么感觉金融圈子很淫乱呢?看完回答感受到人性欲望的丑恶

另子维爱读史
2025-12-05 21:20:39
1993年,张学良被拜访:看到冯巩十分惊讶,为东北题了3个字

1993年,张学良被拜访:看到冯巩十分惊讶,为东北题了3个字

历史龙元阁
2026-05-03 17:55:10
盟友缺位,阿联酋为何向宿敌以色列搬兵

盟友缺位,阿联酋为何向宿敌以色列搬兵

民间胡扯老哥
2026-04-29 13:00:40
再高的地位再大的权力,丢了民心,迟早走下坡路

再高的地位再大的权力,丢了民心,迟早走下坡路

小虎新车推荐员
2026-05-01 09:29:38
扒光网红白冰真实收入:4000万粉丝到底多赚钱?日入数字超乎想象

扒光网红白冰真实收入:4000万粉丝到底多赚钱?日入数字超乎想象

贱议你读史
2026-05-01 20:15:03
宣称要投资15亿美元的“开市客北京”,已申请注销公司,其公众号已经注销了

宣称要投资15亿美元的“开市客北京”,已申请注销公司,其公众号已经注销了

中国零售信息
2026-05-03 23:34:46
12场9球!本土第一锋霸名不虚传 国足大发现 邵佳一喜获得意爱将

12场9球!本土第一锋霸名不虚传 国足大发现 邵佳一喜获得意爱将

零度眼看球
2026-05-04 06:45:40
六盘水用1200万抵扣2.2亿债务,女子拒绝后遭逮捕,被批不识抬举

六盘水用1200万抵扣2.2亿债务,女子拒绝后遭逮捕,被批不识抬举

干史人
2025-04-25 08:30:03
你见过创业最惨的人是啥样?网友:我被前任刷了30万信用卡

你见过创业最惨的人是啥样?网友:我被前任刷了30万信用卡

带你感受人间冷暖
2026-04-07 00:15:06
内部会议释放信号,医疗行业从业者纷纷心生顾虑

内部会议释放信号,医疗行业从业者纷纷心生顾虑

坠入二次元的海洋
2026-05-04 05:27:45
2026-05-04 09:27:00
金融界 incentive-icons
金融界
投资者信赖的财经金融门户网站
9194706文章数 546306关注度
往期回顾 全部

科技要闻

OpenAI“复活”了QQ宠物,网友直接玩疯

头条要闻

牛弹琴:特朗普大怒使出三板斧报复 德国还是怂了

头条要闻

牛弹琴:特朗普大怒使出三板斧报复 德国还是怂了

体育要闻

曼联3-2双杀利物浦!提前三轮锁定欧冠资格 梅努制胜

娱乐要闻

黄晓明五一带娃去游乐场 父子幸福同框

财经要闻

后巴菲特时代,首场股东会透露了啥

汽车要闻

同比大涨190% 方程豹4月销量29138台

态度原创

艺术
时尚
本地
游戏
军事航空

艺术要闻

陈丹青:文艺青年吴冠中

快看!!这个女演员近日暴瘦!!哦,知道了……

本地新闻

用青花瓷的方式,打开西溪湿地

LPL第二赛段:鞋底不够厚,BLG三局战胜NIP

军事要闻

伊朗公布伊方最新谈判方案

无障碍浏览 进入关怀版