网易首页 > 网易号 > 正文 申请入驻

人工智能AI瞭望台丨行业大模型重塑千行百业 “百模大战”加速数商洗牌

0
分享至

从金融、交通,到教育、医疗,一段时间以来,各个行业大模型如雨后春笋般出现在世人面前,让“大模型”这个几个月前还显得有些缥缈的新事物拥有了落地的根基,展现了“AI赋能千行百业”的潜力。

行业大模型,指的是在特定行业领域应用的大型语言模型。与以ChatGPT为代表的通用大模型相比,行业大模型通过对垂直细分领域的数据进行更有针对性的训练和优化,从而更好地理解行业的语义和规范,更有效地执行专业性更强的任务。

“通用大模型就像一个综合成绩很好的高中生,具备了基本的智商和能力,可以回答和解决很多基础问题。行业大模型更像学习了专业知识的本科生甚至硕博生,通过注入行业知识,使之具备解决专业问题的能力。”上海数库科技首席科技官曹峰在接受证券时报记者采访时做了这样生动的比喻。目前,业内普遍认为,未来只会有两三家“独大”的通用大模型,并涌现出无数更贴近产业需求的行业大模型。

在此背景下,高质量的行业知识库和训练数据便成了制胜的关键。多名接受证券时报记者采访的业内人士表示,行业大模型的火热将为数据服务商带来发展机遇,助推数据收集、数据存储、数据标注、数据治理等垂直行业的持续繁荣。不过,随着业务门槛的提高、专业需求的多样化,以及平台巨头持续发力AI基础数据服务,行业或将迎来洗牌。真正能站稳脚跟的,是那些能切实解决行业痛点,拥有数据资源积累和技术壁垒,并快速将自身业务与大模型相融合的数据服务商。

行业大模型纷纷亮相

“华为云盘古大模型不作诗,只做事。”今年7月7日,华为常务董事张平安在华为开发者大会2023(Cloud)上说道。张平安介绍,华为云盘古大模型3.0包括“5+N+X”三层架构,即5个基础大模型、N个行业大模型和X个细分场景模型,将深耕行业,致力于重塑千行百业。

去年11月底,由美国Open AI公司推出的ChatGPT聊天机器人轰动全球。这款会聊天、能作诗的大型语言模型能学习人类知识、与人类交流互动,实现了“智能涌现”。此后,国内外科技巨头纷纷入局通用大模型赛道,一场大模型领域的“军备竞赛”大幕由此拉开。

然而,要成功训练一个性能良好的通用大模型,需要强大的算力和数据支持,也离不开密集的人才储备,是一场“烧钱游戏”。据国信证券估算,GPT-3的单次训练成本就高达140万美元,对于更大的大语言模型,训练成本则介于200万美元至1200万美元之间。这对于大厂而言尚可接受,对于中小企业而言则过于昂贵。

“一方面是受限于算力、人才和资金储备,通用大模型注定是少数玩家参与的赛道;另一方面,一些面向企业客户的场景,往往需要综合考虑性能与成本,即投入的模型研发成本、模型推理成本与产生的价值是否匹配,而且一些行业的私域数据还涉及到数据安全和隐私保护等问题。这自然就促使大家更多关注行业大模型了。”锦秋基金执行董事臧天宇在接受记者采访时表示。

易华录数据要素科技创新研究院院长林镇阳在接受证券时报记者采访时说,通用大模型在垂直行业应用存在整合不足的问题,在解决医疗、法律等特定行业问题时准确度低,难以商用,研发行业大模型是推动大模型规模化落地应用的迫切需求。“大模型不应该是空中楼阁,未来一定是要落地,走向行业应用的。这是一件好事,也是正常的商业逻辑。”华创资本创始合伙人王道平在接受证券时报记者采访时表示。

与此同时,开源大模型的发展也为行业大模型提供了快速实现的可能性。臧天宇介绍,当前大多数行业大模型都是基于特定场景的数据,依靠开源大模型进行微调,从而在一些任务中取得不错的效果。“如果都是从零开始训练行业大模型的话,付出的成本太高。可以说,开源模型给过去在垂直领域形成了数据积累的玩家提供了一个更好的起点,也可以说是便宜得多的‘入场券’。”臧天宇说。

此前,行业还在热烈讨论“中国需要什么样的大模型”,如今,国内互联网巨头都用自己的行动给出了答案:百度与行业头部企业或机构共建了11个行业大模型,在能源、金融、航天、制造、传媒等领域探索落地;阿里云联合7家顶尖生态伙伴推动大模型在不同行业落地应用;腾讯云则与传媒、文旅、金融、政务、教育等行业的头部企业探索了超50个行业大模型的应用解决方案……

巨头亲自下场研发行业大模型,是否意味着中小厂商已无机会?或许未必。一家头部大模型研发公司的技术负责人向证券时报记者表示,未来大模型将应用于千行百业,这是一个巨大的蛋糕。公司研发并推出行业大模型,更多是希望让市场看到大模型在不同行业的应用前景,吸引更多垂直领域玩家加入。“我们希望构建大模型生态系统,帮助开发者开发各种AI原生应用,让各行各业享受到大模型的技术红利。”该技术负责人说。

数据要素正变得越来越重要

算力、数据、算法,被称作人工智能的“三驾马车”。一直以来,行业对于算力和算法的关注度远远高于数据。尤其在今年年初,各大国内科技巨头对标ChatGPT逐鹿中文版通用大模型,高性能芯片的短缺带来“算力荒”,算力要素成为了市场最关注的热点。然而,进入到行业大模型的“大航海时代”,算力和数据要素正悄然发生着一些变化。

“对于‘大模型’世界来说,算力是生产力,数据是生产资料,算法是生产关系。在这之中,算力是让大模型转动的前提,高质量的数据是驱动算法持续迭代的养分。”工业和信息化部电子第五研究所副所长王蕴辉在接受证券时报记者采访时说,数据不仅决定了模型的规模和质量,也影响了大模型的泛化能力和适应性。

一个行业共识是,探索大模型在各行各业的应用过程中,数据要素正变得越来越重要。7月8日,在“2023世界人工智能大会·大模型时代下的数据要素流通”论坛上,商汤科技联合创始人杨帆表示,“数据问题,对人工智能、智能化极其重要,可能是最重要的问题,没有之一。”

面对大模型的热潮,数据交易平台也在积极行动。深圳数据交易所副总经理王冠在接受证券时报记者采访时表示,随着大模型厂商关注焦点从通用能力转向垂直领域,深圳数据交易所将持续供给科研、政务、金融等行业数据,并提供数据合规、产品上市等服务。

据悉,深圳数据交易所在开放群岛开源社区联合发起成立了大模型SIG,首批发起单位包括智谱AI、百度、华为昇思社区、腾讯云、阿里魔搭社区、启智社区等26家单位,汇集了算力提供方、训练数据提供方、大模型厂商、行业应用方以及第三方法律服务机构,以“高性能模型底座+高质量垂直行业数据”双轮驱动的方式,最大程度发挥数据要素的行业应用价值。

第三方数据服务商的机遇与挑战

上海市数商协会、上海数据交易所、复旦大学、数库科技联合发布的《全国数商产业发展报告(2022)》显示,截至2022年11月,全国数商行业企业数量达到192万家。王蕴辉向记者介绍,在大模型研发应用方面,数据要素产业链的上中下游涵盖了从数据采集、分析建模到应用的整个过程。上游围绕生产环节,包含数据采集、数据清洗和标注、数据存储等;中游围绕加工环节,从数据中提取有用的信息和知识,训练构建模型;下游则围绕应用,根据客户的需求提供具体的行业或场景解决方案。

大模型的研发和应用为数据服务商提供了广阔的市场空间和需求。根据德勤今年一季度发布的《人工智能基础数据服务白皮书》,人工智能基础数据服务市场规模由2017年的8.2亿元增长至2022年的45亿元,预计2027年市场规模有望达到130亿~160亿元。

在大模型持续火热的带动下,AI基础数据服务商受到投资者青睐。记者梳理IT桔子网站数据发现,最近已有多家数据服务商获融资。整数智能获得了数千万的Pre-A轮融资,主要用于智能数据工程平台的迭代升级;聚焦搭建数据与模型的MLOps(机器学习运维)服务商星鲸科技获数千万人民币天使轮融资;为车企与自动驾驶公司提供一站式数据标注解决方案的恺望数据获战略投资,最新估值达到5亿元。臧天宇也向记者透露,公司此前有在关注数据标注、清洗领域的创业公司,一些过去在语音或自动驾驶领域提供数据服务的企业也在尝试进入大模型方向。另外,向量数据库也是锦秋基金目前关注的方向。

但行业的高景气度并不一定利好所有参与者。早在2020年,《中国AI基础数据服务行业发展报告》就提示,中小型数据供应商的整体体量仍然可观,但随着业务门槛提升和客户需求的变化,未来1~2年可能迎来一阵“倒闭潮”。这一预言在两年后的《全国数商产业发展报告(2022)》中可见端倪,虽然全国数商行业企业数量仍达192万家,但注册企业数量增长速度已为负值。

虽然企业数量的变化受多重因素影响,但行业的急剧变化与竞争格局的重塑,带来的影响不容小觑。一位有多年人工智能行业研究经历的业内人士告诉记者,以数据生产供应环节为例,除了开源数据集以外,目前研发大模型所使用的数据一般有两种,一种由第三方专业的数据服务商采集加工,另一种是基于自身掌握的数据自建团队加工处理。目前,互联网平台公司既是数据需求方,同时也往往是数据拥有方,而且拥有强大的资源优势和对算法的深刻理解。近两年,互联网平台巨头在大模型研发领域的投入持续加大,也加快了自建数据团队的步伐,第三方数据服务商的份额正在被挤占。

一个典型的例子是,最新入局“百模大战”的互联网巨头京东于7月13日发布了言犀大模型。据悉,这一大模型的训练数据由70%的通用数据和30%的原生数据组成,这30%的原生数据源于京东云与全国超百万家企业进行的产业协同,以及服务多座城市智能化管理,从而使“每年数百亿优质交互数据”回流。此外,京东还升级了两个能够积累高质量行业数据的平台,以支撑产业应用对数据的新需求。

除此以外,据记者不完全统计,包括百度、阿里巴巴、科大讯飞等在内的科技大厂都建立了自己的数据标注团队,例如,2020年,科大讯飞在贵州毕节大方县设立了智慧就业车间,开展贵州方言标注等工作;百度智能云人工智能数据标注产业基地已经在山东济南、山西临汾等10多个地方落地。

如果说科技大厂的入局在行业内搅动了浪潮,那么大模型对数据需求的变化则进一步提升了行业的“水位”。王蕴辉分析,与通用大模型相比,行业大模型的数据主要有四个方面的不同:一是更加专业,需要涵盖专业知识、术语、规则和逻辑,适应特定的需求和场景;二是更加稀缺,需从具体场景中采集数据,具有获取和整合难度;三是更加动态,需要不断进行更新扩充以适应行业的发展变化;四是更加敏感,行业大模型处理的往往是私人或带有商业机密性质的数据,需更加注重隐私保护和数据安全。

林镇阳也向记者强调,行业大模型成熟转化依赖特定的应用场景,需根据实际需求打造专业领域的数据产品开发策略,对数据集质量的要求相应也提高了。以金融领域的研报为例,曹峰介绍,研报与有相对统一规范的财务报表非常不同,研究人员会将原材料、生产流程、最新工艺等信息写得很详细,不仅知识密度很高,而且表述方式十分丰富和多元。“如果要训练大模型完成撰写研报这样的任务,成本很高,需要有真正理解研报信息的人员对数据进行准确的标注和处理,这无疑是个不小的挑战。”曹峰说。

这也就意味着,对于第三方数据服务商而言,行业大模型提高了业务的门槛,专业要求也变得更加精深了。在风起云涌的行业大模型浪潮中,谁进谁退?行业或将迎来一次洗牌。

往专业更深处钻 向塔尖更高处攀

面对行业之变,怎样的第三方数据服务商更具优势?记者采访了多位业内人士,答案主要指向两个维度:一是在专业性方面具有较深行业积累,能够根据客户需求提供定制化、场景化的基础数据服务,并提供安全、合规等方面的保障;二是具有较强商业敏感度,能快速将已有技术和产品与行业大模型场景及应用结合,从单纯提供数据向提供知识咨询、智能应用的方向转变。

王蕴辉表示,对于训练行业大模型而言,行业数据获取、数据深度处理、数据安全保障是目前最困难的几个问题。以数据获取和数据安全为例,医疗、金融等行业的数据往往受到法律法规的限制,使模型训练面临数据来源不足、质量差等问题。同时,由于行业数据具有非公开性,必须采取数据加密、数据脱敏、访问控制手段保护数据的安全性和隐私性。能解决这些行业痛点的公司,也更容易在市场竞争中胜出。

在数据深度处理能力上,王道平认为,拥有数据并不能算一个优势,最终还是得看如何有效地挖掘和利用数据,更好地解决特定的问题。前述有多年人工智能行业研究经历的业内人士分析,在一些专业门槛高的领域,掌握稀缺技术的公司更容易获得客户青睐。例如在语音数据处理方面,掌握专业的声学知识,对音素、韵律、重音等内容具有标注经验,且具备语音合成技术的公司目前还比较稀缺,具有更强的市场竞争力。

中国信息通信研究院工程师王超伦向证券时报记者介绍,数据服务分为四个层级,自下至上分别为数据即服务、分析即服务、知识即服务、智能即服务。前两者主要是为客户提供所需的数据以及基于数据进行分析挖掘,是目前大多数数据服务商的服务模式。后两者是以知识咨询和AI模型形式对外提供服务。

王冠认为,“大模型热”表明数据要素的智慧应用价值,大数据行业从简单的取数、查数向智慧用数迈入了新的发展阶段。“大模型视角下,大数据行业的核心价值是数据飞轮,将数据生产、数据应用、数据消费三大环节有机结合起来,并且通过一系列的数据工具实现三者之间的往复转动与良性循环。”王冠表示。

因此,随着大模型的逐步发展以及在各个行业中探索应用,越来越多的数据服务商正在思考如何将自身业务与大模型结合,“向塔尖更高处攀”,以在激烈的市场竞争中抢占先机。未来,“智能即服务”或将更多出现在公众的视野中。

一名第三方数据服务商负责人告诉记者,当前市场各方正在积极对接需求与信息,研发大模型的企业正在寻求应用场景和领域数据,而数据服务商也正在论证大模型可以升维哪些场景和应用能力;曹峰表示,数库科技此前积累了大量金融财经类领域的词库和语料,目前正着手基于开源大模型,针对已有的语料和知识库进行微调,并将进一步升级数据体系;林镇阳向记者透露,易华录基于深耕交通领域20余年的业务理解,正致力于构建高质量数据集和交通行业大模型……

长风已起,浪潮已至,拥抱变化和积极变革者胜。在这场充满机遇与挑战的行业变局中,谁是大浪淘沙后留下的真金,还需等待时间给我们答案。

数据要素很重要 缘何数据赛道却静悄悄

最近,关于大模型的政策与措施密集出台,好消息不断传来。7月13日,国家网信办等七部门联合发布了《生成式人工智能服务管理暂行办法》,鼓励生成式人工智能技术在各行业、各领域的创新应用;而就在消息发布前的一周,上海人工智能实验室正式开源了“书生·浦语”大模型70亿参数轻量级版本InternLM-7B,支持免费商用,基于这一基座模型,各企业与研究机构可以开发打造各自垂直领域的大模型。

这些政策措施,体现了国家促进生成式人工智能健康发展和规范应用的态度,也给行业大模型加速应用带来了更多的确定性。采访过程中,几乎每个采访对象都向记者表示,行业大模型浪潮下,数据直接决定行业大模型的专业度与精准度,重要性正不断凸显。

这样的论断似乎成了一种“行业正确”,可一个问题却始终萦绕在记者心头:都说数据、算力、算法是人工智能的三大基础要素,为何算力赛道如此喧嚣,芯片、服务器、光模块等市场热点层出不穷,数据赛道却显得有些“尴尬”和不温不火?

事实上,这也是业内许多人士的相同感受。综合来看,背后的原因与数据产品的特殊性、目前数据交易市场的不成熟等多重因素有关。

就数据产品本身而言,其“非标准化”和“难以通用”的特性,决定了数据产品很难在市场上形成统一和“公允”的价值。算力要素中的基础硬件往往是明码标价的“硬通货”,芯片、服务器等成本均可以计算,能够在不同的行业大模型研发中通用,市场价值较易体现。可是数据价值需在特定的场景中实现,数据的规模、质量也无法统一衡量。大量细碎、非标准、定制化的场景应用,让数据产品难以实现大规模流转。

就数据交易市场而言,目前我国在数据合规确权、计量估价、协调分配、安全隐私保护等方面的基础性难题仍待破解,尤其是在数据确权方面,还没有形成明确的规范。对于行业大模型而言,数据具有私域属性,有一定的获取壁垒,在安全和隐私性上面有更高的要求。一直以来,数据源违规收集、个人隐私泄露等安全风险是各国监管机构对生成式人工智能的最大顾虑,也是影响大模型落地的最大不确定性因素之一。在基础性制度和规则尚未明确的情况下,数据交易和数据服务也面临种种限制和障碍。

不过,随着大模型在各个领域的应用不断走深,行业内对高质量数据集的“饥渴”将促进数据产业链的整体发展,相关方面也已经积极行动起来。工信部电子第五研究所副所长王蕴辉介绍,目前所里已经联合产业侧成立了“大模型产业应用工作组”,从加速数据要素市场化、完善数据要素安全治理体系等方面引导并规范行业发展。在大模型商业化应用需求的刺激带动下,数据生态系统建设有望加快,数据要素市场也或将迎来长足的繁荣。

责编:万健祎

校对:姚远

版权声明

证券时报各平台所有原创内容,未经书面授权,任何单位及个人不得转载。我社保留追究相关行为主体法律责任的权利。

特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相关推荐
热点推荐
端午将至,江西发公告严禁龙舟挂黑黄旗,其中隐藏哪些含义?

端午将至,江西发公告严禁龙舟挂黑黄旗,其中隐藏哪些含义?

毒舌混知所
2024-06-08 07:45:02
回顾:母亲没了,高考前一天父亲没了!2021年夏天全网都在心疼他

回顾:母亲没了,高考前一天父亲没了!2021年夏天全网都在心疼他

小胡子谈汇
2024-06-08 12:01:52
网友偶遇窦唯,本人近照变化大,刮掉胡子剪掉长发显年轻,很低调

网友偶遇窦唯,本人近照变化大,刮掉胡子剪掉长发显年轻,很低调

只聊综艺
2024-06-08 22:35:36
中方划红线不到48小时,荷兰率先“触了霉头”,中方直接连将两军

中方划红线不到48小时,荷兰率先“触了霉头”,中方直接连将两军

三分亮剑
2024-06-06 19:24:10
106国参加瑞士和会:中方拒绝参会,与世界文明为伍,勿忘雅尔塔

106国参加瑞士和会:中方拒绝参会,与世界文明为伍,勿忘雅尔塔

大风文字
2024-06-03 10:27:47
在监狱里裁缝机真的是个梗吗?直到看到网友的分享,真的笑不活了

在监狱里裁缝机真的是个梗吗?直到看到网友的分享,真的笑不活了

相声段子超市
2024-06-08 13:21:13
王传福“隔空”回应余承东!半个车圈大佬发声

王传福“隔空”回应余承东!半个车圈大佬发声

中国基金报
2024-06-09 00:11:43
惯用套路?美媒挖库班16年离间言论:雷霆只有一个超巨

惯用套路?美媒挖库班16年离间言论:雷霆只有一个超巨

直播吧
2024-06-09 09:28:07
王毅将赴俄出席金砖国家外长会晤,俄罗斯今年有点热闹啊

王毅将赴俄出席金砖国家外长会晤,俄罗斯今年有点热闹啊

新民周刊
2024-06-08 09:09:12
超3万亿美元!曾给小米站台的黄仁勋,成了雷军口里的飞天神猪!

超3万亿美元!曾给小米站台的黄仁勋,成了雷军口里的飞天神猪!

飞哥数码时光
2024-06-07 19:40:13
德米拉尔:马赫雷斯跟我说瓜帅很疯狂,会凌晨两点打电话解释战术

德米拉尔:马赫雷斯跟我说瓜帅很疯狂,会凌晨两点打电话解释战术

直播吧
2024-06-08 13:36:09
胡塞武装讲述打击美航母行动

胡塞武装讲述打击美航母行动

参考消息
2024-06-08 18:56:09
一个家族绝后了意味着什么?评论区炸锅了,网友回复:太真实了!

一个家族绝后了意味着什么?评论区炸锅了,网友回复:太真实了!

有趣的羊驼
2024-06-06 14:26:32
千万别墅,巨额资产!前儿媳举报公公后续:官方回复,果然有情况

千万别墅,巨额资产!前儿媳举报公公后续:官方回复,果然有情况

皖声微言
2024-06-08 12:48:05
官宣!亚足联正式将张玉宁中泰之战的绝平球,算在了拜合拉木身上

官宣!亚足联正式将张玉宁中泰之战的绝平球,算在了拜合拉木身上

评球论事
2024-06-08 22:44:33
原来这么多工作需要保密!网友:儿子跟同学说他在监狱里长大的!

原来这么多工作需要保密!网友:儿子跟同学说他在监狱里长大的!

蜗牛壳里
2024-06-06 15:11:08
新华社消息|中方欢迎更多国家支持并加入中国、巴西关于解决乌克兰危机的共识

新华社消息|中方欢迎更多国家支持并加入中国、巴西关于解决乌克兰危机的共识

新华社
2024-06-08 11:25:51
越闹越大!女子戴“日本必胜”头带后续:身份被曝光,果然有情况

越闹越大!女子戴“日本必胜”头带后续:身份被曝光,果然有情况

蜗牛壳里
2024-06-09 02:43:12
组建自然资源和城乡建设局,不再保留自然资源和规划局!

组建自然资源和城乡建设局,不再保留自然资源和规划局!

文雅笔墨
2024-06-08 17:48:52
老人摔倒无人扶最终死亡,家属将路人告上法庭,法院这样宣判

老人摔倒无人扶最终死亡,家属将路人告上法庭,法院这样宣判

娱乐洞察点点
2024-06-09 07:10:23
2024-06-09 11:04:49
证券时报
证券时报
证监会指定信息披露媒体
605660文章数 235832关注度
往期回顾 全部

科技要闻

王传福隔空回应余承东!半个车圈大佬发声

头条要闻

"金价大跌"话题冲上热搜 有金店1克黄金便宜了70元

头条要闻

"金价大跌"话题冲上热搜 有金店1克黄金便宜了70元

体育要闻

魔笛点射 C罗缺阵葡萄牙1-2克罗地亚

娱乐要闻

汤唯抵达巴黎将担任奥运火炬手

财经要闻

疯狂抄底,中东土豪横扫中国资产!

汽车要闻

上汽大通大家9售26.99万起 综合续航1300km+

态度原创

艺术
本地
教育
游戏
军事航空

艺术要闻

穿越时空的艺术:《马可·波罗》AI沉浸影片探索人类文明

本地新闻

我和我的家乡|踏浪营口,心动不止一夏!

教育要闻

全国多地公布2024年高考查分时间

爆料显示玩家明天终于又可以看到《腐烂国度3》了

军事要闻

胡塞武装逮捕多名联合国工作人员

无障碍浏览 进入关怀版