网易首页 > 网易号 > 正文 申请入驻

AI语料论坛火爆,算法创新下,语料仍是行业核心资产

0
分享至

漕河泾会议中心,座无虚席。2月22日,2025全球开发者先锋大会召开首日,一场以语料为主题的论坛吸引了众多开发者和创业者的围观,甚至连通道上都站满了认真聆听的观众。论坛承办方上海库帕思科技有限公司董事长山栋明说:“一开始觉得这个场地大才选了这里,但大家的热情超出了我们的想象。”

人们为什么如此关心语料?语料是构建和训练AI模型,尤其是自然语言处理模型的基础语言材料,通俗的说,就是训练AI模型的一种原材料。它们有可能是传统的文字,还可能是语音、图像和视频等多种类型的数据。

语料的质量高低,将直接决定AI模型的性能高低。正如在这场大会上被反复提及的一个观点,语料已经成为AI时代的一种核心资产。

所以,无论是做基础模型的开发者,还是AI应用的创业者,都十分关心语料的发展。然而,随着AI模型的快速迭代,真实世界的语料正在面临枯竭。蜜度科技CTO刘益东表示,由于算法和算力不断优化,对语料的需求量正越来越大,以数据作为载体的语料也就变得越来越稀缺。

算法创新是否可以减少语料需求曾受到质疑。比如说,当前爆火Deepseek就通过模型算法创新和强化学习,减少了对标注数据的使用,被业界认为是革命性的进展,让外界一度认为标注数据的未来需求会减少。但这次论坛上,不少业内人士表示,随着算法优化,模型搭建的成本降低,将有更多的AI开发者涌进赛道,语料的总体需求量仍会增加,业界称此规律为“杰文斯悖论”。

“在算法的大规模创新后,未来大模型可能会陷入一种‘算法谄媚’的状态,也就是说算法成本越来越低,数据价值越来越高,所以未来语料的配置会非常重要。”山栋明说。

为了解决语料枯竭问题,当前业界的主流趋势是使用“合成数据”。这是一种通过AI模型利用真实语料生成的仿真数据,也可以用作AI模型的训练。马斯克的xAI刚刚发布的Grok-3就是在大量合成数据的基础上训练而成的。上海交通大学副教授刘鹏飞认为,合成数据就是下一代大模型训练最核心的事情。

但需要注意的是,合成数据的发展目前仍不成熟,面临着真实性不稳定、评价体系不一等问题,这会放大AI模型的“幻觉”问题。Google DeepMind的实验显示,当代码生成模型仅使用自身合成数据迭代训练时,代码安全漏洞率从初代的12%飙升至第五代的67%。

所以回到语料的本源,作为合成数据基础的真实语料将更加重要,语料质量也将更受关注。当合成数据创造虚拟世界的海市蜃楼时,真实语料如同大地之锚,确保人工智能的发展不会迷失在算法幻象之中。

要提升语料的质量,需要提升语料来源、收集、处理等全环节的质量,但这一过程却面临许多现实困难。一位医疗AI创业者在论坛上表示,其公司刚刚发布的医疗垂类模型,最初收集了医院系统重30多TB的数据,但最后真正能用进模型的语料不到1TB,因为现实中大量数据的重复的,在数据清洗环节中就淘汰掉了,实际可用的高质量临床数据非常少。

为了提高语料这一生产要素的供给水平,赋能更多AI大模型创新发展,上海正在行动。在这次论坛上,包括模塑申城语料普惠计划之语料数据智能创意大赛、2025语料风云榜招募令、具身智能语料专项工程、语料工作委员会的四项工作已正式启动。未来,上海将汇集更多高质量语料库,以完善的语料服务生态,吸引更多AI产业落地。

原标题:AI语料论坛火爆,算法创新下,语料仍是行业核心资产

栏目主编:李晔

来源:作者:解放日报 吴丹璐

特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相关推荐
热点推荐
辛纳女友发布清凉照,澳网开赛前夕引发热议

辛纳女友发布清凉照,澳网开赛前夕引发热议

体育妞世界
2026-01-18 22:22:57
这国总理表态:乌克兰不可能偿还!

这国总理表态:乌克兰不可能偿还!

每日经济新闻
2026-01-18 15:12:51
贾国龙再发声:西贝冷冻西蓝花比市面普通市价高80%-120%,“从来不存在两岁的西蓝花”

贾国龙再发声:西贝冷冻西蓝花比市面普通市价高80%-120%,“从来不存在两岁的西蓝花”

每日经济新闻
2026-01-18 20:35:54
欧盟多国考虑对930亿欧元输欧美国商品加征关税

欧盟多国考虑对930亿欧元输欧美国商品加征关税

财联社
2026-01-19 03:37:04
新加坡媒体锐评呆呆杀猪宴,15字一针见血,直戳每一个中国人心坎

新加坡媒体锐评呆呆杀猪宴,15字一针见血,直戳每一个中国人心坎

林雁飞
2026-01-18 17:26:43
徐寅生:国家用纳税人的钱培养运动员 打不打奥运会不该由WTT决定

徐寅生:国家用纳税人的钱培养运动员 打不打奥运会不该由WTT决定

念洲
2026-01-18 16:12:52
两人消费1400被上海服务员嘲讽!网友:在上海1400只能吃个路边摊

两人消费1400被上海服务员嘲讽!网友:在上海1400只能吃个路边摊

火山诗话
2026-01-18 11:19:13
央视播报聂卫平遗体送别仪式 大儿子孔令文携弟妹扶遗像到场

央视播报聂卫平遗体送别仪式 大儿子孔令文携弟妹扶遗像到场

劲爆体坛
2026-01-18 13:18:09
3球被吹3球中框!巴萨1-2不敌皇社11连胜戛然而止,皇马笑纳大礼

3球被吹3球中框!巴萨1-2不敌皇社11连胜戛然而止,皇马笑纳大礼

钉钉陌上花开
2026-01-19 06:07:51
登机离京前,卡尼先通告中国,用11字定义中加关系,最大输家出现

登机离京前,卡尼先通告中国,用11字定义中加关系,最大输家出现

书纪文谭
2026-01-18 00:20:15
震惊!网传相亲市场有女子债务非常严重,十几个app征信洗不白了

震惊!网传相亲市场有女子债务非常严重,十几个app征信洗不白了

火山诗话
2026-01-18 13:13:45
49岁翁帆官宣喜讯,太令人惊喜了!

49岁翁帆官宣喜讯,太令人惊喜了!

神奇故事
2026-01-18 21:57:09
高圆圆胯怎么这么大?不对劲

高圆圆胯怎么这么大?不对劲

可乐谈情感
2026-01-19 01:27:17
终于封海!“正式交锋”已打响,中国人民解放军不再口头警告

终于封海!“正式交锋”已打响,中国人民解放军不再口头警告

爱吃醋的猫咪
2026-01-17 21:54:38
李亚鹏连播5小时销售额超千万,直播间涌进7万人跑车、嘉年华不断,嫣然天使基金筹款超1600万元,众多受益者发声

李亚鹏连播5小时销售额超千万,直播间涌进7万人跑车、嘉年华不断,嫣然天使基金筹款超1600万元,众多受益者发声

极目新闻
2026-01-18 17:39:33
英超下课第7人呼之欲出 51岁名帅炮轰俱乐部 老板怒不可遏

英超下课第7人呼之欲出 51岁名帅炮轰俱乐部 老板怒不可遏

叶青足球世界
2026-01-18 19:40:15
包钢分厂爆炸震碎10公里外玻璃门,商户:听到一声响然后看到玻璃碎了

包钢分厂爆炸震碎10公里外玻璃门,商户:听到一声响然后看到玻璃碎了

极目新闻
2026-01-18 20:18:29
国乒退队潮来袭!6男2女悄悄告别,主力伤病逼出最残酷新老交替

国乒退队潮来袭!6男2女悄悄告别,主力伤病逼出最残酷新老交替

老特有话说
2026-01-18 22:49:06
宁波24岁小伙深夜聚餐后当场吐血被送医,医生从肺部取出一枚笔帽,“天啊,这不是我小学六年级弄丢的那枚笔帽吗?”

宁波24岁小伙深夜聚餐后当场吐血被送医,医生从肺部取出一枚笔帽,“天啊,这不是我小学六年级弄丢的那枚笔帽吗?”

环球网资讯
2026-01-18 07:26:07
1-1扳平到0-1被绝杀!中国队不胜越南 亚洲杯迎复仇良机 赛程如下

1-1扳平到0-1被绝杀!中国队不胜越南 亚洲杯迎复仇良机 赛程如下

侃球熊弟
2026-01-19 00:19:07
2026-01-19 06:24:49
上观新闻 incentive-icons
上观新闻
站上海,观天下
420690文章数 758836关注度
往期回顾 全部

科技要闻

AI大事!马斯克:索赔9300亿元

头条要闻

特朗普建"联合国"自任主席 邀60国加入仅1国接受

头条要闻

特朗普建"联合国"自任主席 邀60国加入仅1国接受

体育要闻

21年后,中国男足重返亚洲四强

娱乐要闻

香港武打演员梁小龙去世:享年77

财经要闻

BBA,势败如山倒

汽车要闻

又一次闷声干大事,奇瑞进入2.0 AI+时代

态度原创

本地
健康
旅游
手机
数码

本地新闻

云游内蒙|黄沙与碧波撞色,乌海天生会“混搭”

血常规3项异常,是身体警报!

旅游要闻

泸溪河畔藏千年,避开商业化,这座千年古镇才是真江南!

手机要闻

荣耀Magic8 Pro Air手机线下展出,影像、显示等核心参数公开

数码要闻

保时捷设计推C-Seed折叠电视,售价超三台911

无障碍浏览 进入关怀版