网易首页 > 网易号 > 正文 申请入驻

互联网数据“耗尽”后,高质量训练数据从哪里获得?专家热议

0
分享至

7月28日,2025世界人工智能大会暨人工智能全球治理高级别会议在上海举行。在“大模型治理和有序发展生态分论坛”上,多位专家围绕大模型时代的数据治理与伦理建设,共商人工智能健康发展路径。有专家指出,互联网数据将在2026年左右被大模型训练“耗尽”已成行业共识,要建设新的高质量数据集,应从垂直行业获取、通过“众包众创”方式与前沿学校学者开展合作等实现。

论坛现场

对未处理的初级数据,比如语音、图像、文本、视频等进行加工处理,进而转换为机器可识别信息的过程,通常被称为数据标注。近年来,随着人工智能技术发展,数据标注成为大模型训练的必要环节,其上游产业需求大量增加。

据南都记者了解,海量、高质量的标注数据成为人工智能快速发展重要支撑的同时,该行业统一标准缺乏、标注质量不齐、人力水平与技术需求不匹配等问题也日益凸显,如何推动数据标注产业高质量发展备受关注。

上海库帕思科技有限公司首席运营官施佳樑在会上分享了他对数据标注行业的观察。随着人工智能技术的发展,数据标注行业正经历从人力密集型向知识密集型转变。从前,数据标注行业对就业的带动效果较为明显,主力人群为四、五线城市的大专生,涉及图像识别和语音转写等简单任务。

然而,随着大模型的引入,对高质量数据集的需求增加,标注工作开始涉及更复杂的学术难题和行业专业知识。据他观察,如今越来越多的高校学者、各行业的资深专家参与到数据标注过程中,以构建具备强推理思维链的数据和行业语料库。这种转变不仅提升了标注行业的专业性,也引发该就业市场的巨大变化。

“机器的自动合成往往是基于专家的标注,专家人工编写以后,再由机器完成二次合成。标注行业往高阶发展就会是这样的趋势。”他表示,今后在构建行业语料库的过程中,简单标注的数据标注师或逐渐被取代。

高质量数据集已成为人工智能发展的核心驱动力。百度技术委员会理事长陈尚义在会上谈到,大模型发展至今,高质量数据短缺的情况越发严重,合成数据已逐渐成为应对大模型训练数据短缺的新思路,但也存在许多顽固问题。

他强调,合成数据通常存在缺陷、误差、歧视等问题。原因在于合成数据也是基于现有数据生成或是受到现有数据的影响。“如果算法有偏见的话,它可能会带来更大的数据偏见,导致‘Garbage in garbage out’。”另一方面,合成数据存在伦理、公平性和隐私泄露的风险。“通过合成数据的‘逆向工程’,能够猜到原本数据中包含的一些个人隐私。”

施佳樑也表示,如今行业内已基本达成共识,无论国内国外,2026年左右互联网数据即将被大模型训练耗尽。那么,作为增量的高质量数据应从哪里获得?

施佳樑认为可以从三个方向发力。一是来自于当前各个垂直行业,各大互联网数据更多是作为通用数据来源,但每个垂直行业积累了海量专业知识,比如金融、教育、文旅行业等专业数据都非常值得重视。不过值得注意的是,行业数据作为模型的高级燃料,也是垂类公司最深的“护城河”,如何呼吁各行业形成数据“联盟”,共享行业语料,形成正向循环还值得思考。

二是希望通过“众包众创”方式,联合学术前沿的学校老师开展合作,共同构建高质量数据集。“据我观察,很多学科可能在学术前沿方面走得比企业更远,企业更多关注市场性的问题。”三是对于具身智能等特定领域,此前并无机器人动作数据等积累,需“从无到有”建立数据采集场进行真机采集。

去年3月,全国首家人工智能语料公司“库帕思”在上海成立。南都记者了解到,今年大会期间,该公司宣布启用全国首个语料运营公共服务统一门户,推动语料调用服务智能体化。同时,其内部运行的语料工具链平台,目前已完成400多个功能模块,在医疗、教育、金融、城市治理等领域投入实战。

施佳樑提到,上海有数据集团、数据交易所的情况下,还要成立库帕思这一专门提供大模型语料服务的公司,主要原因在于人工智能大模型领域的数据治理,与传统的数据治理存在较大差异。

他解释,传统数据更多以数值、结构化形态存在,“比方说一个区域有多少人,这个区域的房价是多少,人均收入是多少,每一个人的存款有多少,都是数值型的。”传统的数据治理更注重于数据清洗环节,去掉一些空值、无效或异常数据等。

大模型能够分析复杂的非结构化数据,其语料有高密度、高专业性需求,它需要理解数据内容,比如一道数学题的推理过程,一篇期刊论文里面的化学分子式等,其间会用到图像识别、自然语言处理等技术,处理的数据模块可能包含文本、图像、音频等形式。“数据应用场景不同,治理思路也不同。”

采写:南都N视频记者 樊文扬 杨柳 王子黎 发自上海

特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相关推荐
热点推荐
太扎心!辽宁一中年男子小便怒斥妻子举布遮挡稍高,就撒手人寰了

太扎心!辽宁一中年男子小便怒斥妻子举布遮挡稍高,就撒手人寰了

火山詩话
2026-03-26 06:16:11
周杰伦继续割韭菜!网友一针见血:他唯一和华流关系最大的是割大陆韭菜

周杰伦继续割韭菜!网友一针见血:他唯一和华流关系最大的是割大陆韭菜

爆角追踪
2026-03-26 08:56:24
震惊!网传福建一公司提醒员工,出现心梗前兆,先保存文件再救命

震惊!网传福建一公司提醒员工,出现心梗前兆,先保存文件再救命

火山詩话
2026-03-26 06:50:40
不法之徒村田晃大,正面照曝光

不法之徒村田晃大,正面照曝光

新京报
2026-03-26 11:18:17
张雪峰去世事件升级!很多人连夜下单AED,有店铺一天销售100多台

张雪峰去世事件升级!很多人连夜下单AED,有店铺一天销售100多台

火山詩话
2026-03-26 07:32:38
马英九基金会决定中止今年两岸青年交流,马应该出面声明!

马英九基金会决定中止今年两岸青年交流,马应该出面声明!

达文西看世界
2026-03-26 10:58:22
吃饺子没蘸酱油进监狱了,这是真的

吃饺子没蘸酱油进监狱了,这是真的

深度报
2026-03-25 22:55:01
张雪峰员工:办公室已拆掉红色锦旗,员工彻夜难眠,家长电话打爆

张雪峰员工:办公室已拆掉红色锦旗,员工彻夜难眠,家长电话打爆

每日人物
2026-03-26 13:34:51
倒计时开始!特朗普将迎来终极翻车时刻!

倒计时开始!特朗普将迎来终极翻车时刻!

一个坏土豆
2026-03-25 20:56:19
中国、俄罗斯、伊朗等123票赞成,美国、以色列等3票反对,联合国认定:最严重反人类罪!英法德日等52国投弃权票

中国、俄罗斯、伊朗等123票赞成,美国、以色列等3票反对,联合国认定:最严重反人类罪!英法德日等52国投弃权票

每日经济新闻
2026-03-26 13:25:09
A股:上午冲到3937后再跳水,种种迹象表明,A股或迎更大调整行情?

A股:上午冲到3937后再跳水,种种迹象表明,A股或迎更大调整行情?

股市皆大事
2026-03-26 12:17:48
中国电信:全面转向token经营!

中国电信:全面转向token经营!

最通信
2026-03-25 20:45:14
快递每次都被邻居大妈拿走,我改成货到付款,不到三天物业打电话

快递每次都被邻居大妈拿走,我改成货到付款,不到三天物业打电话

船长与船1
2026-03-26 09:44:01
约基奇23+21+19创纪录!掘金险胜独行侠 穆雷53+9三分赛季新高

约基奇23+21+19创纪录!掘金险胜独行侠 穆雷53+9三分赛季新高

醉卧浮生
2026-03-26 12:35:12
热搜上63万人破防的“奥特曼蛋糕”事件:有毒父母,逼疯中国孩子

热搜上63万人破防的“奥特曼蛋糕”事件:有毒父母,逼疯中国孩子

小椰子专栏
2026-03-25 13:00:11
张雪峰离世!北京苏州房产不在名下,1400名员工等安抚,好友停工

张雪峰离世!北京苏州房产不在名下,1400名员工等安抚,好友停工

阿纂看事
2026-03-25 21:31:59
刘晓庆外甥再爆料:刘晓庆已死亡,相关聊天记录曝光,让网友破防

刘晓庆外甥再爆料:刘晓庆已死亡,相关聊天记录曝光,让网友破防

快乐娱文
2026-03-26 09:18:37
这就是徐志摩爱而不得的林徽因中年时的真实长相,大家看看吧!

这就是徐志摩爱而不得的林徽因中年时的真实长相,大家看看吧!

小椰的奶奶
2026-03-26 09:50:43
佳兆业预告扭亏为盈超500亿,深圳核心项目价值凸显

佳兆业预告扭亏为盈超500亿,深圳核心项目价值凸显

乐居财经官方
2026-03-26 10:14:46
跟着黄仁勋下注:如今的token可能就是20年的房子

跟着黄仁勋下注:如今的token可能就是20年的房子

梦大明白
2026-03-24 11:05:49
2026-03-26 14:55:00
南方都市报 incentive-icons
南方都市报
换一种方式,南都在现场。
602930文章数 3587789关注度
往期回顾 全部

科技要闻

Meta高管狂分百亿期权,700名员工却下岗

头条要闻

担心特朗普突然停战 以总理下令48小时尽力摧毁伊设施

头条要闻

担心特朗普突然停战 以总理下令48小时尽力摧毁伊设施

体育要闻

35岁替补门将,凭什么入选英格兰队?

娱乐要闻

张雪峰家人首发声 不设追思会丧事从简

财经要闻

黄仁勋:芯片公司的时代已经结束了

汽车要闻

一汽奥迪A6L e-tron开启预售 CLTC最大续航815km

态度原创

游戏
数码
教育
本地
亲子

外媒锐评PS去年错得离谱!发行商排名21 被微软甩开

数码要闻

配件制造商清单泄露:2026款iPad将搭载A18芯片

教育要闻

高考地理中的花海经济

本地新闻

救命,这只酱板鸭已经在我手机复仇了一万遍

亲子要闻

躺平的孩子意外觉醒了,在父母学会当“乌龟”!

无障碍浏览 进入关怀版