本文约2700字,预计5.4分钟阅读完毕
商务君按:在全球互联网语料中,英文语料占比59.8%,而中文只占到1.3%。高质量中文语料稀缺,将直接影响国产AI大模型的训练,如何解决这一问题?在近期举办的2026中国网络媒体论坛上,长期从事AI语料体系研究的专家施其明,针对中文语料供给问题给出了可行性建议。
![]()
算力军备竞赛的硝烟尚未散尽,一场更深层的战略焦虑正在AI产业圈蔓延——支撑下一代大模型训练的高质量中文语料,严重告急。
在2026中国网络媒体论坛“善用善治:AI内容规范发展”主题论坛案例分享环节,长期从事AI语料体系研究的专家施其明,围绕中文语料供给问题作出系统阐述。与以往不同的是,这一次,他不仅给出判断,也带来了一套经过实践验证的整体性框架。
![]()
“语料问题,本质上不是技术问题,而是战略问题。”施其明说。
在他的研究体系中,算法、算力与语料构成AI发展的三大核心变量。前两者已在政策与产业层面获得高度重视,而语料,尤其是高质量中文语料,却长期游离于战略视野之外。
“语料承载价值导向,也塑造模型的理解方式。”他说,“如果模型主要依赖英文数据成长,它对世界的认知框架、表达习惯乃至价值判断,都会不可避免地产生偏移。”
他判断,这种结构性忽视,正在产生代价。
失衡:1.3%意味着什么
“59.8%对1.3%。”
这是英文与中文在全球互联网语料中各自占据的份额。在施其明看来,这种差距并不会停留在统计层面,而会在模型能力上不断放大,并最终反馈到产业应用之中。
尤其在垂直领域,这一问题表现得更为突出。当前,医疗、法律、制造等专业场景对大模型的需求快速增长,但能够支撑垂类模型训练的高质量中文语料却极为稀缺。
“有需求,没数据,这是很多团队正在面对的现实。”他说。
在长期研究基础上,施其明将中文语料供给的结构性问题归纳为4个方面:一是全球语料结构失衡,导致中文语境被边缘化;二是垂直领域专业语料匮乏,制约行业模型发展;三是语料标注标准不统一,高水平标注能力不足;四是高价值数据分散,形成“数据孤岛”,流通机制缺失。
“这不是单点问题,而是供给体系层面的失灵。”他说。
更紧迫的,是时间窗口正在收窄。随着大模型训练成本不断攀升,公开数据资源逐步被消耗殆尽,行业竞争正从“谁能用数据”,转向“谁能获取高质量私域数据”。
“下一阶段,比拼的是数据质量与组织能力。”施其明判断,“这个窗口期不会太长。”
在他的分析中,语料已成为继算力之后,决定AI竞争格局的关键变量。“算力可以通过投入获得,技术可以通过研发突破,但语料,尤其是承载本土知识体系与文化结构的高质量中文语料,没有现成路径,只能系统建设。”他说。
破局:一个超预期的答案
面对这一结构性缺口,施其明并未直接给出宏观解法,而是选择从具体场景入手,验证语料供给体系的可行路径。
2025年,他与团队将目光投向出版业,将其作为第一个实验性切口。这一选择,源于他对“高质量语料应具备何种特征”的反向推导。
“一个理想的语料来源,应同时具备3个条件:内容经过严格筛选,结构具备系统性,生产过程具备可控性。”施其明说,“沿着这个标准去看,出版体系具备典型特征。”
在他看来,出版流程本身就是一套成熟的质量控制机制。从选题论证到专家评审,再到“三审三校”,内容在进入市场之前已完成多轮筛选与校验,相较于互联网数据,具备更高的可靠性与更低的噪声水平。
同时,书籍在文本结构上的优势,也与大模型训练需求高度契合。系统化的知识组织、完整的论证链条、稳定的语义结构,使其成为训练长文本理解与复杂推理能力的重要数据来源。
“当前模型在处理复杂长文本任务时的不稳定表现,很大程度上源于训练数据结构的缺失。”施其明说,“出版内容所提供的,是一种‘能力型语料’。”
在实践过程中,他进一步将关注点从内容延伸至生产主体。施其明注意到,编辑群体在长期工作中形成的内容判断能力与规范执行能力,与语料加工需求高度契合。
“编辑的工作,本质上是对语义进行精细加工与标准化处理。”他说,“很多编辑在一个专业方向深耕10年、20年,他们做的语义判断,是任何自动化工具都替代不了的。”
在这一逻辑下,出版体系不仅是内容来源,也构成语料加工的重要节点。目前,部分出版机构已参与相关实践,完成了从语料测评、加工到流通的全流程验证。
“我们更关心的是路径是否成立。”施其明说,“从结果来看,这种以专业内容体系为基础、以人工能力为支撑的语料供给方式,是可以跑通的。”
在他的整体框架中,出版业的意义,并不在于其行业属性本身,而在于提供了一种可复制的方法——即如何将既有的知识生产体系,转化为面向人工智能的高质量数据供给体系。
蓝图:面向"十五五"的系统工程
在施其明的构想中,出版业只是起点,而非终点。
“出版体系承载的是存量知识,而AI的应用还涉及动态决策与前沿探索。”他说,“真正的语料体系,必须覆盖更广泛的知识生产网络。”
基于这一判断,他将语料供给体系的扩展路径指向基础教育、高等教育、科研机构与智库体系等多个知识生产节点。“所有具备系统化知识生产能力的机构,都可以成为语料供给节点。”他说。
最终,这些节点将被组织为一个统一的体系,形成自主可控、安全合规、标准统一的国家级中文语料库。“目标是从根本上改变中文语料的弱势地位,为国产AI构建稳定的数据基座。”施其明说。
围绕这一目标,他将实现路径拆解为3个层面。
在制度层面,他强调标准体系建设的先行性。“当前最大的问题,是缺乏统一标准,导致语料质量无法衡量,数据也难以流通。”他建议由国家层面牵头,联合科研机构与行业主体,制定覆盖采集、清洗、标注与共享的全流程标准。“有了标准,产业才能从分散走向协同。”
在技术层面,他指出工程化能力的缺口。“从学术研究到规模化生产之间,仍存在明显断层。”他建议加强产学研协同,重点突破知识型语料加工的关键技术,构建可规模复制的加工体系。
在流通层面,他认为激励机制是关键所在。“数据确权、收益分配与安全流通机制不完善,会直接影响高价值数据的供给意愿。”他建议依托可信数据空间等基础设施,探索语料确权与交易机制,“让语料资源在安全合规的轨道上高效流动,而不是继续沉睡在各自的孤岛里”。
“语料体系建设,是一项长期工程,它既关系当下竞争,也决定未来格局。”施其明说。人工智能的竞争,正在从技术能力的比拼,转向基础资源与体系能力的较量。
“铸实基座,方能始通新途。”他说,“基座不牢,走得再快,也难以走远。”
*本文图片由施其明团队提供
编辑:杨志敏
审核:盛 娟
终审:陈佳楣
分享、在看与点赞,商务君至少要拥有一个
特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.