近日,教育部语言文字信息管理司“国家语言资源监测与研究中心”发布2025年度中国语言文字信息化十大新闻。
由广州市社科联与广州大学联合建设的粤语语料库建设与大模型评测重点实验室原创应用成果AI-DimSum多模态通用粤语语料库平台以第四序列入选,成为国家数字中文建设的关键领域标杆。
![]()
图源AI-DimSum官网
国家战略牵引:实验室应运而生
2024年11月14日,广州社科重点实验室——“粤语语料库建设与大模型评测重点实验室”正式成立。该实验室旨在通过“粤语+人工智能”文化科技融合创新,推动岭南文化传承、传播和创新发展。
针对粤语的人工智能友好型语料库建设的现实问题,粤语语料库建设与大模型评测重点实验室牵头,开发了以“文化忠实、安全可信、AI友好、持续成长”为特色的AI-DimSum通用粤语语料库。
该语料库提供的不只是单纯的“语料收集”或“语言档案保存”,而是一整套“从语料获取到AI应用落地”的闭环服务,是服务多种需求,特别是面向人工智能应用的新型方言语料库。
创新技术架构:
七大子系统实现全流程闭环
AI-DimSum粤语语料库平台首创语料采集、标注、大模型对接、确权检索、质量评估、管理、应用商店七大子系统,实现从数据采集、清洗、标注到应用发布的一体化流程。
![]()
来源:南方+
核心创新包括:
“1+1+N”协同机制:以广州市社科联与广州大学为双核心(两个“1”),联动其他高校、企业、开源社区等N方资源,构建共建共享生态;
SaaS服务模式:通过模块化设计支持教育、文化、产业等多场景快速落地;
![]()
来源:南方+
文化忠实与安全可信:融合岭南文化精神标识体系与价值对齐规则,确保语料库兼具文化内涵与安全性。
![]()
来源:南方+
丰硕成果:
政策肯定与资源规模双突破
2025年3月,教育部召开新闻发布会,介绍深入贯彻落实《教育强国建设规划纲要(2024—2035年)》、推进语言文字信息化发展情况。发布会上,广东省教育厅副厅长朱建华介绍了广东省以数字化注入新动力全面赋能强省建设的举措和成效,重点推介了AI-DimSum粤语语料库。
2025年6月,实验室团队提交的《粤语语料库建设建设现状及通用型粤语语料库建设建议》获国家语委肯定性批示,称“此举事关重大,是数字中文建设的核心重要‘关键领域’,指导支持中心以标准规范为引领,以价值对齐为导向,以规范安全为底线,以共建共享为机制,深化该项语料库建设,夯实‘新基建’,服务人工智能大语言模型应用‘制高点’”。
自发布以来,平台已汇聚超100万字文本、3000小时高保真语音、1TB音视频、1万张岭南文化图像,构建了包含6669条权威词条、30000条扩展词条的粤语安全语料库等,规模居全球粤语语料库前列。
![]()
图源AI-DimSum官网
2025年12月18日,在中国数字文娱大会“新技术—智慧文娱解锁消费密码”分论坛上,实验室发布了6个支持人工智能应用的岭南文化数据集。其中5个为自主研发的数据集,包括岭南建筑图像标注数据集、粤语内容安全检测关键词库数据集、粤鉴—粤语大模型安全评测数据集、面向影视剧AI配音的细粒度标注粤语语料数据集、面向大模型训练的粤语大模型语料数据集,另外1个是与羊城晚报岭南文化大模型团队联合研制的粤语文化思维链语料数据集。
岭南建筑图像标注数据集对碉楼、骑楼、祠堂等岭南典型建筑的外观特征进行标注,涵盖建筑类型、构件、装饰工艺、材质、颜色等多维度信息,构建了面向岭南建筑文化的多模态基础资源,为数字化保护与文化大模型应用提供数据支撑,对于活化和传承岭南文化具有重要意义。
粤语内容安全检测关键词库数据集围绕粤语整合多源语料,针对三大核心领域(涉政违法、侮辱歧视、岭南文化禁忌),采用“分级+标签”的动态词库管理方式,构建了粤语内容安全检测关键词库数据集,旨在填补大模型对粤语内容安全检测缺乏关键词库的缺口,保障大模型粤语内容安全与粤语网络内容安全治理。
粤鉴—粤语大模型安全评测数据集是面向粤语内容安全的高质量多模态评测数据集,规模约20万条(含10万文本、10万音频、3000图片),依据《生成式人工智能服务安全基本要求》,覆盖政治、暴力、伦理、隐私、地域歧视等5大类31小类,深度融合粤语俚语、谐音等特色,可用于大模型安全对齐、合规评估和多方言内容治理,助力粤港澳大湾区AI安全发展。
面向影视剧AI配音的细粒度标注粤语语料数据集通过多渠道语料收集与细粒度编码,构建了涵盖超过30个影视剧人物、13种情绪、超过1000分钟的音频语料库,有效解决粤语影视剧人工配音成本高、智能配音缺乏高质量标注语料的实际产业痛点。
面向大模型训练的粤语大模型语料数据集是面向大模型小语种能力训练的高质量多模态数据集,覆盖多种生活场景,超过5000个问答对,成功将普通话等通用语言数据转为粤语语料,为粤语大模型的数据训练和微调等后续泛化能力提供支持。
全国首个方言文化思维链训练语料集—粤语文化思维链语料数据集搭建了3层结构,涵盖17个文化类别、360余个核心文化概念,并配套逾1万多组高质量标注语料,可直接服务于大模型的精调训练。
生态应用:
10余款APP激活产业创新
AI-DimSum多模态通用粤语语料库平台已孵化粤语数字人、智能配音、廉州话小程序等10余款应用,覆盖文旅、教育、短剧等领域。例如,与百度合作开发的“粤语智声”系统支持复杂场景语音识别,准确率达90%。
![]()
图源AI-DimSum官网
推广价值:
方言数字化范本的全球路径
平台构建的“采集—标注—确权—应用”全流程体系可复制至客家话等方言,为国家方言语言资源保护提供技术样板。未来将通过开源开放支持全球粤语数字生态,助力“数字中国”建设。
据悉,2025年1月8日,教育部、国家语委、中央网信办印发《关于加强数字中文建设 推进语言文字信息化发展的意见》,首次提出“数字中文”概念;到年底的12月27日,第十四届全国人民代表大会常务委员会第十九次会议表决通过新修订的《中华人民共和国国家通用语言文字法》,明确规定“推进国家通用语言文字的信息化、数字化、智能化建设”。
“数字中文”及其建设迅速统合引领相关研究与实践,成为语言文字领域重要的新兴增长点。
参考来源
南方+《国家语言文字信息化十大新闻,广州入选!》
https://www.nfnews.com/content/voApmjea6R.html
广州大学荔湾研究院《粤语语料库建设与大模型评测重点实验室在中国数字文娱大会发布数据集成果》
https://mp.weixin.qq.com/s/jdmmiWdcZJw8LdE8qNFEOw?scene=1
图片来源同上,非商业用途,若构成侵权,请联系我们进行删除
特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.