来源:浙江日报
当前,国内外机构已发布多款具备行业广泛影响力的AI语料库,覆盖通用、医疗、政务、方言、代码等多个核心赛道,以下为代表性产品的详细介绍:
1.上海市规划资源领域专项语料库,由上海市规划和自然资源局牵头研制,2025年7月正式亮相。该语料库覆盖自然资源全领域,包含规划编制、测绘地理、用地管理、不动产登记等核心业务板块,整合了学科教材、政策法规、技术标准、审批成果、城建档案等多类型数据,其中含1200余份技术标准、5.7万项覆盖近20年的城建档案成果,具备多模态、体量大、质量高、覆盖全等核心特点。目前已完成归集数据资产40TB,相当于10万部高清电影,远期规划容量可达200TB。
2.AI-Dim Sum粤语语料库平台,由广州市社会科学重点实验室——粤语语料库建设与大模型评测重点实验室研发,2025年12月正式发布。该语料库是国内规模领先的粤语多模态AI专项语料库,核心内容涵盖四大板块:文本语料,涵盖超1亿字规范处理文本,覆盖新闻、文学、社交媒体等多领域;语音音视频语料,涵盖完成3000小时高保真语音标注,整合1TB以上音视频资料,含《哪吒之魔童降世》《西游记之大圣归来》《花木兰》等动画作品,以及《外来媳妇本地郎》《溏心风暴》等经典粤语影视剧的字幕与标注语料,配套超1万句多用途粤语生活场景音文对照语料;多模态素材,含岭南文化相关图像素材10000张;安全与评测体系,构建了含6669条权威词条、30000条扩展词条的粤语安全语料库,配套粤语大模型内容安全多模态评测题超20万道。
3.The Pile,由美国Eleuther AI开源社区发起,整合了来自全球的22个高质量子数据集,于2020年12月正式发布,旨在为开源大模型提供训练数据。核心规模为825GiB未压缩高质量文本,对应约2000亿词元,覆盖学术文献、图书出版物、新闻资讯、代码、网络对话等22个细分领域。它是全球开源大模型领域的标杆通用语料库,被业内称为“开源大模型的通用语料基准”,完全开源免费。
4.MIMIC系列医疗语料库,由麻省理工学院(MIT)计算生理学实验室、美国贝斯以色列女执事医疗中心联合研发,核心版本MIMIC-CXR于2019年发布、MIMIC-IV于2020年发布,研发机构总部位于美国波士顿。其中MIMIC-IV版本覆盖超50万例住院患者的全周期电子病历,MIMIC-CXR版本包含超65万张胸部X光影像及对应临床文本报告。它是全球医疗AI领域最权威的临床级多模态语料库,所有数据均来自真实临床场景,完成了全流程合规脱敏与标准化标注,是全球医疗大模型训练、验证的黄金标准语料,被超1万篇医疗AI顶会论文引用。
(本报记者 金春华 整理)
特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.