新华社北京5月10日电 题:藏语大模型亮相北京科博会 弥合AI时代“数字鸿沟”
新华社记者郭沛然
对着智能鼠标用藏语提问,大模型识别语音,并以藏语思考作答。第二十八届中国北京国际科技产业博览会(简称北京科博会)8日至10日举行,这是记者在现场看到的一幕。
“通用大模型大多基于汉语、英语等语言训练,在藏语理解、生成等方面使用体验不够好,”从事藏语大模型研发的西藏大学博士研究生才让东知说,“通用大模型给出的回答经常缺乏藏语的自然语感与原生韵味,有明显的人工转码痕迹。”
藏语大模型使用藏语语音语料训练、以藏语思维思考,能弥补这一缺憾。在北京科博会现场展示的藏语大模型已经可以完成很多日常任务:“帮我写一份买卖牦牛的合同”“写一首赞美父母的诗歌”“长期吃素的人应该吃什么补充营养”……
藏语大模型“DeepZang”的产品部负责人多吉美久介绍,“DeepZang”收集藏汉平行精准语料近7000万条、采集超过30500小时藏语语音语料,涵盖卫藏、康巴、安多三大藏语方言区。
多吉美久说,不同藏语方言地区之间文字相通,但口语差异较大。用各大藏语方言区语音语料训练AI,AI就能实现藏语的跨方言交流。在国家知识产权局网站上,“DeepZang”开发方——西藏觉罗数字产业管理有限公司申请的一项专利显示,该公司的一项技术通过将声纹识别与方言分类相结合,能有效解决方言差异导致的沟通困难问题。
![]()
5月8日,一名外国观众在北京科博会上用智能鼠标体验藏语大模型。新华社发
在洛桑顿玉看来,良好的跨方言语音识别能力,能有效降低藏语大模型的使用门槛,“不需要有很高的藏语文字水平,通过说话就可以使用AI,这能帮助到更多人”。洛桑顿玉在西藏自治区山南市从事藏汉翻译工作,他跟同事已经习惯在工作中使用藏语大模型,“以前需要两三个人分工合作,花40分钟翻译完的稿子,现在有了AI辅助,一个人20多分钟就可以完成”。
觉罗数字提供的信息显示,“DeepZang”目前拥有用户30多万人。其中,18至40岁青年用户占比超过70%。“我们的用户主要分布在西藏、青海、四川和甘肃等地,不少用户生活在比较偏远的地方。”多吉美久说。
西藏已经实现主电网覆盖所有县(区、市),所有乡镇、70%行政村通达5G网络。有了电力和网络的支撑,藏语AI能为更多藏语使用者提供帮助。
“从可用到好用,还有很长的路要走。”多吉美久说。一些用户反馈,用“DeepZang”进行几轮问答后,软件便提示“token余额不足”。这也是他们参展科博会的原因之一——寻求合作,以解决目前面临的算力成本高、资金压力大、商业闭环尚未形成等问题。
这是觉罗数字第一次参加科博会。在公司董事长旦增罗布看来,参加科博会能够帮助公司更好地融入全国科技创新生态。
藏语大模型对藏语使用者和不懂藏语的人分别意味着什么?藏语AI对此作答:为藏语使用者提供新时代的新工具,搭建藏语与其他语言之间的桥梁。
特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.