网易首页 > 网易号 > 正文 申请入驻

聊聊卡塔尔世界杯上的“手语数字人”

0
分享至

阿根廷再次举起了大力神杯,宣告着这届几乎每场比赛都挑动观众心脏的世界杯落下帷幕。从11月21日至12月18日,不到30天的时间里,全球数十亿人在屏幕前,共同欢呼,相继落泪。自上世纪50年代,世界杯首次使用电视转播以来,越来越多的人能够享受这一盛宴。

咪咕是国内获得世界杯转播权的平台之一,看咪咕的小伙伴不知道注意到没有,视频左下角可以打开一位身着红衣的数字人女孩,是由将门投资企业——智谱AI,研发的手语数字人华同学。她可以用自然而连贯的手语动作,传递着赛场上的“声音”,帮助听障人士“看”懂比赛。这是数字人技术在世界杯上的一个“温暖”应用。今天,让我们一起聊聊这个技术背后的原理。

一、真人动捕 vs 全AI实时?

目前,大多数虚拟数字人上视频节目一般采用非实时,大量工作需要通过后期制作完成,这样肯定无法满足手语播报的实时性要求,当然也有通过由运动跟踪设备实时驱动的,但要求每期节目制作都必须有真人进行表演以驱动虚拟人,因而需要投入大量的人力、物力。这次咪咕展示的手语数字人“华同学”实现了手语实时播报,技术上采用全自动的文本实时驱动,降本增效,该技术集成了数字人建模、语义蒸馏、机器翻译、跨模态拟人生成、实时动作-表情-手势驱动等多项AI技术。

华同学以超大规模预训练模型为基础,应用跨模态拟人生成算法、超高精度写实数智人技术等实现AI手语实时播报。首先用中文语义蒸馏模型算法提取出有效的关键语义信息,然后用AI 手语分词快编算法把语义信息转换成符合手语表达的词汇序列,最后驱动生成数智人手语视频流。

简单来说,数字人是完全由算法驱动的,输入“语音流”,通过算法自动转换成了手势、嘴形、脸、身体姿势等。而它的算法原理主要包括:语义蒸馏、AI 手语分词快编算法、跨模态拟人生成算法、音字人实时同步对齐技术等。

(1) 语义蒸馏

由于手播速度远不及口播速度,字幕和手语词序列的长度存在时间不对等问题,如何在不影响原意的基础上,保证手语表达内容与播报画面容同步是一项重要技术。该技术正是语义蒸馏,即通过修改输入文本的语法和结构使其更容易阅读和理解,同时保留其基本思想并接近其原始含义。语义蒸馏技术主要以GLM(General Language Model,通用语言模型)预训练模型‎[1]‎[2]为基础,采用了质量控制信号作为有限制生成信号以及对比学习思想,实现了精准高效提取核心语义信息。评价指标Rouge-2为42.45;每500字文本语义蒸馏时间约为1.94s。相比于MUSS方法‎[3],Rouge-2提高了1.97。

GLM预训练模型基本原理是基于自回归空白填充,按照自编码的思路,从输入文本中随机地空白出连续跨度的token,并按照自回归预训练的思路,训练模型依次重建这些跨度。鉴于GLM可以在自然语言理解(NLU)和文本生成(含有条件和无条件)方面表现出色,采用GLM预训练模型进行微调以实现语义蒸馏。

为了使语义蒸馏后的句子内容语义相对可控,设置质量控制信号作为有限制生成信号。质量控制信号是指句对中的复杂句与简单句之间的比值信息来表示词法复杂度、句法复杂度以及句子长度等。具体来说,质量控制信号包括句子长度比、编辑距离比、词汇复杂度比和句法树深度比等信息。由于标注数据集缺乏,采用基于无监督学习方式挖掘复杂句-简单句句对并计算每个句对之间的质量控制信号。

GLM预训练模型在各种条件文本生成任务上取得了显著的性能。然而,其中大多数研究是在Teacher-Forcing机制下训练,容易出现暴露偏差问题。为解决该问题,采用对比学习框架,将模型暴露于给定输入语句的各种有效或不正确的输出序列。根据对比学习框架,可以通过对比正对和负对训练模型学习Ground Truth的表示,其中从同一批中选择负对作为随机的非目标输出序列,然后将源文本序列和目标文本序列投影到潜在嵌入空间。最终使源序列和目标序列对之间的相似度最大化,同时使负序列对之间的相似度最小化。

通过以上方法的结合,不仅可以保证简化内容质量可控,并且能够提高简化句子的忠实度,为下一步AI手语分词奠定基础。

(2) AI 手语分词快编算法

针对中文文本语序与手语语序差异大以及手语语序规则不统一的问题,研究基于AI手语分词快编算法。AI 手语分词快编实则属于低资源的机器翻译任务,即将语义蒸馏后的文本序列作为输入,通过分词快编,形成对应的手语动作序列‎[4]‎[5]。AI 手语分词快编算法主要以mBART预训练模型为基础,进一步采用了新颖的对比学习思想增加正负样本,提高翻译质量。翻译指标BLEU值可达0.35以上,AI手语分词快编算法中词汇边界划分的平均准确率可达98.02%以上。

mBART预训练模型是通过对多种语言的完整文本进行降噪来预训练一个完整的seq2seq模型,其在低资源的句子级机器翻译任务中取得了一致的性能提升,甚至可以提高预训练模型中不存在语言的性能。鉴于此,我们采用mBART预训练模型进行微调。

传统的对比学习框架使用同一批次非目标序列作为负样例进行训练是次优的,因为使用预训练语言模型时,传统的负样例在向量空间中往往从一开始就与正样例距离甚远。为了提高模型的泛化能力,我们采用了一种新颖的正负样本生成的对比学习方法,以区分正确的输出和错误输出。即通过向输入序列添加小扰动以最小化条件似然生成负例;通过添加大扰动迫使模型最大化条件似然来生成正例。

根据以上翻译算法得到手语词序列,进一步将分词后序列中的每一个手语词通过手语词-动作映射库,找到相对应的手语动作,最终得到手语词ID序列。

(3) 跨模态拟人生成算法

针对不同模态信息源标准不统一以及高逼真拟人生成难问题,研究跨模态拟人生成算法。将手语词ID序列作为输入,生成对应的拟人的动作-表情-手势,并对手语词序列到手势序列的映射关系进行建模,不仅能够保证生成结果的语义完整性,同时相邻手势动作之间也达到了自然平滑的过渡,从而生成高自然度的手语手势。建立的词汇到手语动作、表情及手势的映射,准确率为于98.88%;生成数字人动作、手势和表情的速度每500词为17.45s。

手势动作和手语词之间具有非常强的相关性,每一个手语词都对应了一段固定的手势动作,这个手势动作是由多模态动作捕捉数据采集获得。为了快速处理直接采集到的原始手语动作数据,我们实现了一个原始词级别数据的对齐及过滤算法。该算法基于动捕数据中的肘关节位置进行判断,可以自动对齐每段动捕数据,自动过滤每一段动捕数据开始的准备动作和结尾的静息动作,该算法能够大幅减少手语动捕数据预处理中需要的人工干预。

每个手语词的固定手势动作都具有特定的语义,故生成算法需要保证生成结果的语义完整性。同时,相邻手势动作之间也需要自然平滑的过渡。所以,高自然度的手势生成算法必须解决长时手势动作的语义完整性和短时相邻手势动作的连贯性两个问题。因此我们采用生成对抗网络思想‎[4]‎[5]进行手语视频合成,此算法能够兼顾短时相邻手势动作的连贯性和长时手势动作的语义完整性和一致性,生成高自然度的手语手势。

(4) 音字人实时同步对齐技术

为了保证良好的用户体验,还需要对解说、手语、字幕进行时间对齐输出。采用全局时间轴对齐技术,在字幕到手语转换的同时,将对应字幕的时间戳写入手语流扩展信息中,为手语流增加全局统一时间依据,根据字幕、手语、视频流显示时间戳(PTS)信息,实现音频解说、中英双语字幕、及数智手语主播的“音字人”三位一体实时同步呈现。

但是,在实际应用过程中,由于手语表达的速度跟不上语言表达数据了, 我们采用语义蒸馏、倍速播放等技术优化。在不丢失关键语义基础上,使得解说与手语的速度匹配度提升,但这样仍带来一个新问题,手语的整体表达延时更大,通过我们的大量测试调试,最终选择了一个折中的方式。首先,在手语视频和源流视频合成的时候,通过延时器,让赛事源流整体延时8秒;其次,字幕与手语同步方面,在长时间无有效字幕情况下,通过在字幕与手语侧加入心跳及空白帧,保持手语侧工作状态与时间轴的同步。

二、难题与挑战

近年来,随着数字人技术在各场景开始应用,技术得以迅速发展。然而如果想实现全面落地,依然道阻且长。

首先,在技术上有三大难点。第一,由于手语数据稀缺,句法复杂,且手语属于一种视觉语言,表达更为丰富形象,手语翻译的精准度存在着巨大挑战。例如,往那儿看”-“手指向那个方向,且眼睛往那个方向看”,属于连贯动作并非用词代替。因此,如何让AI能够理解并感知到肢体语言是未来发展的方向之一。其次是驱动问题。评价数字人包含多个维度,其中表情、唇形、手势、肢体等多个维度自由组合,会表达出不同的意思。如何同一时间对齐多个维度且准确表达含义也是难题之一。第三是视频流的对齐问题。在直播中,输入的文本流是以句传递的,因此会有不能完全同步对齐的问题。未来对自然语言同声传译的研究或许是新的解决方案。

其次是产品和市场层面的应用受限。目前手语数字人技术的应用场景更多集中在电视娱乐、策展设计以及网络直播等领域。作为一种新型的产品,手语数字人也需要走出现有的场景,实现更多的内容价值。然而,由于较高的技术门槛以及制作成本,市场层面的反馈相对较慢。医疗、教育、养老等公共服务领域的应用也相对薄弱。这既是挑战,也是机遇。

最后是伦理层面。数字人技术逐渐显现其商业价值,但其形象IP、品牌IP、以及故事IP尚处于空白阶段,存在着版权纠纷等风险。此外,它的快速发展也对伦理秩序提出了更高的挑战。这都是当前大家需要探讨的部分。

三、应用与展望

由于与产业的不断结合,手语数字人变得越来越“有帮助”。华同学的研发团队智谱AI同时也研发了一系列智慧手语系列产品,涵盖手语播报、手语翻译以及手语词典三种应用,满足手语信息播报、实时翻译交流、手语学习等多个场景的需求。

AI手语播报:华同学可以为新闻媒体提供全流程、智能化的数字人手语播报视频生成服务,能够实现在电视台和网络平台上的数字人新闻手语播报,可应用在新闻播报、赛事解说、天气预报等场景。

AI手语翻译:华同学能够提供云服务和私有化部署两种方式,可实现输入文本或语音,实时输出手语视频。服务场景可以拓展至机场、火车站、银行、医院、政务大厅等各类公共服务场景,科技馆、展览馆等手语智能问答场景,以及大型会展活动现场。

而未来,手语数字人也将在更多地场景帮助有需要的人,包括在线教育、医疗健康、技术咨询等。这是技术的发展,也是技术的温度。只需要一个桥梁,技术红利便将源源不断地走向那些需要它们的人群。希望手语数字人可以实现更纯熟的技术、更广泛的应用以及多层次的开放,为残障人士平等参与社会生活创造无障碍环境,切实提高大家的社会参与感和生活幸福指数。

参考

[1] Du Z, Qian Y, Liu X, et al. GLM: General Language Model Pretraining with Autoregressive Blank Infilling[C]//Proceedings of the 60th Annual Meeting of the Association for Computational Linguistics (Volume 1: Long Papers). 2022: 320-335.

[2] Zeng A, Liu X, Du Z, et al. Glm-130b: An open bilingual pre-trained model[J]. arXiv preprint arXiv:2210.02414, 2022.

[3] Martin L, Fan A, de la Clergerie É, et al. MUSS: Multilingual Unsupervised Sentence Simplification by Mining Paraphrases[J]. arXiv e-prints, 2020: arXiv: 2005.00352.

[4] Saggion H. Linguistically Enhanced Text to Sign Gloss Machine Translation[C]//Natural Language Processing and Information Systems: 27th International Conference on Applications of Natural Language to Information Systems, NLDB 2022, Valencia, Spain, June 15–17, 2022, Proceedings. Springer Nature, 2022, 13286: 172.

[5] Gómez S E, McGill E, Saggion H. Syntax-aware Transformers for Neural Machine Translation: The Case of Text to Sign Gloss Translation[C]//Proceedings of the 14th Workshop on Building and Using Comparable Corpora (BUCC 2021). 2021: 18-27.

[6] Stoll S, Camgoz N C, Hadfield S, et al. Text2Sign: towards sign language production using neural machine translation and generative adversarial networks[J]. International Journal of Computer Vision, 2020, 128(4): 891-908.

[7] Saunders B, Camgoz N C, Bowden R. Adversarial training for multi-channel sign language production[J]. arXiv preprint arXiv:2008.12405, 2020.


文章来源:公众号【智谱】

Illustration by IconScout Store from IconScout

-TheEnd-

本周上新!

扫码观看!

多家技术企业招聘来啦!

多家技术企业招聘来啦!有求必应的小将收集到来自TechBeat技术社群内技术企业的招人需求,包含来自微软亚研、腾讯、小红书等企业算法工程师等正式及实习岗位,欢迎有需求的大家向这些公司投递简历哦!

扫描了解详情~

关于我“

将门是一家以专注于发掘、加速及投资技术驱动型创业公司的新型创投机构,旗下涵盖将门创新服务将门技术社群以及将门创投基金

将门成立于2015年底,创始团队由微软创投在中国的创始团队原班人马构建而成,曾为微软优选和深度孵化了126家创新的技术型创业公司。

如果您是技术领域的初创企业,不仅想获得投资,还希望获得一系列持续性、有价值的投后服务,欢迎发送或者推荐项目给我“门”:

bp@thejiangmen.com

点击右上角,把文章分享到朋友圈

⤵一键送你进入TechBeat快乐星球

特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相关推荐
热点推荐
史上最强韩国惨淡出局!名宿车范根感慨:已经很难追上日本

史上最强韩国惨淡出局!名宿车范根感慨:已经很难追上日本

球事百科吖
2026-06-28 14:46:18
李谷一不再沉默,揭晓宋祖英唱歌真相,观众:原来是这样!

李谷一不再沉默,揭晓宋祖英唱歌真相,观众:原来是这样!

林轻吟
2026-06-27 09:30:42
谢霆锋西安巡演办大事!王菲带《主角》剧组后台聚餐,苟师笑开花

谢霆锋西安巡演办大事!王菲带《主角》剧组后台聚餐,苟师笑开花

天天热点见闻
2026-06-28 11:15:19
兰州大学回应教师杨某某相关论文问题:成立专项调查组

兰州大学回应教师杨某某相关论文问题:成立专项调查组

界面新闻
2026-06-28 11:00:30
3-3!世界杯奇迹之战:两队携手出线 伊朗被玩死 压哨出局

3-3!世界杯奇迹之战:两队携手出线 伊朗被玩死 压哨出局

观察鉴娱
2026-06-28 15:06:39
今年90%的家长和“张雪峰们”都是用的AI志愿填报工具,最后反而丢掉了最大的捡漏机会

今年90%的家长和“张雪峰们”都是用的AI志愿填报工具,最后反而丢掉了最大的捡漏机会

帅领留学真话
2026-06-27 09:53:57
白玉兰奖名场面!台上台下哭成一片,杨紫妆花了,杨幂陪跑又陪哭

白玉兰奖名场面!台上台下哭成一片,杨紫妆花了,杨幂陪跑又陪哭

萌神木木
2026-06-26 23:57:34
高志凯“爱国赛道”弯道超车,直接超越金灿荣、张维为两位前辈

高志凯“爱国赛道”弯道超车,直接超越金灿荣、张维为两位前辈

壹家言
2026-06-28 07:02:39
惊天逆转!伊朗最高领袖密信曝光:谈判代表根本没按指令行事!

惊天逆转!伊朗最高领袖密信曝光:谈判代表根本没按指令行事!

近史谈
2026-06-27 13:07:17
冯小刚新片彻底扑街!袁立犀利发文不留情面:你的时代已经结束了

冯小刚新片彻底扑街!袁立犀利发文不留情面:你的时代已经结束了

无处不风景love
2026-06-28 09:09:45
艾司唑仑服用时间过长,会让我们付出怎样的代价?医生讲清楚

艾司唑仑服用时间过长,会让我们付出怎样的代价?医生讲清楚

重症医生张伟
2026-06-28 12:40:43
三战全败却场场进球 亚洲这支球队 首次进世界杯 应该给他们掌声

三战全败却场场进球 亚洲这支球队 首次进世界杯 应该给他们掌声

小楼侃体育
2026-06-28 12:35:47
王中王!梅西替补任意球破门,创造世界杯历史纪录

王中王!梅西替补任意球破门,创造世界杯历史纪录

乌龙球OwnGoal
2026-06-28 12:47:43
昔日6号秀遭放弃!魔术正式裁掉艾萨克 节省650万美元奢侈税

昔日6号秀遭放弃!魔术正式裁掉艾萨克 节省650万美元奢侈税

罗说NBA
2026-06-28 06:07:53
终于有经济学家批评体制内退休金太高、加剧代际矛盾,评论区炸锅

终于有经济学家批评体制内退休金太高、加剧代际矛盾,评论区炸锅

慧翔百科
2026-06-23 08:47:02
高市狂不了了,日本天皇发出警告,接班人已浮现,对华态度不简单

高市狂不了了,日本天皇发出警告,接班人已浮现,对华态度不简单

青烟小先生
2026-06-17 17:00:13
股价腰斩,“章建平”割肉了

股价腰斩,“章建平”割肉了

新浪财经
2026-06-28 09:00:10
看了黄一鸣的生图近照,我觉得可以为王思聪平反了,黄一鸣生图和直播间差距太大了

看了黄一鸣的生图近照,我觉得可以为王思聪平反了,黄一鸣生图和直播间差距太大了

牛油果生活观
2026-06-26 16:18:28
绝代美人,生死成谜

绝代美人,生死成谜

最爱历史
2026-06-27 13:41:10
A股:传来两个消息,明天,周一重要时刻来了!

A股:传来两个消息,明天,周一重要时刻来了!

明心
2026-06-28 10:30:14
2026-06-28 15:36:49
将门创投 incentive-icons
将门创投
加速及投资技术驱动型初创企业
2414文章数 596关注度
往期回顾 全部

科技要闻

DeepSeek最新论文:如何让大模型跑得更快

头条要闻

阿尔及利亚或许忘了"希洪之耻" 伊朗在最后被挤出32强

头条要闻

阿尔及利亚或许忘了"希洪之耻" 伊朗在最后被挤出32强

体育要闻

韩国可算确定被淘汰了

娱乐要闻

曾沛慈拿下《乘风2026》年度总冠军

财经要闻

两只股票撑起的韩国股市,半年熔断 33 次

汽车要闻

蔚来ES大五座体验 全场景行李舱让你带着生活出发

态度原创

本地
旅游
健康
教育
公开课

本地新闻

世界杯球迷节:比球赛更好玩的派对

旅游要闻

欢乐谷集团发布“城市IP娱乐主场”战略

“无糖汤圆”是否隐藏着健康陷阱?

教育要闻

五年级附加题,辅助线想不到

公开课

李玫瑾:为什么性格比能力更重要?

无障碍浏览 进入关怀版