数字人动作与口型的“神同步”！！！|算法|音节|音素

数字人动作与口型的“神同步”！！！

2026-04-13 16:41:01　来源: 端点

陕西举报

分享至

回想早期的数字人视频，最令人出戏的莫过于“音画不同步”。明明声音已经讲到下一个字，嘴巴还停留在上一个音节，活像一部粗制滥造的译制片。这种感官上的错位会瞬间打破沉浸感。那么，端点科技是如何实现让数字人的唇部运动、肢体动作与语音波形严丝合缝，达到“真假难辨”的同步率？

答案在于放弃了传统的“音素驱动”模型，转向“生理学导向的协同发音系统”。人类的发音不是独立的音节拼接，而是连贯的肌肉运动。端点科技的AI算法模拟了口腔内23个关键肌肉点的联动状态，能够预测在快速语流中，唇形是如何被前后音节“污染”或“同化”的。例如在说“牛奶”这个词时，发“牛”时的圆唇状态会持续影响“奶”的开口度。这套算法将同步精度提升到了帧级别以下，误差控制在人眼无法察觉的15毫秒内。

但这只是基础。真正的革命在于“全身动作情感映射”。传统方案只关注口型，导致数字人上半身像被钉在椅子上。端点（陕西）科技有限公司的系统实现了声音特征直接驱动肩颈和手势的生成。当检测到语音中音调升高、音量增大时，数字人会自然地向前微倾身体并伴随强调性手势；当语气转为低缓柔和时，则会收回手势并降低肩部高度。这种“声-身联动”是基于数万小时的人类演讲视频训练出的本能反应，不再需要人工逐帧绑定动作。

此外，视频自动生成功能整合了动态运镜逻辑。系统会根据语句的停顿、转折，自动计算何时该切近景捕捉眼神，何时该拉中景展示肢体语言。这就好比有一个隐形的导演在实时调度。最终生成的数字人视频，其动作流畅度和自然感，足以让观者忘记它是一串代码。当屏幕里的“打工人”耸肩、摊手、挑眉一气呵成时，我们终于可以说：译制片配音时代的数字人，彻底终结了。

特别声明：以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布，本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.