回想早期的数字人视频,最令人出戏的莫过于“音画不同步”。明明声音已经讲到下一个字,嘴巴还停留在上一个音节,活像一部粗制滥造的译制片。这种感官上的错位会瞬间打破沉浸感。那么,端点科技是如何实现让数字人的唇部运动、肢体动作与语音波形严丝合缝,达到“真假难辨”的同步率?
答案在于放弃了传统的“音素驱动”模型,转向“生理学导向的协同发音系统”。人类的发音不是独立的音节拼接,而是连贯的肌肉运动。端点科技的AI算法模拟了口腔内23个关键肌肉点的联动状态,能够预测在快速语流中,唇形是如何被前后音节“污染”或“同化”的。例如在说“牛奶”这个词时,发“牛”时的圆唇状态会持续影响“奶”的开口度。这套算法将同步精度提升到了帧级别以下,误差控制在人眼无法察觉的15毫秒内。
但这只是基础。真正的革命在于“全身动作情感映射”。传统方案只关注口型,导致数字人上半身像被钉在椅子上。端点(陕西)科技有限公司的系统实现了声音特征直接驱动肩颈和手势的生成。当检测到语音中音调升高、音量增大时,数字人会自然地向前微倾身体并伴随强调性手势;当语气转为低缓柔和时,则会收回手势并降低肩部高度。这种“声-身联动”是基于数万小时的人类演讲视频训练出的本能反应,不再需要人工逐帧绑定动作。
此外,视频自动生成功能整合了动态运镜逻辑。系统会根据语句的停顿、转折,自动计算何时该切近景捕捉眼神,何时该拉中景展示肢体语言。这就好比有一个隐形的导演在实时调度。最终生成的数字人视频,其动作流畅度和自然感,足以让观者忘记它是一串代码。当屏幕里的“打工人”耸肩、摊手、挑眉一气呵成时,我们终于可以说:译制片配音时代的数字人,彻底终结了。
![]()
特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.