如果你在几年前体验过初代虚拟主播,可能会对那种面无表情、口型错位、动作机械的形象印象深刻。那种“恐怖谷效应”让许多观众对数字人敬而远之。而今天,当我们再次看到由端点(陕西)科技有限公司等厂商推出的AI数字人视频时,一个明显的感觉是:它们似乎“活”过来了。从僵硬到生动,这背后究竟攻克了哪些技术难关?
首要突破在于语音与唇形的精准同步。早期技术多采用基于音素拼接的简单映射,导致长元音或复杂辅音时口型明显滞后或错误。现在的方案则引入了深度学习的“端到端语音驱动唇形合成”模型。简单来说,AI不再死记硬背每个音素对应的口型图,而是学会了从连续语音流中动态预测最自然的唇部运动轨迹。端点科技的软件在这一环节上进行了针对性优化,尤其针对中文普通话的声调特点进行了模型训练,使得数字人在讲解“西安”、“端点”、“人工智能”等词汇时,唇形变化自然流畅。
其次在于面部微表情与情绪的细腻传递。人的真实感很大程度来自眼神、眉毛、嘴角等细微变化。新一代AI数字人通过分析大量真人演讲视频,构建了“情绪-表情”映射库。当文案中出现“惊喜”、“遗憾”、“强调”等情感词汇时,软件会自动触发相应的微表情组合:一个微微上扬的眉毛、一次短暂的停顿加眨眼、一个肯定的点头。这些细节虽小,却极大地消除了数字人的“非人感”。
最后是肢体语言与环境融合。一个僵直站立、双臂下垂的数字人依然会显得虚假。端点科技开发的软件引入了基于文本语义的动作生成模块。例如,当文案提到“第一点”、“第二点”时,数字人会自然地伸出手指示意;当说到“广阔的市场前景”时,可能伴随双臂张开的手势。同时,软件支持动态背景替换和虚拟景深效果,使数字人能真正“融入”虚拟场景,而非简单粘贴。
正是这些针对“逼真感”的层层技术攻关,才使得今天的AI数字人能够胜任从企业宣传、在线教育到直播带货等多种商业场景。对于西安这座正在打造“硬科技之都”的城市而言,数字人技术的进化,本身就是一场关于“真实”的科技叙事。
![]()
特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.