![]()
苹果公司与中国人民大学研究人员合作开发了一款名为VSSFlow的人工智能模型,该成果于2026年2月9日由9to5Mac披露。该模型能够从无声视频中同步生成环境音效和人类语音,实现声音与语音的统一合成。
VSSFlow采用创新的架构设计,解决了传统模型在语音与非语音声音生成上的割裂问题。以往多数视频转声音模型难以准确生成清晰语音,而文本转语音系统又无法处理背景音效。VSSFlow通过整合视频画面与文字转录信息,在一个10层神经网络结构中同时处理两类任务,实现了端到端的联合训练。
研究团队发现,这种联合训练方式不仅没有导致任务间相互干扰,反而产生了“互促效应”——语音训练提升了音效生成质量,音效训练也增强了语音自然度。模型以每秒10帧的速度提取视频视觉特征,并结合说话内容的文字转录,指导音频从随机噪声逐步重构为逼真声音。
为使模型能同时输出语音与背景音,研究人员使用大量合成数据对已训练好的模型进行微调,使其学会在同一音频流中融合两者。测试显示,VSSFlow在语音和音效生成方面均达到或优于专用模型的表现水平。
目前,VSSFlow的代码已在GitHub开源,模型权重正在准备公开发布,并计划提供在线推理演示。研究团队指出,未来挑战包括高质量多模态数据稀缺以及如何在保持语音细节的同时优化声音表征效率。相关论文《VSSFlow: 通过联合学习统一视频条件下的声音与语音生成》详细介绍了该项技术。
参考链接:
https://9to5mac.com/2026/02/09/new-apple-backed-ai-model-can-generate-sound-and-speech-from-silent-videos/
特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.