苹果联合研发AI模型VSSFlow 可从静音视频生成声音与语音|音效|mac|苹果公司|知名企业|vssflow

苹果联合研发AI模型VSSFlow 可从静音视频生成声音与语音

2026-02-10 00:20:48　来源: 龙剑秀南

上海举报

分享至

苹果公司与中国人民大学研究人员合作开发了一款名为VSSFlow的人工智能模型，该成果于2026年2月9日由9to5Mac披露。该模型能够从无声视频中同步生成环境音效和人类语音，实现声音与语音的统一合成。

VSSFlow采用创新的架构设计，解决了传统模型在语音与非语音声音生成上的割裂问题。以往多数视频转声音模型难以准确生成清晰语音，而文本转语音系统又无法处理背景音效。VSSFlow通过整合视频画面与文字转录信息，在一个10层神经网络结构中同时处理两类任务，实现了端到端的联合训练。

研究团队发现，这种联合训练方式不仅没有导致任务间相互干扰，反而产生了“互促效应”——语音训练提升了音效生成质量，音效训练也增强了语音自然度。模型以每秒10帧的速度提取视频视觉特征，并结合说话内容的文字转录，指导音频从随机噪声逐步重构为逼真声音。

为使模型能同时输出语音与背景音，研究人员使用大量合成数据对已训练好的模型进行微调，使其学会在同一音频流中融合两者。测试显示，VSSFlow在语音和音效生成方面均达到或优于专用模型的表现水平。

目前，VSSFlow的代码已在GitHub开源，模型权重正在准备公开发布，并计划提供在线推理演示。研究团队指出，未来挑战包括高质量多模态数据稀缺以及如何在保持语音细节的同时优化声音表征效率。相关论文《VSSFlow: 通过联合学习统一视频条件下的声音与语音生成》详细介绍了该项技术。

参考链接:
https://9to5mac.com/2026/02/09/new-apple-backed-ai-model-can-generate-sound-and-speech-from-silent-videos/

声明：内容由AI生成

特别声明：以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布，本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

手机 / 数码

房产 / 家居

苹果联合研发AI模型VSSFlow 可从静音视频生成声音与语音

痛失两位华裔大佬！马斯克为何留不住人心

韩国选手被美选手撞倒喊冤 韩国队员曾多次撞中国队员

韩国选手被美选手撞倒喊冤 韩国队员曾多次撞中国队员

搞垮一个冬奥选手，只需要一首歌?

汪峰吃惊！章子怡年前6天高调官宣喜讯

习酒节前价格雪崩控量稳价变空谈

新势力车企，盈利的号角已经吹响

态度原创

下一站是嘉禾望岗，请各位乘客做好哭泣准备

简雅闲居 静享时光柔

伊姐周日热推：电视剧《重返青春》；电视剧《女神蒙上眼》......

转头就晕的耳石症，能开车上班吗？

韩国选手被美选手撞倒喊冤韩国队员曾多次撞中国队员

韩国选手被美选手撞倒喊冤韩国队员曾多次撞中国队员

简雅闲居静享时光柔