过去半年,AI生成领域有个变化被大多数人忽略了:实时多模态模型的显存门槛,从72GB暴跌到24GB。这不是优化,是重构。
英伟达团队最近放出的技术方案,让单张消费级显卡(RTX 4090/3090)能同时处理视频生成、音频合成和文本理解。放在一年前,这需要3张A100。
「显存刺客」是怎么被解决的
多模态模型的显存消耗是个乘法问题。视频分支要存时空特征,音频分支要处理频谱流,文本分支还得挂着大语言模型的权重。三个流同时跑,显存占用不是相加,是相乘。
英伟达的方案核心叫「动态权重卸载」(Dynamic Weight Offloading)。不用的分支,权重立刻甩到CPU内存;切换分支时,用预测性预加载把延迟压到16毫秒以内。人耳根本听不出来。
更狠的是「跨模态注意力共享」。视频和音频的时序特征其实高度相关——人物嘴型变化和声波振动是绑定的。团队发现可以把这部分计算合并,砍掉40%的冗余显存占用。
具体数字:72GB方案需要3张A100(单张24GB),新方案单张24GB卡搞定,推理成本直降83%。
实时性的秘密藏在流水线里
「实时」是个容易被滥用的词。这里指的是端到端延迟低于200毫秒——人类对话的舒适阈值。
团队做了三件事。第一,把扩散模型的去噪步数从50步砍到4步,用蒸馏版模型保质量。第二,音频生成改用流式神经声码器,不用等整段音频合成完再输出。第三,视频和音频的生成流水线解耦,但用共享的潜在空间做同步对齐。
英伟达研究员Ming-Yu Liu在演示视频里说:「用户输入一段文字,系统同时生成说话人脸视频和匹配语音,延迟和真人视频通话没区别。」
这个「没区别」背后是帧级别的同步机制。音频每生成40毫秒块,视频端就收到对应的嘴型参数,两边用同一个时钟源锁相。传统方案是视频等音频,或者反过来,总有一边在空转。
为什么现在才做出来
技术组件其实早就有了。权重卸载2022年就有论文,流式声码器更老,多模态对齐也不是什么新方向。
真正的突破是「系统工程」。单独优化每个模块,系统整体反而更慢——卸载权重时音频流水线在等,预加载视频特征时文本分支被阻塞。英伟达团队用强化学习训练了一个调度器,专门解决这种资源争抢。
调度器的输入是当前各分支的显存占用、队列深度、预估完成时间;输出是下一毫秒该把哪块权重搬到哪里。训练数据来自10万小时的合成多模态会话。
有个细节很有意思:调度器被故意设计得「有点懒」。频繁搬运权重本身也耗显存带宽,所以它会赌——如果某个分支10毫秒内大概率还要用,就不搬。这个「赌」的阈值是用强化学习硬搜出来的。
谁会被这波技术冲击
最直接的受益者是实时虚拟人赛道。以前做数字人直播,云端成本每小时烧掉几十块,现在本地一张4090就能跑。中小团队的机会来了。
但冲击也是双向的。云端API厂商的定价模型要重写。按token计费那套,对实时视频流根本不适用。新的计费单位可能是「毫秒延迟×分辨率×并发数」,复杂度指数级上升。
更隐蔽的变化在硬件侧。24GB显存成为新的「甜蜜点」,12GB卡(比如4060 Ti)被进一步边缘化。英伟达的产品线切割,可能因此变得更激进。
团队放出的代码基于PyTorch,但核心调度器用CUDA手写。GitHub仓库48小时拿到3400星,Issues区最热的请求是:能不能支持AMD?官方回复很干脆:「欢迎PR。」
开源社区已经在尝试剥离英伟达专属优化。有人用vLLM的PagedAttention替换了原版的权重卸载,显存效率掉了15%,但兼容性打开。这个分支的维护者是个独立开发者,前Google Brain实习生,现在全职搞这个。
技术文档里埋了个彩蛋:系统在极端负载下会主动降低视频分辨率保音频流畅,因为「人类对声音卡顿的容忍度远低于画面模糊」。这个优先级排序没有开关,写死在调度器里。
如果24G卡能跑通实时三模态,下一步会不会是12G?或者,显存门槛的消失,会让「本地AI」和「云端AI」的边界彻底模糊?
特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.