英伟达把3块GPU的活塞进1块，24G显存跑通视频+音频+文本|显卡|内存|gpu|amd

英伟达把3块GPU的活塞进1块，24G显存跑通视频+音频+文本

2026-04-13 09:52:10　来源: 报错免疫体

北京举报

分享至

过去半年，AI生成领域有个变化被大多数人忽略了：实时多模态模型的显存门槛，从72GB暴跌到24GB。这不是优化，是重构。

英伟达团队最近放出的技术方案，让单张消费级显卡（RTX 4090/3090）能同时处理视频生成、音频合成和文本理解。放在一年前，这需要3张A100。

「显存刺客」是怎么被解决的

多模态模型的显存消耗是个乘法问题。视频分支要存时空特征，音频分支要处理频谱流，文本分支还得挂着大语言模型的权重。三个流同时跑，显存占用不是相加，是相乘。

英伟达的方案核心叫「动态权重卸载」（Dynamic Weight Offloading）。不用的分支，权重立刻甩到CPU内存；切换分支时，用预测性预加载把延迟压到16毫秒以内。人耳根本听不出来。

更狠的是「跨模态注意力共享」。视频和音频的时序特征其实高度相关——人物嘴型变化和声波振动是绑定的。团队发现可以把这部分计算合并，砍掉40%的冗余显存占用。

具体数字：72GB方案需要3张A100（单张24GB），新方案单张24GB卡搞定，推理成本直降83%。

实时性的秘密藏在流水线里

「实时」是个容易被滥用的词。这里指的是端到端延迟低于200毫秒——人类对话的舒适阈值。

团队做了三件事。第一，把扩散模型的去噪步数从50步砍到4步，用蒸馏版模型保质量。第二，音频生成改用流式神经声码器，不用等整段音频合成完再输出。第三，视频和音频的生成流水线解耦，但用共享的潜在空间做同步对齐。

英伟达研究员Ming-Yu Liu在演示视频里说：「用户输入一段文字，系统同时生成说话人脸视频和匹配语音，延迟和真人视频通话没区别。」

这个「没区别」背后是帧级别的同步机制。音频每生成40毫秒块，视频端就收到对应的嘴型参数，两边用同一个时钟源锁相。传统方案是视频等音频，或者反过来，总有一边在空转。

为什么现在才做出来

技术组件其实早就有了。权重卸载2022年就有论文，流式声码器更老，多模态对齐也不是什么新方向。

真正的突破是「系统工程」。单独优化每个模块，系统整体反而更慢——卸载权重时音频流水线在等，预加载视频特征时文本分支被阻塞。英伟达团队用强化学习训练了一个调度器，专门解决这种资源争抢。

调度器的输入是当前各分支的显存占用、队列深度、预估完成时间；输出是下一毫秒该把哪块权重搬到哪里。训练数据来自10万小时的合成多模态会话。

有个细节很有意思：调度器被故意设计得「有点懒」。频繁搬运权重本身也耗显存带宽，所以它会赌——如果某个分支10毫秒内大概率还要用，就不搬。这个「赌」的阈值是用强化学习硬搜出来的。

谁会被这波技术冲击

最直接的受益者是实时虚拟人赛道。以前做数字人直播，云端成本每小时烧掉几十块，现在本地一张4090就能跑。中小团队的机会来了。

但冲击也是双向的。云端API厂商的定价模型要重写。按token计费那套，对实时视频流根本不适用。新的计费单位可能是「毫秒延迟×分辨率×并发数」，复杂度指数级上升。

更隐蔽的变化在硬件侧。24GB显存成为新的「甜蜜点」，12GB卡（比如4060 Ti）被进一步边缘化。英伟达的产品线切割，可能因此变得更激进。

团队放出的代码基于PyTorch，但核心调度器用CUDA手写。GitHub仓库48小时拿到3400星，Issues区最热的请求是：能不能支持AMD？官方回复很干脆：「欢迎PR。」

开源社区已经在尝试剥离英伟达专属优化。有人用vLLM的PagedAttention替换了原版的权重卸载，显存效率掉了15%，但兼容性打开。这个分支的维护者是个独立开发者，前Google Brain实习生，现在全职搞这个。

技术文档里埋了个彩蛋：系统在极端负载下会主动降低视频分辨率保音频流畅，因为「人类对声音卡顿的容忍度远低于画面模糊」。这个优先级排序没有开关，写死在调度器里。

如果24G卡能跑通实时三模态，下一步会不会是12G？或者，显存门槛的消失，会让「本地AI」和「云端AI」的边界彻底模糊？

特别声明：以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布，本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

手机 / 数码

房产 / 家居

英伟达把3块GPU的活塞进1块，24G显存跑通视频+音频+文本

「显存刺客」是怎么被解决的

实时性的秘密藏在流水线里

为什么现在才做出来

谁会被这波技术冲击

太极系列首次全白化！华擎发布X870E Taichi White旗舰主板：为9950X3D2打造

英国国王给特朗普送了口钟 还贴脸开大"有需要尽管敲"

英国国王给特朗普送了口钟 还贴脸开大"有需要尽管敲"

季后赛场均5.4分，他凭啥在骑士打首发？

孙杨博士学历有问题？官方含糊其辞

易会满被“双开”！

9000亿美元估值，Anthropic即将反超OpenAI

专访捷途汪如生：捷途双线作战 全球化全面落地

态度原创

耗资21亿的故宫北院，网友看后直摇头：怎么撞脸高铁站了？

接不到活的月嫂越来越多

用青花瓷的方式，打开西溪湿地

春天穿衣要杜绝老气感！衣服选对、搭配到位，减龄舒适又得体

英国国王给特朗普送了口钟还贴脸开大"有需要尽管敲"

英国国王给特朗普送了口钟还贴脸开大"有需要尽管敲"

专访捷途汪如生：捷途双线作战全球化全面落地