网易首页 > 网易号 > 正文 申请入驻

多模态需求井喷,智能视频云如何靠分布式处理破局?

0
分享至

作者 | Lynn

过去半年,国内多模态 AI 仍在加速,但模型层和应用层的热度却出现分化——一边是模型厂商们打得火热,一边则是多模态 AI 在更多严肃场景的缓慢落地,例如虚拟讲师、医疗辅助诊断、工业自动化质检等。

现在的模型能力足以让多模态 AI“可以”在很多场景做实事。但要想让 AI 在这些场景“把事做好”,仅靠多模态模型还远远不够。

就以教育领域为例,虚拟讲师真正替代、甚至超越真人教师角色,实现商业价值的关键,在于提供媲美线下的体验,例如高清画质、实时互动、跨终端流畅性等等。当千万级学生并发在线,这些基础需求将转化为对系统稳定性的严峻挑战。此类高并发、强实时互动场景的挑战,在直播电商、工业质检、医疗辅助诊断等领域也同样普遍。

整体来看,多模态应用落地正面临三大趋势带来的挑战——

首先是多模态应用体验升级。多模态理解与生成模型能力迭代加速的同时,实时交互成为优化体验的关键,需依赖底层视频云技术支撑。

其次,视频化趋势正在向全行业扩展。 从文娱延伸至医疗影像、教育虚拟讲师、工业质检等复杂场景,对应用编排能力要求更高。

最后,大模型部署向边缘下沉。 为满足大模型计算量、实时性、成本与低延时需求,算力从中心向边缘流动,云 - 边 - 端协同更紧密。

这些趋势和挑战也催生了视频云向智能视频云的升级需求,从底层基建到平台再到上层应用,传统视频云技术需要迎来一次全面升级。

其中,平台层作为连接底层基建与上层应用的“枢纽”,需高效整合计算、存储、网络资源,并为应用提供智能接口与服务,确保数据跨层级流畅、安全处理。其灵活、智能、可扩展的特性,是应对复杂场景的关键。因此,智能视频云时代需要专属的多媒体智能处理平台。

分布式处理是大势所趋

在讨论多媒体处理平台的具体变化前,我们需要看清多媒体处理行业的核心趋势变化。

传统的音视频处理任务通常对计算资源的要求相对较低,单台处理器足以应对这些工作负载。

然而,多模态 AI 引入后,整个流程要处理的数据形态和处理流程都更加复杂和多样,分布式处理就成为更理想的选择。

具体到场景需求来看,我们可以将视频处理流程分为在线和离线两种典型场景。

其中,在线处理通常强调实时性,需要在最短时间内完成视频的编码、解码和传输,适用于直播、视频会议等场景。下图就是一个典型的在线视频生成场景:

先输入文字和图片,经过预处理后送入 SD 模型,再通过后处理增强,最后编码生成最终文件。由于这是在线场景,对延时有一定要求,且视频生成计算量大,成本也需控制。

为同时低延时和低成本的需求,就可以尝试对流程进行分布式拆解。比如在 SD 模型里,把 U-net 迭代拆解到多机多卡执行;后处理增强时,直接将生成模型的输出帧送入增强模块,省去额外的编解码,这样能实现性能和成本的最优。

离线场景也是相似的逻辑。下图展示了一个典型的用大模型批量处理视频的离线场景:

上图描述的是利用大模型对视频进行预处理的过程。批量视频被输入系统后,会先进行切片处理,然后依次经过粗筛和精筛两个步骤,每个步骤都会应用多个算子来处理视频数据,最终生成所需的产物。

由于这是一个典型的离线场景,首先要保证高吞吐量,因此需要尽可能高效地利用资源,确保资源利用率最大化。同时,考虑到不同团队对数据可能有不同的需求,比如需要加入定制算子等,这就要求系统具备良好的灵活性。

为了平衡高吞吐量和灵活性的需求,同样可以尝试将整个处理流程拆解,并在多卡上进行分布式执行,提升处理效率,且能满足个性化需求。

分布式处理的思路并非凭空想象,已经有一些新的分布式技术出现,为其提供技术可行性。

例如,RDMA 和 NVLink 是两种尖端传输技术,RDMA(远程直接内存访问)通过绕过 CPU 直接传输数据,显著降低网络延迟;NVLink 则通过高速 GPU 互联,提升模型并行计算效率。模型推理架构也在向分布式演进,像 PD 分离架构这样将存储与计算分离的设计,大幅增强了系统的灵活性和可扩展性。

有需求,有技术,接下来则需要一个能“链接”技术和需求的分布式平台,让这些先进技术真正落地。

在 6 月 11 日举办的 2025 FORCE 春季大会上,火山引擎便为行业提供了一个分布式多媒体处理的实践案例。

作为支撑字节旗下庞大移动视频生态正常运转的核心基础设施,火山引擎的多媒体处理技术在正式向外提供前就积累了大量实战经验,这些经验对行业有一定参考意义。

分布式多媒体处理平台长什么样?

事实上,在多模态 AI 出现之前,视频处理已经发展成一个相当复杂的系统工程,它不仅仅局限于简单的剪辑或播放,而是涵盖了特效制作、格式转码、内容审核到多渠道分发等一系列流程。

这意味着,如果一家企业想要开发自己的音视频应用,首先要拼出一支“队伍”,需要协调多个专门处理不同环节的供应商。但这种外包的合作模式会拉长整个开发周期,企业需要投入额外的人力、物力和财力来管理这些外部合作,大大增加了项目的复杂度和执行成本。

在此背景下,火山引擎从 2021 年就开始对视频架构进行成本优化,尝试引入新的异构资源、探索资源混合部署、自研更通用的多媒体框架等各个维度进行优化。

2023 年 8 月,火山引擎开源了其自研的 BMF(Babit Multimedia Framework)框架,这个框架极大地简化了视频处理流程。

BMF 就像一个“百宝箱”,将视频处理中复杂的各种功能(如转码、剪辑、滤镜等)都预先制作成标准化的模块。开发者不再需要从零开始搭建,只需根据自己业务的具体需求,像搭积木一样直接选取并“拼装”这些现成的模块,就能快速、便捷地实现几乎所有音视频处理任务,大大提高了开发效率。

此外,BMF 通过提供统一的语言接口,打破了不同框架和编程语言之间的壁垒,无论模块或应用是基于何种技术栈开发的,都能轻松迁移到 BMF 平台上,并能够无障碍地调用 BMF 所提供的丰富功能。

凭借这一优势,火山引擎过去几年在 BMF 框架的基础上,已成功构建了超过 200 个音视频算法的原子能力,为后来多模态时代的音视频处理领域夯实了基础。

此次 FORCE 大会上,火山引擎将 BMF 升级为分布式多媒体处理框架 D-BMF,专门用于应对多模态应用带来的分布式处理需求。

D-BMF 的分布式处理能力主要体现在其对帧数据的独特处理方式上。

它能将视频处理管线中产生的每一帧视频精准分配到不同的计算节点,每个节点独立处理对应帧。这样一来,原本需要按顺序逐帧处理的任务被分解成多个并行任务,每个计算节点可以同时处理不同的视频帧,从而缩短了整体处理时间。

此外,D-BMF 还采用流式处理机制,每一帧视频在生成的同时就能被立即处理,无需等待整个视频片段完成后再进行操作。这种即时处理方式赋予了系统极高的实时性,使其能够迅速响应类似电商直播和在线授课等场景需求。

在分布式 BMF 基础上,火山引擎将其与底层计算平台深度融合,构建了全新的分布式多媒体智能处理平台 MIPP。

这幅架构图直观地展示了 MIPP 所涵盖的核心能力,其中有两项能力很值得关注。

一个是“批流一体可视化编排”能力。

批流一体的编排引擎能够同时处理批量数据和流数据。这里的“批”指的是文件粒度,即系统以文件为单位处理数据,适合处理大规模、静态的数据集,通常需要较长时间完成处理任务。而“流”指的是帧粒度,即系统可以在每一帧视频生成的同时就实时处理数据流。

批流一体的编排引擎则能将这两种处理模式融合在一起,既能够高效处理大规模的历史数据,又能够实时响应新产生的数据,提供了一种更加灵活和高效的解决方案。

另一个亮点则是位于中间层的 M-Planner。

M-Planner 作为 MIPP 的核心智能分析引擎,如同其“大脑”,能深度理解用户业务流程,并借助智能算法,将流程自动、高效地转化为可在分布式环境并行执行的详细部署计划。

以往,这个看似简单的“一键转换”过程实则需大量人力手动拆分处理管线、分配计算节点并优化部署,成本高昂。而 M-Planner 实现了多媒体处理管线编排与执行的解耦,用户只需专注流程,平台负责优化,开发者无需关心底层硬件资源,就能轻松完成处理,极大提升了效率、降低了成本。

除了两个核心引擎外,火山引擎还在最上层提供了直接面向用户的多模态应用;批流一体的编排引擎之下也提供了一系列诸如视频编解码、多模态理解与生成等原子能力共开发者调用。

火山引擎也透露,未来会将分布式 BMF 和关键的平台组件一起开源,并推出相应的商业化产品。

事实上,从 MIPP 的现有架构中已经可以看到很大商业潜力。目前,火山引擎也开始内部尝试利用 MIPP 的编排能力开发新的智能多媒体应用,目前已经有两项成果。

一项是面向手机端的 Agent 解决方案 Mobile Use。今年年初,基于浏览器的 browser use 由 Manus 快速引爆。但对于我们日常使用更广泛的手机,还没有一个成熟的 Agent 方案。为此,火山引擎依托视频云的云手机基建,推出了 Mobile Use 解决方案。Mobile Use 方案可以让用户在云端创建一个或多个手机分身,并通过自然语言交互对云端手机进行控制,完成一系列工作。

另一项则是基于 RTC 的对话式 AI 解决方案。无论是在 AI 社交、直播互动还是医疗诊断等场景,用户都期待 AI 能像真人一样交流。这是他们愿意使用这类产品的重要前提。

而要实现真正流畅自然的交互体验,AI 首先要具备“秒回”的即时响应能力。对此,MIPP 上积累的一系列原子能力(如 ASR、大模型、TTS)已经可将人机交互时延压至 1.6 秒。事实上,1.6 秒的响应速度并不算最快的,市面上虽有宣称更低延时(几百毫秒)的方案,但多依赖轻量模型牺牲应答质量,并不可取。

除即时响应外,另一技术难点在于,如何在让 AI 在各类嘈杂环境处理日常对话时,能够想人类对话一样,在合理的地方打断。为此,火山引擎运用人声检测、回声消除、AI 降噪等系列算法,精准过滤杂音、识别用户意图。

此外,AI 还需克服弱网环境(地铁、展会等)下传统方案的卡顿问题。卡顿不仅影响体验,更会导致语音识别丢字、语义错位。理想体验应“不挑网络”,在各种复杂环境下保持流畅。

长期来看,如果更多这些能力融入多模态应用开发,不仅会刺激互联网 AI 应用生态的繁荣,还有可能激活 AI 硬件产品的应用生态,从而真正打开 AI 硬件的市场需求。

试想,如果上述实时对话能力能够更早集成到 AI 硬件产品中,曾经红极一时的 AI Pin 是否就不会因为糟糕的交互体验而最终沦为“电子垃圾”?

6 月 27~28 日的 AICon 北京站将继续聚焦 AI 技术的前沿突破与产业落地,围绕 AI Agent 构建、多模态应用、大模型推理性能优化、数据智能实践、AI 产品创新等热门议题,深入探讨技术与应用融合的最新趋势。欢迎持续关注,和我们一起探索 AI 应用的无限可能!

特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相关推荐
热点推荐
我们村有个68岁的老大哥,真是活腻了,跟一个48岁的寡妇搭伴生活

我们村有个68岁的老大哥,真是活腻了,跟一个48岁的寡妇搭伴生活

三农雷哥
2026-05-01 17:07:48
中途散伙!针对中国的军演,美日菲发现自己真实身份,排队跑路了

中途散伙!针对中国的军演,美日菲发现自己真实身份,排队跑路了

阿雹娱乐
2026-05-01 11:28:27
买新车车灯现“大小眼”,消费者欲退5000元定金,4S店:车灯符合出厂标准;记者介入,4s店退回定金

买新车车灯现“大小眼”,消费者欲退5000元定金,4S店:车灯符合出厂标准;记者介入,4s店退回定金

大风新闻
2026-04-30 22:08:08
这个小男孩,就是以后火遍大江南北的著名笑星,谁能一眼认出来?

这个小男孩,就是以后火遍大江南北的著名笑星,谁能一眼认出来?

手工制作阿歼
2026-05-02 00:25:58
你最接近生理极限的一次经历是什么?网友分享让人目瞪口呆!

你最接近生理极限的一次经历是什么?网友分享让人目瞪口呆!

夜深爱杂谈
2026-04-09 19:39:13
离谱!一班主任通知,因举报不再布置课后作业,引发其他家长不满

离谱!一班主任通知,因举报不再布置课后作业,引发其他家长不满

火山詩话
2026-04-30 10:53:58
新娘确实漂亮,但我更喜欢戴眼镜那个。

新娘确实漂亮,但我更喜欢戴眼镜那个。

动物奇奇怪怪
2026-04-12 12:44:36
驴友野线徒步不慎从200米高悬崖坠落,掉落六七米后所幸被树杈卡住,全身多处骨折,在附近演练的8支蓝天救援队4小时生死营救

驴友野线徒步不慎从200米高悬崖坠落,掉落六七米后所幸被树杈卡住,全身多处骨折,在附近演练的8支蓝天救援队4小时生死营救

极目新闻
2026-05-01 13:50:20
田亮儿子脖子粗到和头一样,网友集体急劝:快带娃去医院!

田亮儿子脖子粗到和头一样,网友集体急劝:快带娃去医院!

东方不败然多多
2026-04-29 11:09:22
62339人,大连英博主场上座人数再创新高,位列中超历史第3

62339人,大连英博主场上座人数再创新高,位列中超历史第3

懂球帝
2026-05-01 20:49:19
文和友溃退真相:选址没问题,是长沙那套“乡愁”塞不进别人的城

文和友溃退真相:选址没问题,是长沙那套“乡愁”塞不进别人的城

林子说事
2026-05-01 13:40:59
欧洲正在被夺舍

欧洲正在被夺舍

文青大叔说
2026-04-30 08:15:49
报道称自二战结束以来 美国债首次超过经济总量

报道称自二战结束以来 美国债首次超过经济总量

财联社
2026-05-01 22:12:15
香港的现代版姨太:签下保密条约住在珠海别墅,年纪过30就被赶走

香港的现代版姨太:签下保密条约住在珠海别墅,年纪过30就被赶走

白云故事
2025-09-05 21:55:03
山东男篮102-86辽宁,赛后传来4不可思议2事实,杨鸣一针见血

山东男篮102-86辽宁,赛后传来4不可思议2事实,杨鸣一针见血

小徐讲八卦
2026-05-02 06:16:14
33岁郭晓婷近况曝光!与王天辰因戏生情,如今婚姻生活很幸福

33岁郭晓婷近况曝光!与王天辰因戏生情,如今婚姻生活很幸福

代军哥哥谈娱乐
2026-05-01 12:26:49
王菲素颜现身观看话剧,扎丸子头打扮低调,人到中年眼神依然清澈

王菲素颜现身观看话剧,扎丸子头打扮低调,人到中年眼神依然清澈

手工制作阿歼
2026-05-01 20:25:49
弗格森出马!曼联锁定 5200 万世界级新星,18 岁天才远超托纳利

弗格森出马!曼联锁定 5200 万世界级新星,18 岁天才远超托纳利

澜归序
2026-05-02 06:05:41
打得太臭!世乒赛世界冠军爆冷被“血洗”不可原谅,王楚钦放狠话

打得太臭!世乒赛世界冠军爆冷被“血洗”不可原谅,王楚钦放狠话

小娱乐悠悠
2026-05-01 08:33:46
山西农妇惨死田间,邻居不吃不喝躲藏6天,被抓后笑谈行凶过程

山西农妇惨死田间,邻居不吃不喝躲藏6天,被抓后笑谈行凶过程

莫地方
2026-04-28 01:10:03
2026-05-02 09:24:49
InfoQ incentive-icons
InfoQ
有内容的技术社区媒体
12328文章数 51870关注度
往期回顾 全部

科技要闻

AI热潮耗尽库存,Mac Mini起售调高200美元

头条要闻

男子因健身设备锁扣崩断被弹飞致瘫痪 监控无法调取

头条要闻

男子因健身设备锁扣崩断被弹飞致瘫痪 监控无法调取

体育要闻

无奈!约基奇:这要在塞尔维亚 全队早被炒了

娱乐要闻

马筱梅产后身材恢复超好 现身户外直播

财经要闻

雷军很努力 小米还是跌破了30港元大关

汽车要闻

限时9.67万起 吉利星越L/星瑞i-HEV智擎混动上市

态度原创

时尚
房产
手机
本地
数码

聪明女人衣服从来不买太多!这三种精品提前准备好,耐穿又实用

房产要闻

所有户型全卖爆!海口TOP级豪宅,景观样板间五一全线开放!

手机要闻

Anbernic RG Rotate更多信息:3.5英寸720×720旋屏,87.99美元起

本地新闻

用青花瓷的方式,打开西溪湿地

数码要闻

苹果因AirTag"跟踪"争议面临数十起新诉讼

无障碍浏览 进入关怀版