网易首页 > 网易号 > 正文 申请入驻

LongCat-Flash-Omni正式发布并开源:开启全模态实时交互时代

0
分享至

11月3日, LongCat-Flash系列再升级,全新家族成员LongCat-Flash-Omni正式发布并开源,LongCat官方App同步上线公测。目前,新App已支持联网搜索、语音通话等功能,视频通话等功能会稍后上线;Web端则增加图片、文件上传和语音通话等功能。

据介绍,LongCat-Flash-Omni以LongCat-Flash系列的高效架构设计为基础(Shortcut-Connected MoE,含零计算专家),集成了高效多模态感知模块与语音重建模块,在总参数 5600 亿(激活参数 270 亿)的庞大参数规模下,仍实现低延迟的实时音视频交互能力,为开发者的多模态应用场景提供了更高效的技术选择。

新模型也是业界首个实现“全模态覆盖、端到端架构、大参数量高效推理”于一体的开源大语言模型,首次在开源范畴内实现了对标闭源模型的全模态能力,并凭借创新的架构设计与工程优化,让大参数模型在多模态任务中能实现毫秒级响应,解决行业内推理延迟的痛点。

具体来看,LongCat-Flash-Omni在一体化框架中整合了离线多模态理解与实时音视频交互能力,并采用完全端到端的设计,以视觉与音频编码器作为多模态感知器,由 LLM 直接处理输入并生成文本与语音token,再通过轻量级音频解码器重建为自然语音波形,从而实现低延迟的实时交互。所有模块均基于高效流式推理设计,视觉编码器、音频编解码器均为轻量级组件,参数量均约为6亿,延续了 LongCat-Flash 系列的创新型高效架构设计,实现了性能与推理效率间的最优平衡。


▲LongCat-Flash-Omni模型架构

与此同时,新模型突破“大参数规模与低延迟交互难以兼顾”的瓶颈,在大规模架构基础上实现高效实时音视频交互:模型总参数达 5600 亿(激活参数 270 亿),却依托 LongCat-Flash 系列创新的 ScMoE 架构(含零计算专家)作为 LLM 骨干,结合高效多模态编解码器和“分块式音视频特征交织机制”,最终实现低延迟、高质量的音视频处理与流式语音生成。模型可支持128K tokens上下文窗口及超 8 分钟音视频交互,在多模态长时记忆、多轮对话、时序推理等能力上具有优势。

全模态模型训练的核心挑战之一是 “不同模态的数据分布存在显著异质性”,LongCat-Flash-Omni采用渐进式早期多模融合训练策略,在平衡数据策略与早期融合训练范式下,逐步融入文本、音频、视频等模态,确保全模态性能强劲且无任何单模态性能退化。


综合评估结果表明,LongCat-Flash-Omni在综合性的全模态基准测试(如Omni-Bench, WorldSense)上达到了开源最先进水平(SOTA),并在文本、图像、音频、视频等各项模态的能力位居开源模型前列,实现“全模态不降智”的结果:


· ▲LongCat-Flash-Omni 的基准测试性能

  • 文本:LongCat-Flash-Omni 延续了该系列卓越的文本基础能力,且在多领域均呈现领先性能。相较于 LongCat-Flash 系列早期版本,该模型不仅未出现文本能力的衰减,反而在部分领域实现了性能提升。这一结果不仅印证了该团队训练策略的有效性,更凸显出全模态模型训练中不同模态间的潜在协同价值。

  • 图像理解:LongCat-Flash-Omni 的性能(RealWorldQA 74.8分)与闭源全模态模型 Gemini-2.5-Pro 相当,且优于开源模型 Qwen3-Omni;多图像任务优势尤为显著,核心得益于高质量交织图文、多图像及视频数据集上的训练成果。

  • 音频能力:从自动语音识别(ASR)、文本到语音(TTS)、语音续写维度进行评估,Instruct Model 层面表现突出:ASR 在 LibriSpeech、AISHELL-1 等数据集上优于 Gemini-2.5-Pro;语音到文本翻译(S2TT)在 CoVost2 表现强劲;音频理解在 TUT2017、Nonspeech7k 等任务达当前最优;音频到文本对话在 OpenAudioBench、VoiceBench 表现优异,实时音视频交互评分接近闭源模型,类人性指标优于 GPT-4o,实现基础能力到实用交互的高效转化。

  • 视频理解:LongCat-Flash-Omni 视频到文本任务性能达当前最优,短视频理解大幅优于现有参评模型,长视频理解比肩 Gemini-2.5-Pro 与 Qwen3-VL,这得益于动态帧采样、分层令牌聚合的视频处理策略,及高效骨干网络对长上下文的支持。

  • 跨模态理解:性能优于 Gemini-2.5-Flash(非思考模式),比肩 Gemini-2.5-Pro(非思考模式);尤其在真实世界音视频理解WorldSense 基准测试上,相较其他开源全模态模型展现出显著的性能优势,印证其高效的多模态融合能力,是当前综合能力领先的开源全模态模型。


  • 端到端交互:由于目前行业内尚未有成熟的实时多模态交互评估体系,LongCat团队构建了一套专属的端到端评测方案,该方案由定量用户评分(250 名用户评分)与定性专家分析(10 名专家,200 个对话样本)组成。定量结果显示:围绕端到端交互的自然度与流畅度,LongCat-Flash-Omni 在开源模型中展现出显著优势 —— 其评分比当前最优开源模型 Qwen3-Omni 高出 0.56 分;定性结果显示:LongCat-Flash-Omni 在副语言理解、相关性与记忆能力三个维度与顶级模型持平,但是在实时性、类人性与准确性三个维度仍存在差距,也将在未来工作中进一步优化。

特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相关推荐
热点推荐
太可恨!飞机一落地上海,女孩立马报案!更多年轻受害人浮出水面……

太可恨!飞机一落地上海,女孩立马报案!更多年轻受害人浮出水面……

环球网资讯
2026-03-26 21:48:04
伊朗女药剂师拒绝撤离,空袭第10天在“精准”打击下被“误杀”

伊朗女药剂师拒绝撤离,空袭第10天在“精准”打击下被“误杀”

网易新闻出品
2026-03-26 11:16:13
越打越出惊喜!以色列传来好消息,美军彻底歇菜:8年无法再开战

越打越出惊喜!以色列传来好消息,美军彻底歇菜:8年无法再开战

知法而形
2026-03-26 17:28:20
马英九疑似患失智症,台律师:大陆已注意到,没让其担任统一大使

马英九疑似患失智症,台律师:大陆已注意到,没让其担任统一大使

影孖看世界
2026-03-26 23:28:51
日本东京商业区发生持刀伤人事件2人死亡

日本东京商业区发生持刀伤人事件2人死亡

新华社
2026-03-26 21:10:15
教育部宣布中考重大变革,取消 5:5 分流,升学规则将全面调整?

教育部宣布中考重大变革,取消 5:5 分流,升学规则将全面调整?

今朝牛马
2026-03-26 20:22:18
乌克兰摧毁俄罗斯最大的基里希炼油厂!俄最大港口持续燃烧

乌克兰摧毁俄罗斯最大的基里希炼油厂!俄最大港口持续燃烧

项鹏飞
2026-03-26 21:13:57
很多被奉为经典的古文,很难说有多少教育意义

很多被奉为经典的古文,很难说有多少教育意义

小院之观
2026-03-24 08:30:13
刘晓庆外甥否认吃绝户!怒斥刘晓庆造谣,承认有矛盾希望私下解决

刘晓庆外甥否认吃绝户!怒斥刘晓庆造谣,承认有矛盾希望私下解决

萌神木木
2026-03-26 13:31:02
4-3大冷门,世界第79淘汰斯洛伐克,进世预赛欧洲区附加赛决赛

4-3大冷门,世界第79淘汰斯洛伐克,进世预赛欧洲区附加赛决赛

侧身凌空斩
2026-03-27 05:48:04
四川某设计院爆大瓜!

四川某设计院爆大瓜!

黯泉
2026-03-26 18:36:06
罗技:“我一降价,你还不是像狗一样跑过来”

罗技:“我一降价,你还不是像狗一样跑过来”

电脑吧评测室
2026-03-26 22:05:58
重庆一大学生因兼职送校内外卖被学校违纪处分,学校回应:处分流程已经中止,没有对该学生作出实际处罚

重庆一大学生因兼职送校内外卖被学校违纪处分,学校回应:处分流程已经中止,没有对该学生作出实际处罚

台州交通广播
2026-03-27 00:42:16
《人民的名义》演员徐光宇帮朋友免费商演后获赠10%股权,公司欠36万余元工程款,他被债权人起诉要求赔偿

《人民的名义》演员徐光宇帮朋友免费商演后获赠10%股权,公司欠36万余元工程款,他被债权人起诉要求赔偿

大风新闻
2026-03-26 22:39:05
宋喆出狱后现状:县城搬菜月入三千,前妻杨慧横店开公司年入千万

宋喆出狱后现状:县城搬菜月入三千,前妻杨慧横店开公司年入千万

一盅情怀
2026-03-26 14:47:59
“穿着一年的收成扶贫?”女村干部下乡视频走红,网友:够举报了

“穿着一年的收成扶贫?”女村干部下乡视频走红,网友:够举报了

林林先生
2026-02-07 09:00:03
嘴馋惹大祸!山东男子深夜骑摩托下地“打野”,抓4只宰杀冻冰箱

嘴馋惹大祸!山东男子深夜骑摩托下地“打野”,抓4只宰杀冻冰箱

万象硬核本尊
2026-03-25 18:59:38
张雪峰追悼会定于本周六,丧事从简不搞排场,11岁女儿成全家心病

张雪峰追悼会定于本周六,丧事从简不搞排场,11岁女儿成全家心病

未曾青梅
2026-03-26 22:48:49
伊朗用“四个必须”回应美国,伊方消息人士:美所谓“谈判”本质上是“第三次欺骗”计划

伊朗用“四个必须”回应美国,伊方消息人士:美所谓“谈判”本质上是“第三次欺骗”计划

环球网资讯
2026-03-27 06:41:04
南京女教师停职风波反转!大批家长发声力挺,恳请恢复岗位与声誉

南京女教师停职风波反转!大批家长发声力挺,恳请恢复岗位与声誉

火山詩话
2026-03-26 06:37:23
2026-03-27 08:20:49
雷峰网 incentive-icons
雷峰网
关注智能与未来!
68861文章数 656102关注度
往期回顾 全部

科技要闻

美团发布外卖大战后成绩单:亏损超200亿

头条要闻

特朗普再表态:伊朗必须达成协议 否则将面临猛烈攻势

头条要闻

特朗普再表态:伊朗必须达成协议 否则将面临猛烈攻势

体育要闻

申京努力了,然而杜兰特啊

娱乐要闻

刘晓庆妹妹发声!称姐姐受身边人挑拨

财经要闻

油价"驯服"特朗普?一到100美元就TACO

汽车要闻

一汽奥迪A6L e-tron开启预售 CLTC最大续航815km

态度原创

时尚
本地
亲子
房产
旅游

400万人爱过的女孩,被黄谣网暴180天后

本地新闻

救命,这只酱板鸭已经在我手机复仇了一万遍

亲子要闻

这娃生下来就是报恩的,听到他说对不起的时候,眼泪一下子就出来了

房产要闻

突发,三亚又有大批征迁补偿方案出炉!

旅游要闻

从有形商品到无形感受,用“情绪价值”解开消费密码

无障碍浏览 进入关怀版