网易首页 > 网易号 > 正文 申请入驻

LongCat-Flash-Omni正式发布并开源:开启全模态实时交互时代

0
分享至

11月3日, LongCat-Flash系列再升级,全新家族成员LongCat-Flash-Omni正式发布并开源,LongCat官方App同步上线公测。目前,新App已支持联网搜索、语音通话等功能,视频通话等功能会稍后上线;Web端则增加图片、文件上传和语音通话等功能。

据介绍,LongCat-Flash-Omni以LongCat-Flash系列的高效架构设计为基础(Shortcut-Connected MoE,含零计算专家),集成了高效多模态感知模块与语音重建模块,在总参数 5600 亿(激活参数 270 亿)的庞大参数规模下,仍实现低延迟的实时音视频交互能力,为开发者的多模态应用场景提供了更高效的技术选择。

新模型也是业界首个实现“全模态覆盖、端到端架构、大参数量高效推理”于一体的开源大语言模型,首次在开源范畴内实现了对标闭源模型的全模态能力,并凭借创新的架构设计与工程优化,让大参数模型在多模态任务中能实现毫秒级响应,解决行业内推理延迟的痛点。

具体来看,LongCat-Flash-Omni在一体化框架中整合了离线多模态理解与实时音视频交互能力,并采用完全端到端的设计,以视觉与音频编码器作为多模态感知器,由 LLM 直接处理输入并生成文本与语音token,再通过轻量级音频解码器重建为自然语音波形,从而实现低延迟的实时交互。所有模块均基于高效流式推理设计,视觉编码器、音频编解码器均为轻量级组件,参数量均约为6亿,延续了 LongCat-Flash 系列的创新型高效架构设计,实现了性能与推理效率间的最优平衡。


▲LongCat-Flash-Omni模型架构

与此同时,新模型突破“大参数规模与低延迟交互难以兼顾”的瓶颈,在大规模架构基础上实现高效实时音视频交互:模型总参数达 5600 亿(激活参数 270 亿),却依托 LongCat-Flash 系列创新的 ScMoE 架构(含零计算专家)作为 LLM 骨干,结合高效多模态编解码器和“分块式音视频特征交织机制”,最终实现低延迟、高质量的音视频处理与流式语音生成。模型可支持128K tokens上下文窗口及超 8 分钟音视频交互,在多模态长时记忆、多轮对话、时序推理等能力上具有优势。

全模态模型训练的核心挑战之一是 “不同模态的数据分布存在显著异质性”,LongCat-Flash-Omni采用渐进式早期多模融合训练策略,在平衡数据策略与早期融合训练范式下,逐步融入文本、音频、视频等模态,确保全模态性能强劲且无任何单模态性能退化。


综合评估结果表明,LongCat-Flash-Omni在综合性的全模态基准测试(如Omni-Bench, WorldSense)上达到了开源最先进水平(SOTA),并在文本、图像、音频、视频等各项模态的能力位居开源模型前列,实现“全模态不降智”的结果:


· ▲LongCat-Flash-Omni 的基准测试性能

  • 文本:LongCat-Flash-Omni 延续了该系列卓越的文本基础能力,且在多领域均呈现领先性能。相较于 LongCat-Flash 系列早期版本,该模型不仅未出现文本能力的衰减,反而在部分领域实现了性能提升。这一结果不仅印证了该团队训练策略的有效性,更凸显出全模态模型训练中不同模态间的潜在协同价值。

  • 图像理解:LongCat-Flash-Omni 的性能(RealWorldQA 74.8分)与闭源全模态模型 Gemini-2.5-Pro 相当,且优于开源模型 Qwen3-Omni;多图像任务优势尤为显著,核心得益于高质量交织图文、多图像及视频数据集上的训练成果。

  • 音频能力:从自动语音识别(ASR)、文本到语音(TTS)、语音续写维度进行评估,Instruct Model 层面表现突出:ASR 在 LibriSpeech、AISHELL-1 等数据集上优于 Gemini-2.5-Pro;语音到文本翻译(S2TT)在 CoVost2 表现强劲;音频理解在 TUT2017、Nonspeech7k 等任务达当前最优;音频到文本对话在 OpenAudioBench、VoiceBench 表现优异,实时音视频交互评分接近闭源模型,类人性指标优于 GPT-4o,实现基础能力到实用交互的高效转化。

  • 视频理解:LongCat-Flash-Omni 视频到文本任务性能达当前最优,短视频理解大幅优于现有参评模型,长视频理解比肩 Gemini-2.5-Pro 与 Qwen3-VL,这得益于动态帧采样、分层令牌聚合的视频处理策略,及高效骨干网络对长上下文的支持。

  • 跨模态理解:性能优于 Gemini-2.5-Flash(非思考模式),比肩 Gemini-2.5-Pro(非思考模式);尤其在真实世界音视频理解WorldSense 基准测试上,相较其他开源全模态模型展现出显著的性能优势,印证其高效的多模态融合能力,是当前综合能力领先的开源全模态模型。


  • 端到端交互:由于目前行业内尚未有成熟的实时多模态交互评估体系,LongCat团队构建了一套专属的端到端评测方案,该方案由定量用户评分(250 名用户评分)与定性专家分析(10 名专家,200 个对话样本)组成。定量结果显示:围绕端到端交互的自然度与流畅度,LongCat-Flash-Omni 在开源模型中展现出显著优势 —— 其评分比当前最优开源模型 Qwen3-Omni 高出 0.56 分;定性结果显示:LongCat-Flash-Omni 在副语言理解、相关性与记忆能力三个维度与顶级模型持平,但是在实时性、类人性与准确性三个维度仍存在差距,也将在未来工作中进一步优化。

特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相关推荐
热点推荐
越是大佬的商战博弈,越是像小孩子捣蛋一样!网友:大人都办不上来

越是大佬的商战博弈,越是像小孩子捣蛋一样!网友:大人都办不上来

夜深爱杂谈
2026-01-27 18:34:06
特朗普,关税大消息!

特朗普,关税大消息!

魏家东
2026-02-12 14:56:10
全程垫底毫无反抗!林孝埈英雄迟暮,遗憾未把黄金期献给中国短道

全程垫底毫无反抗!林孝埈英雄迟暮,遗憾未把黄金期献给中国短道

杨华评论
2026-02-13 04:54:37
泰山第5外援确定!经纪人确认,葡萄牙中卫加盟,免签无资金压力

泰山第5外援确定!经纪人确认,葡萄牙中卫加盟,免签无资金压力

小金体坛大视野
2026-02-13 11:30:42
险胜!掘金拒绝大逆转,约基奇再创NBA历史第一纪录

险胜!掘金拒绝大逆转,约基奇再创NBA历史第一纪录

格斗联盟
2026-02-13 04:07:07
有幸去了趟越南,实话实说,越南人的生活,简直让我叹为观止!

有幸去了趟越南,实话实说,越南人的生活,简直让我叹为观止!

王二哥老搞笑
2026-02-06 15:54:51
让人眼红啊!上海网友晒年终奖到账99210元,称比预想的要多得多

让人眼红啊!上海网友晒年终奖到账99210元,称比预想的要多得多

火山詩话
2026-02-13 11:12:10
拒绝被拿捏!中国光刻机正面硬刚荷兰ASML公司,美制裁沦为笑话

拒绝被拿捏!中国光刻机正面硬刚荷兰ASML公司,美制裁沦为笑话

胖福的小木屋
2026-02-13 16:14:42
美国最害怕的,或许不是中国打日本,而是中国不打日本!

美国最害怕的,或许不是中国打日本,而是中国不打日本!

史智文道
2026-02-13 14:24:52
7年败光2个亿,邹市明冉莹颖共同发文,终究还是踏出了这一步

7年败光2个亿,邹市明冉莹颖共同发文,终究还是踏出了这一步

林轻吟
2026-02-11 11:29:40
谷爱凌连续3天遭美国网友恶评:卑鄙的叛徒!不如刘美贤 她母亲只认钱

谷爱凌连续3天遭美国网友恶评:卑鄙的叛徒!不如刘美贤 她母亲只认钱

东方不败然多多
2026-02-12 07:58:58
外媒:被曝与爱泼斯坦有瓜葛后,高盛首席律师宣布6月底离职

外媒:被曝与爱泼斯坦有瓜葛后,高盛首席律师宣布6月底离职

环球网资讯
2026-02-13 12:50:47
男篮集训更新:召开入队会,郭士强提3点要求,队长人选或有变

男篮集训更新:召开入队会,郭士强提3点要求,队长人选或有变

男足的小球童
2026-02-12 16:39:30
2000万网红“听风的蚕”被封!彻底凉凉

2000万网红“听风的蚕”被封!彻底凉凉

TOP电商
2026-02-12 02:48:55
为什么造不出C919发动机,真相远比你想象的更残酷

为什么造不出C919发动机,真相远比你想象的更残酷

难得君
2026-02-11 12:19:46
邮报:埃泽逐渐沦为边缘人,可能无缘英格兰队的世界杯阵容

邮报:埃泽逐渐沦为边缘人,可能无缘英格兰队的世界杯阵容

懂球帝
2026-02-13 16:47:23
华为通报出来了:华为老员工邓某被逮捕,任正非果然留了一手

华为通报出来了:华为老员工邓某被逮捕,任正非果然留了一手

花小猫的美食日常
2026-02-13 15:59:20
就在今天!2月13日凌晨,NBA传来哈登、莫布里、阿伦新消息!

就在今天!2月13日凌晨,NBA传来哈登、莫布里、阿伦新消息!

皮皮观天下
2026-02-13 07:39:06
文帝、景帝、武帝三代帝王之间的一脉相承,冷酷无情的帝王之心!

文帝、景帝、武帝三代帝王之间的一脉相承,冷酷无情的帝王之心!

铭记历史呀
2026-02-11 13:36:27
刘少昂半决赛两次被影响却未有任何判罚!中国网友:谁来心疼他

刘少昂半决赛两次被影响却未有任何判罚!中国网友:谁来心疼他

Emily说个球
2026-02-13 04:35:22
2026-02-13 17:19:00
雷峰网 incentive-icons
雷峰网
关注智能与未来!
68554文章数 656074关注度
往期回顾 全部

科技要闻

DeepSeek更新后被吐槽变冷变傻?

头条要闻

俄驻日大使:俄日关系跌至"战后最低点"

头条要闻

俄驻日大使:俄日关系跌至"战后最低点"

体育要闻

这张照片背后,是米兰冬奥最催泪的故事

娱乐要闻

米兰冬奥摘银 谷爱凌再遭美国网友网暴

财经要闻

华莱士母公司退市 疯狂扩张下的食安隐忧

汽车要闻

探秘比亚迪巴西工厂 居然是这个画风!

态度原创

旅游
亲子
艺术
本地
房产

旅游要闻

千城胜景|云南临沧临翔:油菜花海染金妆

亲子要闻

今儿整个白菜酿肉,寓意百财来聚,看家人这反应,挺成功!

艺术要闻

书法大师的神作现身,引发网友热议!

本地新闻

下一站是嘉禾望岗,请各位乘客做好哭泣准备

房产要闻

三亚新机场,又传出新消息!

无障碍浏览 进入关怀版