网易首页 > 网易号 > 正文 申请入驻

美团正式上线LongCat App,可体验语音通话等新功能

0
分享至

11月3日, LongCat-Flash系列再升级,全新家族成员LongCat-Flash-Omni正式发布并开源,LongCat官方App同步上线公测。目前,新App已支持联网搜索、语音通话等功能,视频通话等功能会稍后上线;Web端则增加图片、文件上传和语音通话等功能。

据介绍,LongCat-Flash-Omni以LongCat-Flash系列的高效架构设计为基础(Shortcut-Connected MoE,含零计算专家),集成了高效多模态感知模块与语音重建模块,在总参数 5600 亿(激活参数 270 亿)的庞大参数规模下,仍实现低延迟的实时音视频交互能力,为开发者的多模态应用场景提供了更高效的技术选择。

新模型也是业界首个实现“全模态覆盖、端到端架构、大参数量高效推理”于一体的开源大语言模型,首次在开源范畴内实现了对标闭源模型的全模态能力,并凭借创新的架构设计与工程优化,让大参数模型在多模态任务中能实现毫秒级响应,解决行业内推理延迟的痛点。

具体来看,LongCat-Flash-Omni在一体化框架中整合了离线多模态理解与实时音视频交互能力,并采用完全端到端的设计,以视觉与音频编码器作为多模态感知器,由 LLM 直接处理输入并生成文本与语音token,再通过轻量级音频解码器重建为自然语音波形,从而实现低延迟的实时交互。所有模块均基于高效流式推理设计,视觉编码器、音频编解码器均为轻量级组件,参数量均约为6亿,延续了 LongCat-Flash 系列的创新型高效架构设计,实现了性能与推理效率间的最优平衡。



▲LongCat-Flash-Omni模型架构

与此同时,新模型突破“大参数规模与低延迟交互难以兼顾”的瓶颈,在大规模架构基础上实现高效实时音视频交互:模型总参数达 5600 亿(激活参数 270 亿),却依托 LongCat-Flash 系列创新的 ScMoE 架构(含零计算专家)作为 LLM 骨干,结合高效多模态编解码器和“分块式音视频特征交织机制”,最终实现低延迟、高质量的音视频处理与流式语音生成。模型可支持128K tokens上下文窗口及超 8 分钟音视频交互,在多模态长时记忆、多轮对话、时序推理等能力上具有优势。

全模态模型训练的核心挑战之一是 “不同模态的数据分布存在显著异质性”,LongCat-Flash-Omni采用渐进式早期多模融合训练策略,在平衡数据策略与早期融合训练范式下,逐步融入文本、音频、视频等模态,确保全模态性能强劲且无任何单模态性能退化。



综合评估结果表明,LongCat-Flash-Omni在综合性的全模态基准测试(如Omni-Bench, WorldSense)上达到了开源最先进水平(SOTA),并在文本、图像、音频、视频等各项模态的能力位居开源模型前列,实现“全模态不降智”的结果:



· ▲LongCat-Flash-Omni 的基准测试性能

· 文本:LongCat-Flash-Omni 延续了该系列卓越的文本基础能力,且在多领域均呈现领先性能。相较于 LongCat-Flash 系列早期版本,该模型不仅未出现文本能力的衰减,反而在部分领域实现了性能提升。这一结果不仅印证了该团队训练策略的有效性,更凸显出全模态模型训练中不同模态间的潜在协同价值。

· 图像理解:LongCat-Flash-Omni 的性能(RealWorldQA 74.8分)与闭源全模态模型 Gemini-2.5-Pro 相当,且优于开源模型 Qwen3-Omni;多图像任务优势尤为显著,核心得益于高质量交织图文、多图像及视频数据集上的训练成果。

· 音频能力:从自动语音识别(ASR)、文本到语音(TTS)、语音续写维度进行评估,Instruct Model 层面表现突出:ASR 在 LibriSpeech、AISHELL-1 等数据集上优于 Gemini-2.5-Pro;语音到文本翻译(S2TT)在 CoVost2 表现强劲;音频理解在 TUT2017、Nonspeech7k 等任务达当前最优;音频到文本对话在 OpenAudioBench、VoiceBench 表现优异,实时音视频交互评分接近闭源模型,类人性指标优于 GPT-4o,实现基础能力到实用交互的高效转化。

· 视频理解:LongCat-Flash-Omni 视频到文本任务性能达当前最优,短视频理解大幅优于现有参评模型,长视频理解比肩 Gemini-2.5-Pro 与 Qwen3-VL,这得益于动态帧采样、分层令牌聚合的视频处理策略,及高效骨干网络对长上下文的支持。

· 跨模态理解:性能优于 Gemini-2.5-Flash(非思考模式),比肩 Gemini-2.5-Pro(非思考模式);尤其在真实世界音视频理解WorldSense 基准测试上,相较其他开源全模态模型展现出显著的性能优势,印证其高效的多模态融合能力,是当前综合能力领先的开源全模态模型。



· 端到端交互:由于目前行业内尚未有成熟的实时多模态交互评估体系,LongCat团队构建了一套专属的端到端评测方案,该方案由定量用户评分(250 名用户评分)与定性专家分析(10 名专家,200 个对话样本)组成。定量结果显示:围绕端到端交互的自然度与流畅度,LongCat-Flash-Omni 在开源模型中展现出显著优势 —— 其评分比当前最优开源模型 Qwen3-Omni 高出 0.56 分;定性结果显示:LongCat-Flash-Omni 在副语言理解、相关性与记忆能力三个维度与顶级模型持平,但是在实时性、类人性与准确性三个维度仍存在差距,也将在未来工作中进一步优化。

特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相关推荐
热点推荐
北京两会|市政协委员沈腾:建议医院建立“续方快线”,分流开药与看病人员

北京两会|市政协委员沈腾:建议医院建立“续方快线”,分流开药与看病人员

北青网-北京青年报
2026-01-24 20:47:14
正式确认,詹姆斯即将离队!紫金生涯落幕!湖人该何去何从?

正式确认,詹姆斯即将离队!紫金生涯落幕!湖人该何去何从?

体育大朋说
2026-01-24 19:06:13
商业航天带火太空光伏,15家核心企业,谁值得长期关注?

商业航天带火太空光伏,15家核心企业,谁值得长期关注?

小陆搞笑日常
2026-01-24 11:15:04
黄多多在国外成街溜子?是放飞还是堕落?

黄多多在国外成街溜子?是放飞还是堕落?

毒舌八卦
2026-01-23 22:37:28
数十次点名中国,特朗普大闹达沃斯到底想干吗?

数十次点名中国,特朗普大闹达沃斯到底想干吗?

看看新闻Knews
2026-01-23 19:21:01
一旦中美“掀桌子翻脸”,站美国的有4个,能帮中国的仅一种力量

一旦中美“掀桌子翻脸”,站美国的有4个,能帮中国的仅一种力量

乐享人生风雨
2026-01-25 03:51:35
蒙古国首都骚乱再起,社会矛盾愈发尖锐,反华到底图啥

蒙古国首都骚乱再起,社会矛盾愈发尖锐,反华到底图啥

素衣读史
2026-01-24 17:12:53
张又侠、刘振立涉嫌严重违纪违法被立案审查调查

张又侠、刘振立涉嫌严重违纪违法被立案审查调查

界面新闻
2026-01-24 15:04:32
彻底崩盘!基辅上演“大逃亡”,美军M270被俄打爆,小泽幻想破灭

彻底崩盘!基辅上演“大逃亡”,美军M270被俄打爆,小泽幻想破灭

妙知
2026-01-23 11:55:37
聂卫平女徒弟只有初段,却是“第一美女棋手”,嫁富商后如今怎样

聂卫平女徒弟只有初段,却是“第一美女棋手”,嫁富商后如今怎样

一娱三分地
2026-01-24 16:28:10
北京独生女被外地前男友殴打致残!劣迹男霸占房产的方式太极端

北京独生女被外地前男友殴打致残!劣迹男霸占房产的方式太极端

奇思妙想草叶君
2026-01-24 23:18:55
取代房地产!中国最大支柱产业正在更替,未来甚至可能超越美国

取代房地产!中国最大支柱产业正在更替,未来甚至可能超越美国

甜柠聊史
2026-01-24 15:59:51
特朗普发出邀请,联手中俄干一件“大事”,这次两国没有直接拒绝

特朗普发出邀请,联手中俄干一件“大事”,这次两国没有直接拒绝

战旗红
2026-01-25 03:54:05
一语道破,u23国足0-4日本,赛后范志毅直言不讳说出了看法

一语道破,u23国足0-4日本,赛后范志毅直言不讳说出了看法

各地精彩不容错过
2026-01-25 01:35:13
房东慌了!身份被实锤,真实目的被扒,嫣然医院新址确定后着急了

房东慌了!身份被实锤,真实目的被扒,嫣然医院新址确定后着急了

有范又有料
2026-01-24 16:26:39
林峰追了她4年,她嫁给别人只花了4天,还连生三娃!如今被曝婚变,全网心碎:女神这是被骗了?

林峰追了她4年,她嫁给别人只花了4天,还连生三娃!如今被曝婚变,全网心碎:女神这是被骗了?

黎兜兜
2026-01-24 21:21:39
首批被授予的17名上将,怎么排名

首批被授予的17名上将,怎么排名

丁铗惊悚影视解说
2025-11-25 21:10:39
过气男顶流沦为酒局“工具人”!全程讨好、倒酒赔笑,像一个商品

过气男顶流沦为酒局“工具人”!全程讨好、倒酒赔笑,像一个商品

涵豆说娱
2026-01-19 18:16:27
140亿卖身美国!中国养大的AI白眼狼,被商务部一招摁死!

140亿卖身美国!中国养大的AI白眼狼,被商务部一招摁死!

快乐彼岸
2026-01-24 17:57:59
TOP14位身高170以上的女神,有颜有灯有演技

TOP14位身高170以上的女神,有颜有灯有演技

素然追光
2026-01-02 02:45:02
2026-01-25 06:19:00
读懂数字财经
读懂数字财经
用数据,说点财经人话
1828文章数 3562关注度
往期回顾 全部

科技要闻

黄仁勋现身上海菜市场

头条要闻

张又侠、刘振立被查 解放军报发布社论

头条要闻

张又侠、刘振立被查 解放军报发布社论

体育要闻

当家球星打替补,他们在故意摆烂?

娱乐要闻

回归还是顶流 凤凰传奇将现身马年春晚

财经要闻

“百年老字号”张小泉遭60亿债务压顶

汽车要闻

有增程和纯电版可选 日产NX8或于3-4月间上市

态度原创

亲子
数码
艺术
时尚
手机

亲子要闻

哄睡新妙招!吹风机声+束带,宝宝一会儿就睡着了,网友:为什么孩子大了才告诉我!

数码要闻

UnifyDrive UC250/450 Pro家庭存储NAS发布,配置与价格曝光

艺术要闻

18位西方画家笔下的女人,美得惊艳了时光!

冬天最佳“显瘦”公式:上短+下长

手机要闻

追觅首款手机狂揽亿元订单:自研芯片+模块化影像,硬刚华为小米

无障碍浏览 进入关怀版