网易首页 > 网易号 > 正文 申请入驻

美团正式上线LongCat App,可体验语音通话等新功能

0
分享至

11月3日, LongCat-Flash系列再升级,全新家族成员LongCat-Flash-Omni正式发布并开源,LongCat官方App同步上线公测。目前,新App已支持联网搜索、语音通话等功能,视频通话等功能会稍后上线;Web端则增加图片、文件上传和语音通话等功能。

据介绍,LongCat-Flash-Omni以LongCat-Flash系列的高效架构设计为基础(Shortcut-Connected MoE,含零计算专家),集成了高效多模态感知模块与语音重建模块,在总参数 5600 亿(激活参数 270 亿)的庞大参数规模下,仍实现低延迟的实时音视频交互能力,为开发者的多模态应用场景提供了更高效的技术选择。

新模型也是业界首个实现“全模态覆盖、端到端架构、大参数量高效推理”于一体的开源大语言模型,首次在开源范畴内实现了对标闭源模型的全模态能力,并凭借创新的架构设计与工程优化,让大参数模型在多模态任务中能实现毫秒级响应,解决行业内推理延迟的痛点。

具体来看,LongCat-Flash-Omni在一体化框架中整合了离线多模态理解与实时音视频交互能力,并采用完全端到端的设计,以视觉与音频编码器作为多模态感知器,由 LLM 直接处理输入并生成文本与语音token,再通过轻量级音频解码器重建为自然语音波形,从而实现低延迟的实时交互。所有模块均基于高效流式推理设计,视觉编码器、音频编解码器均为轻量级组件,参数量均约为6亿,延续了 LongCat-Flash 系列的创新型高效架构设计,实现了性能与推理效率间的最优平衡。



▲LongCat-Flash-Omni模型架构

与此同时,新模型突破“大参数规模与低延迟交互难以兼顾”的瓶颈,在大规模架构基础上实现高效实时音视频交互:模型总参数达 5600 亿(激活参数 270 亿),却依托 LongCat-Flash 系列创新的 ScMoE 架构(含零计算专家)作为 LLM 骨干,结合高效多模态编解码器和“分块式音视频特征交织机制”,最终实现低延迟、高质量的音视频处理与流式语音生成。模型可支持128K tokens上下文窗口及超 8 分钟音视频交互,在多模态长时记忆、多轮对话、时序推理等能力上具有优势。

全模态模型训练的核心挑战之一是 “不同模态的数据分布存在显著异质性”,LongCat-Flash-Omni采用渐进式早期多模融合训练策略,在平衡数据策略与早期融合训练范式下,逐步融入文本、音频、视频等模态,确保全模态性能强劲且无任何单模态性能退化。



综合评估结果表明,LongCat-Flash-Omni在综合性的全模态基准测试(如Omni-Bench, WorldSense)上达到了开源最先进水平(SOTA),并在文本、图像、音频、视频等各项模态的能力位居开源模型前列,实现“全模态不降智”的结果:



· ▲LongCat-Flash-Omni 的基准测试性能

· 文本:LongCat-Flash-Omni 延续了该系列卓越的文本基础能力,且在多领域均呈现领先性能。相较于 LongCat-Flash 系列早期版本,该模型不仅未出现文本能力的衰减,反而在部分领域实现了性能提升。这一结果不仅印证了该团队训练策略的有效性,更凸显出全模态模型训练中不同模态间的潜在协同价值。

· 图像理解:LongCat-Flash-Omni 的性能(RealWorldQA 74.8分)与闭源全模态模型 Gemini-2.5-Pro 相当,且优于开源模型 Qwen3-Omni;多图像任务优势尤为显著,核心得益于高质量交织图文、多图像及视频数据集上的训练成果。

· 音频能力:从自动语音识别(ASR)、文本到语音(TTS)、语音续写维度进行评估,Instruct Model 层面表现突出:ASR 在 LibriSpeech、AISHELL-1 等数据集上优于 Gemini-2.5-Pro;语音到文本翻译(S2TT)在 CoVost2 表现强劲;音频理解在 TUT2017、Nonspeech7k 等任务达当前最优;音频到文本对话在 OpenAudioBench、VoiceBench 表现优异,实时音视频交互评分接近闭源模型,类人性指标优于 GPT-4o,实现基础能力到实用交互的高效转化。

· 视频理解:LongCat-Flash-Omni 视频到文本任务性能达当前最优,短视频理解大幅优于现有参评模型,长视频理解比肩 Gemini-2.5-Pro 与 Qwen3-VL,这得益于动态帧采样、分层令牌聚合的视频处理策略,及高效骨干网络对长上下文的支持。

· 跨模态理解:性能优于 Gemini-2.5-Flash(非思考模式),比肩 Gemini-2.5-Pro(非思考模式);尤其在真实世界音视频理解WorldSense 基准测试上,相较其他开源全模态模型展现出显著的性能优势,印证其高效的多模态融合能力,是当前综合能力领先的开源全模态模型。



· 端到端交互:由于目前行业内尚未有成熟的实时多模态交互评估体系,LongCat团队构建了一套专属的端到端评测方案,该方案由定量用户评分(250 名用户评分)与定性专家分析(10 名专家,200 个对话样本)组成。定量结果显示:围绕端到端交互的自然度与流畅度,LongCat-Flash-Omni 在开源模型中展现出显著优势 —— 其评分比当前最优开源模型 Qwen3-Omni 高出 0.56 分;定性结果显示:LongCat-Flash-Omni 在副语言理解、相关性与记忆能力三个维度与顶级模型持平,但是在实时性、类人性与准确性三个维度仍存在差距,也将在未来工作中进一步优化。

特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相关推荐
热点推荐
全部抢空,人山人海!浙江第一波人出动了!马上席卷全国

全部抢空,人山人海!浙江第一波人出动了!马上席卷全国

上观新闻
2025-11-12 06:38:11
曝恩比德或将离开费城,76人已经有新的领袖,乔治也被人遗忘了

曝恩比德或将离开费城,76人已经有新的领袖,乔治也被人遗忘了

只扣篮的教练
2025-11-12 16:41:58
高市拒绝撤回谬论,不到48小时,中方深切哀悼,日本重要人物逝世

高市拒绝撤回谬论,不到48小时,中方深切哀悼,日本重要人物逝世

博览历史
2025-11-12 16:50:23
雷军坚称小米SU7无抄袭被打脸!网友:不是抄,是全部搬运

雷军坚称小米SU7无抄袭被打脸!网友:不是抄,是全部搬运

麦大人
2025-11-11 20:43:26
赖清德发话:国民党若现在不保沈伯洋,大陆下一个对付的就是你们

赖清德发话:国民党若现在不保沈伯洋,大陆下一个对付的就是你们

云鹏叙事
2025-11-12 10:54:43
双11彻底凉了?满屏套路加口袋空空,消费降级,年轻人买不动了?

双11彻底凉了?满屏套路加口袋空空,消费降级,年轻人买不动了?

眼光很亮
2025-11-12 15:45:55
广东:女子给男性剪发,穿着难以想象,网友:正经吗?

广东:女子给男性剪发,穿着难以想象,网友:正经吗?

心轩专栏
2025-11-02 21:59:42
65岁倪萍医美后美炸天!优雅时髦,没有皱纹,年轻的像20岁!

65岁倪萍医美后美炸天!优雅时髦,没有皱纹,年轻的像20岁!

大龄女一晓彤
2025-09-23 19:35:20
一夜消息:比尔赛季报销,老詹复出倒计时,独行侠考虑重建

一夜消息:比尔赛季报销,老詹复出倒计时,独行侠考虑重建

冷月小风风
2025-11-13 09:52:59
德国民调:快让他下台!默茨支持率崩至25%,极右翼伺机夺权

德国民调:快让他下台!默茨支持率崩至25%,极右翼伺机夺权

霁寒飘雪
2025-11-13 09:11:00
非洲土皇帝王垚:丰臀辣妹当助理,生活奢靡为何还多次被官媒表扬

非洲土皇帝王垚:丰臀辣妹当助理,生活奢靡为何还多次被官媒表扬

禾寒叙
2025-11-10 22:27:04
泰国男星嫁给50岁意大利富商,正式退出娱乐圈

泰国男星嫁给50岁意大利富商,正式退出娱乐圈

下水道男孩
2025-11-11 23:51:55
震惊硅谷!37岁华裔理工男靠“喂数据”身家1200亿,成最年轻富豪

震惊硅谷!37岁华裔理工男靠“喂数据”身家1200亿,成最年轻富豪

青眼财经
2025-11-12 14:42:01
被特斯拉Model Y长续航点燃的车市:上市首天卖出上海超级工厂三周产能

被特斯拉Model Y长续航点燃的车市:上市首天卖出上海超级工厂三周产能

小李子体育
2025-11-13 08:00:59
朝鲜战争中,美军原本已接近击败中国,却碰上了志愿军决死的师长

朝鲜战争中,美军原本已接近击败中国,却碰上了志愿军决死的师长

知鉴明史
2025-11-09 17:15:03
真不能怪祖院长,就曾医生这颜值、这才华和魅力,谁遭的住?

真不能怪祖院长,就曾医生这颜值、这才华和魅力,谁遭的住?

吃瓜局
2025-11-11 16:23:49
我过了70岁才发现:拼搏半生换来的房子和存款,却成了一种负担

我过了70岁才发现:拼搏半生换来的房子和存款,却成了一种负担

蝉吟槐蕊
2025-11-07 10:29:57
32岁女教师跳楼身亡!俩娃没了妈,最大8岁,丈夫提2诉求却遭网暴

32岁女教师跳楼身亡!俩娃没了妈,最大8岁,丈夫提2诉求却遭网暴

揽星河的笔记
2025-11-12 15:29:49
上海市委决定:董依雯履新

上海市委决定:董依雯履新

鲁中晨报
2025-11-12 18:19:02
头等大事、重中之重!吉林成立省级领导小组、组建办公机构

头等大事、重中之重!吉林成立省级领导小组、组建办公机构

政知新媒体
2025-11-12 22:35:56
2025-11-13 10:43:00
读懂数字财经
读懂数字财经
用数据,说点财经人话
1716文章数 3554关注度
往期回顾 全部

科技要闻

深夜重磅!GPT-5.1发布,奥特曼大谈情商

头条要闻

号称3招追回欠款 男子冒用律师身份"套路"多名农民工

头条要闻

号称3招追回欠款 男子冒用律师身份"套路"多名农民工

体育要闻

消磨你上千小时的足球游戏,走过第20年

娱乐要闻

一场演唱会,戳穿岳云鹏圈中地位

财经要闻

源峰25亿赌局!汉堡王中国"卖身"求生

汽车要闻

具备高阶辅助驾驶功能 欧拉5预售价10.98万起

态度原创

时尚
家居
健康
本地
军事航空

降温应该穿什么衣服?看看这些穿搭就有灵感,简洁自然又舒适

家居要闻

情感之所 生活教会设计

血液科专家揭秘白血病七大误区

本地新闻

云游安徽 | 凌滩玉魄淬千年,诗意钢城马鞍山

军事要闻

美媒爆出猛料 "北溪"破坏行动由扎卢日内指挥

无障碍浏览 进入关怀版