品玩11月3日讯,美团今天正式开源全模态大模型LongCat-Flash-Omni,该模型以5600亿参数规模(激活参数270亿)实现了低延迟实时音视频交互能力。
作为业界首个集全模态覆盖、端到端架构与大参数量高效推理于一体的开源模型,其采用创新型ScMoE骨干网络与轻量级多模态编解码器,结合分块式音视频特征交织机制,支持128K上下文窗口及超8分钟交互时长。
评测显示,模型在Omni-Bench等全模态基准测试中达到开源SOTA水平,文本、图像、音频、视频单模态能力均位居前列。其采用渐进式多模融合训练策略,分阶段融合文本、语音、图像与视频数据,确保全模态性能无退化。模型已上线Hugging Face与GitHub平台,并提供在线体验与官方App支持语音交互。
![]()
特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.