网易首页 > 网易号 > 正文 申请入驻

美团新独立APP,点不了菜只能点AI

0
分享至

用外卖的打法做AI模型?美团这是跟“又快又稳”杠上了(doge)。

两个月哐哐发了多款模型后,美团依旧动作不停——

最新开源LongCat-Flash-Omni,从名字你也能看出来了(Omni意为“全能的”),没错,这款模型终于支持多模态了!



任务虽更复杂,但模型实力不减,一出手依旧是“开源即SOTA”:

在综合性的全模态基准测试(如Omni-Bench, WorldSense)上,超越Qwen3-Omni、Gemini-2.5-Flash,这款模型直接达到了开源SOTA水准,而且能和闭源的Gemini-2.5-Pro相媲美。

即使单拉出来文本、图像、音频、视频等各项模态能力,它也依旧能打(单项能力均位居开源模型前列),真正实现了“全模态不降智”。



而且啊,这款模型还有一个亮点,那就是“快”(天下武功唯快不破?)——

继承LongCat-Flash系列“快”的基因,这款Omni模型总参数560B,激活参数仅27B,这种“大总参小激活”的MoE架构,使其在保持庞大知识容量的同时,实现了极高的推理效率。

不妨来直观感受一下它的生成速度:



可以看到,从输入指令到生成第一个token的时间间隔非常短暂,整个过程相当丝滑。

据悉,在当前主流旗舰模型的性能标准和参数规模下,这是首个能够实现全模态实时交互的开源模型

以及有意思的是,美团发布这一成果时恰逢“Cursor‘自研’模型套壳国产开源”的八卦发酵之际,因此美团AI实力被低估的看法正在受到热议。(网友os:看看人家外卖公司,对比过于惨烈~)



目前,这款模型已在美团旗下的LongCat APP和Web端上线,人人都能免费体验。

老规矩,一手实测火速走起~

实测美团新模型

打开LongCat APP,从首页可以看到,它目前支持文字/语音两种输入方式,并能进行语音通话(视频通话功能正在跑步入场中),Web端还支持上传图片和文件。



别的不说,最近很火的“让AI帮忙数羊哄睡”的服务自然不能落下。



视频链接:https://mp.weixin.qq.com/s/Aia058is0yR9vfA_Yoypwg

好好好,AI你也偷懒是吧(doge)每数到三就跳到十,还能自圆其说是小羊干的,这下数到100还不是手拿把掐。

而眼见和LongCat聊天有点意思,那视频通话内测当然得继续安排上。

随手拿过一个用光的香水瓶,接连抛出几个问题:

  • 这是什么?你能看到什么?瓶身上的字是什么意思?能带上飞机吗…

没想到LongCat丝毫不慌,仔细“看过”后挨个解答了我们的问题:



视频链接:https://mp.weixin.qq.com/s/Aia058is0yR9vfA_Yoypwg

看来“能看会说”这种基本功,已经难不倒咱们多模态选手LongCat了。

咳咳,言归正传我们再来测试一下文本/图片的输入情况。

在典中典的六边形小球弹跳问题上,LongCat对物理世界规则的理解也表现不错:

  • Prompt:显示球在旋转的六边形内弹跳。球应该受到重力和摩擦力的影响,并且必须逼真地从旋转的墙壁上反弹。

由于贴心地附上了代码和可视化方案,所以我们火速把相关代码跑了出来,结果be like:



另外,在图片理解测试中,我们发现LongCat非常适合用来“玩梗”。

随便让它识别一张梗图,当我们还在苦思冥想时,人家秒秒钟给出了正确答案:



3,2,1,答案揭晓:鸭(压)岁钱。



最后再来看一下语音输入,我们找了段复杂环境下的骑手送餐录音,给LongCat上点难度。



音频链接:https://mp.weixin.qq.com/s/Aia058is0yR9vfA_Yoypwg

nice,即使是在BGM和环境音的干扰下,LongCat也顺利识别出了人声信息,并给出了相应意见。



总之这波实测下来,对LongCat-Flash-Omni最大的感受就两个字——快、稳

即使面对复杂多模态任务,它也能做到即时响应,整个交互体验尤为丝滑。

而且, 不管是聊天问答、语音识别,还是那种脑筋急转弯式的推理题,它都能第一时间接得住、接得对。

可以说,Omni既延续了LongCat系列在对话和深度思考方面的传统优势,将回答的专业度拉满,又自带“Flash”系列的快基因——

好好好,果然不愧是LongCat-Flash-Chat和LongCat-Flash-Thinking的亲传弟子(Chat主打快、Think主打专业)。



此时回看LongCat系列的成长路径,美团迭代模型的逻辑也很清晰了——先快、再专、后全。

  • 速度优先。先把底层打通,把模型响应、语音识别、实时生成这几件事做到“丝滑不卡”。对用户来说,这就是“好用”的基础门槛。
  • 专业深耕。速度有了,再往深里卷。LongCat在复杂逻辑推理、物理仿真、嘈杂语音识别等领域,明显做了不少优化。可以看出,美团不只是要做一个“会聊的AI”,而是想做能在复杂场景下稳定发挥的“懂业务的AI”。
  • 第三步,全面拓展。虽然目前LongCat还没开放图片/视频生成功能,但结合美团在视觉、地图、语音导航这些本地服务领域的深厚积累,全模态路线几乎是板上钉钉。到时候文字、语音、视觉全打通,也就顺理成章了。

毕竟前不久,美团就已经单独发了一个视频模型LongCat-Video,其稳定生成长视频的能力(一般可生成5分钟)也给人留下深刻印象。



视频源自:@quarterturn;视频链接;https://mp.weixin.qq.com/s/Aia058is0yR9vfA_Yoypwg

又快又全,怎么做到的?

其实,做全模态大模型的并不只有美团——只是要么做得不够好,要么做得没美团快。

毕竟要让AI“听得懂、看得清、反应快”,远比想象中难得多:

一曰多模态融合难度高。文本、语音、图像、视频……不同模态在结构和时间维度上差异明显,强制融合反而会导致单模态任务效果不佳,样样通但样样松。

二曰离线理解与流式交互难兼容。模型看懂是一回事,边看边说是另一回事。两种模式的处理逻辑差异巨大,难以在同一架构中结合。

三曰实时交互性能受限。现有模型能看能听,但一到实时对话就卡壳,延迟高、响应慢,用户体验感差。要想模型实时性好,就离不开高质量的模型架构设计和基础设施部署。

四曰大规模训练效率低。多模态模型数据量庞大,模块之间配合复杂,影响模型训练速度。

而LongCat-Flash-Omni之所以能够脱颖而出,关键在于它在架构层面重构了多模态融合的底层逻辑



主干部分延续LongCat系列的高效架构设计,采用完全端到端的统一架构ScMoE,能够同时接收文本、音频、图像、视频及任意组合的多模态输入。

实时交互层面,团队设计了创新的流式音视频处理机制,通过分块式音视频特征交织策略,模型能够将音频与视频特征按照时间片段同步输入LLM,实现低延迟的实时语音生成与视觉响应。

训练上,模型采用渐进式早期多模融合训练,先从纯文本预训练出发,依次引入音频和视觉数据,再逐步建立跨模态语义对齐与时序建模能力。

再通过多阶段退火(指先大胆探索,再小心收敛)与上下文扩展训练,将上下文窗口扩展至128K tokens,最终模型在多模态长时记忆、多轮对话、时序推理等能力上具备显著优势,并支持超8分钟的音视频交互



而且为了提升多模态训练效率,团队还提出了模态解耦并行(MDP)训练方案,可以对LLM及编码器的性能、内存占用进行独立优化,确保训练过程中系统长期稳定运行。

正是凭借这种全模态覆盖+端到端架构+大参数量高效推理,LongCat-Flash-Omni达成了平衡:既有覆盖文本、图像、视频、语音的全模态能力,又能在开源体系下达到与闭源模型相媲美的实时交互体验,初步解决了参数大但推理慢的行业痛点。

软硬件“两条腿走路”,美团原来下的是这样一盘棋

u1s1,今年以来美团的一系列动作确实给人一种“眼花缭乱”的印象——

7月,它接连领投了两家明星具身智能企业它石智航&星海图;然后从8月底开始,又密集发布LongCat-Flash-Chat、LongCat-Flash-Thinking、LongCat-Video等一系列模型。

而且推出的AI新品也不少,包括AI编程应用NoCode、AI生活助手小美智能体……

人们不禁要问了:美团这是要干啥?



带着同款好奇,量子位在仔细梳理后发现,原来美团这些看似“东一榔头西一棒槌”的动作,实则内有乾坤。

总结下来就是,美团正在靠着软硬件“两条腿走路”,以最终实现数字世界(比特)和物理世界(原子)的深度连接。

没错,又是“连接”这个因为太抽象宏观而容易被大家忽视的点。记得美团方面曾表示:

  • 我们是一家连接线下业务和线上世界的科技公司。
    在AI时代,我们将继续扮演这样的连接者角色,实现数字世界和物理世界之间的连接,这是我们的强项所在。

这一目标落到实处即为,软件这边要朝着“世界模型”不断迈进,硬件这边则要围绕“具身智能”加速落地

这背后的逻辑很清晰:作为一家从移动互联网起家的公司,美团比谁都清楚软件的威力。但越往产业深处走,它越意识到,要将软件的影响力延伸至物理世界,硬件是不可或缺的载体与瓶颈;而反过来,一个强大的“世界模型”,又能极大降低对硬件性能的苛刻要求,从而找到成本与效率的最优解。

有了这一判断基准,美团之前的所有动作就都能一一对号入座了。

比如说大模型,从最基础的对话机器人→深度思考模型→Video与Omni多模态模型,美团无疑是在为构建那个能深度理解现实并与其交互的“世界模型”打下根基。

而多年自研并频频出手投资具身智能,则是其“世界模型”能力在机器人、自动驾驶等关键场景中最核心的落地与兑现。

实际上,为了实现“世界模型+具身智能”的完美结合,美团如同一位老谋深算的棋手,其布局远比外界看到的更早、也更为体系化。

早在2017年,当无人化概念方兴未艾,美团方面就在一场行业峰会上提出了著名的“互联网下半场”概念——上天、入地、全球化

其中“上天”即指用高科技赋能全行业。美团那时候就强调:

  • 未来甚至会利用无人驾驶技术和机器人来配送。

由此可见,用科技重塑服务业的远见,早已深植于美团的战略构想之中。

通过盘点其历年投资的代表性项目,我们不难发现这样一条清晰的脉络:

2018~2020年,以加固美团本地生活护城河为目标,投资聚焦在消费领域。要么是美团本地生活业务延伸,如美菜网、普渡机器人;要么是消费品牌,如喜茶、蜜雪冰城。

2021年,当集团战略升级为“零售+科技”后,虽然消费项目仍是重点之一,但当中科技项目的占比开始提升。尤其在无人配送方面,一大批与机器人和自动驾驶相关的项目获得了美团青睐。

而从2022年开始,美团更是全面加码了科技投资。从自动驾驶,到半导体AI芯片、再到各类具身机器人,美团持续押注未来核心基础设施。



这些技术看似庞杂,但其内在逻辑高度统一——

美团投资的,早已不是某一种单一的机器人功能,而是“让整个物理世界都能被精确计算和高效调度”的整套技术路径

在这条路径中,AI是大脑,低空飞行与自动驾驶是腿脚,它们共同构成了一个超越具身智能的、更宏大的Robotics版图。

关于具身智能,在刚刚落幕的2025美团机器人研究院学术年会上,美团副总裁毛一年清晰指出:

  • 未来5到10年,具身智能正是这一切的核心技术范式。



他表示,美团的关键词是autonomy(无人化)——让技术驱动零售行业变革。过去数年,美团自研的无人机开始翻山跨海送汉堡、披萨,无人车完成了数以百万计的订单,风雨无阻,而机场、酒店、园区场景中,小黄蜂也在承担闪购配送任务。

(注:美团还是全国唯一获得民航局许可在中国全境合法飞行的无人机,而且在晚上也能飞。)

显而易见,在美团的战略拼图中,这些看似独立的智能终端,正逐渐串联成一张覆盖“低空—地面—社区”的立体化服务网络。 它们并非简单的设备叠加,而是美团将技术能力注入零售场景、实现系统效率跃迁的关键载体。

至此,美团在无数实践中沉淀出的核心方法论已不言自明——零售是场景,科技是赋能

当AI成为大脑,机器人成为双手双脚,具身智能与世界模型结合,连接起的就不仅是线上线下,更是比特与原子、虚拟与现实、算法与人类生活。

Anyway,虽然美团从未正面讲述过它的“科技”图景,但方向其实早已明明白白——

帮大家吃得更好,生活更好。

只不过这回,美团要“喂饱”的,不止是胃,还有未来。

LongCat Chat(APP需自行下载): https://longcat.ai
Hugging Face: https://huggingface.co/meituan-longcat/LongCat-Flash-Omni
GitHub: https://github.com/meituan-longcat/LongCat-Flash-Omni

特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相关推荐
热点推荐
小S家两女儿合体拍照!想走姨妈大S艺术道路,却被玥儿一张近照秒杀

小S家两女儿合体拍照!想走姨妈大S艺术道路,却被玥儿一张近照秒杀

八卦王者
2026-04-18 16:39:30
预售价近40万元的小鹏,把所有人都忽悠了!

预售价近40万元的小鹏,把所有人都忽悠了!

新浪财经
2026-04-19 02:52:50
医生呼吁:再高的血糖,没有这几种情况,不必过度紧张,安心吃喝

医生呼吁:再高的血糖,没有这几种情况,不必过度紧张,安心吃喝

宝哥精彩赛事
2026-04-19 22:12:51
赖清德暴露真面目、不敢面对郑丽文!转头发现:绿营大咖们变脸了

赖清德暴露真面目、不敢面对郑丽文!转头发现:绿营大咖们变脸了

野史日记
2026-04-19 09:10:18
为什么大家都说这个热巴是假的?细思极恐,真的热巴去哪里了?

为什么大家都说这个热巴是假的?细思极恐,真的热巴去哪里了?

娱乐小丸子
2026-03-30 09:53:37
肠道是否长息肉,会有4个提示,上厕所时要记的多看一眼!

肠道是否长息肉,会有4个提示,上厕所时要记的多看一眼!

芹姐说生活
2026-04-19 23:32:30
多名院士研究发现:吃一把花生,就等于吃了两勺黄油,真的假的?

多名院士研究发现:吃一把花生,就等于吃了两勺黄油,真的假的?

蜉蝣说
2026-04-20 10:18:20
超级大爆冷!状元秀空砍39分,可能要被黑八!

超级大爆冷!状元秀空砍39分,可能要被黑八!

德译洋洋
2026-04-20 10:38:11
广东一酒店女子拆快递误甩飞美工刀打到同事脖颈,酒店:没有划到脖子,不是故意的

广东一酒店女子拆快递误甩飞美工刀打到同事脖颈,酒店:没有划到脖子,不是故意的

潇湘晨报
2026-04-19 20:49:12
“最快女护士”张水华云南石屏马拉松退赛,本人回应:不舒服就没跑;其辞职后已拿下两个冠军,获折现超20万奖励

“最快女护士”张水华云南石屏马拉松退赛,本人回应:不舒服就没跑;其辞职后已拿下两个冠军,获折现超20万奖励

极目新闻
2026-04-19 12:01:08
谁也没料到!杜兰特伤情反转,乌度卡一招,火箭季后赛悬了

谁也没料到!杜兰特伤情反转,乌度卡一招,火箭季后赛悬了

林子说事
2026-04-19 16:57:01
伊朗断腿最高领袖发威?停火期内突下战书:向世界展示敌人软弱!

伊朗断腿最高领袖发威?停火期内突下战书:向世界展示敌人软弱!

清晨的世界
2026-04-20 09:38:52
魏建军提议私家车10年后再年检,用OBD和车联网替代实地检测

魏建军提议私家车10年后再年检,用OBD和车联网替代实地检测

快科技
2026-04-19 08:19:03
笑得肚疼!你们都开始显老到什么程度了?网友:我开始吃桃酥了!

笑得肚疼!你们都开始显老到什么程度了?网友:我开始吃桃酥了!

夜深爱杂谈
2026-04-18 19:25:24
徐明联手本拉登家族,400亿硬刚中石油,帝国崩塌

徐明联手本拉登家族,400亿硬刚中石油,帝国崩塌

圆梦的小老头
2026-04-17 23:52:41
震惊!月薪3000、26岁株洲女子征婚,要对方月入2.5万、存款200万

震惊!月薪3000、26岁株洲女子征婚,要对方月入2.5万、存款200万

火山詩话
2026-04-18 13:20:01
直接给岛内孩子们看!这应该是郑丽文从大陆带回最珍贵礼物!

直接给岛内孩子们看!这应该是郑丽文从大陆带回最珍贵礼物!

阿龙聊军事
2026-04-18 21:26:21
随着曼城2-1枪手,利物浦2-1,英超最新排名出炉!枪手70分领跑

随着曼城2-1枪手,利物浦2-1,英超最新排名出炉!枪手70分领跑

薇说体育
2026-04-20 10:52:44
半场7-2!丁俊晖双喜临门:世锦赛第23胜将到手,1成就历史第8!

半场7-2!丁俊晖双喜临门:世锦赛第23胜将到手,1成就历史第8!

刘姚尧的文字城堡
2026-04-20 08:01:41
恋爱脑的女人能有多离谱?看完评论区我愣住了,这些事真的存在吗

恋爱脑的女人能有多离谱?看完评论区我愣住了,这些事真的存在吗

夜深爱杂谈
2026-04-19 09:56:53
2026-04-20 11:27:00
量子位 incentive-icons
量子位
追踪人工智能动态
12497文章数 176456关注度
往期回顾 全部

科技要闻

蓝色起源一级火箭完美回收 客户卫星未入轨

头条要闻

失踪女老板被找到 嫌犯曾改名整容还催警察"还我清白"

头条要闻

失踪女老板被找到 嫌犯曾改名整容还催警察"还我清白"

体育要闻

七大奖项候选官宣!文班或全票DPOY

娱乐要闻

章子怡!增重20斤素颜拍新片

财经要闻

月之暗面IPO迷局

汽车要闻

外观非常惊艳 全新一代宝马6系有望回归

态度原创

时尚
家居
本地
公开课
军事航空

今年最流行的衣服竟然是它?高级又气质!

家居要闻

法式线条 时光静淌

本地新闻

12吨巧克力有难,全网化身超级侦探添乱

公开课

李玫瑾:为什么性格比能力更重要?

军事要闻

特朗普:美舰向伊朗货船开火炸出个洞

无障碍浏览 进入关怀版