网易首页 > 网易号 > 正文 申请入驻

基于非英伟达卡训练,实测美团开源模型与DeepSeek、阿里 Qwen 3谁更强?

0
分享至

作者|子川

来源|AI先锋官

这个夏天最爽的事情,莫过于热热闹闹的外卖大战!

实在是太省钱啦!

当大家还在推测这场补贴大战还要持续多久之时,美团忽然把方向盘一打。

宣布:我要发布个开源大模型啦!


就在昨天,美团发布了其首款开源大模型LongCat-Flash,这是一款拥有5600亿个总参数的MoE(混合专家)模型。


为什么会推出这款来源大模型?

美团CEO王兴在不久前的年报电话会上,曾给出清晰的战略框架。

王兴将美团的AI战略阐述为三个层次:第一层是工作中的AI ,用以提升内部员工的生产力;第二层是产品中的AI ,用AI升级现有服务并推出全新的AI原生产品;最后是自研大语言模型 。

LongCat-Flash正是第三层战略的直接体现。

在这个战略蓝图下,美团核心本地商业CEO王莆中曾公开确认称,正打造的“ 专属生活小秘书 ”,就是那个最核心的AI原生产品。

而且,尤其值得关注的是,LongCat-Flash的训练,并非基于英伟达GPU完成。

在其官方报告中,美团使用了“数万个加速卡”的模糊表述。

由于一些原因,该硬件厂商的具体名字不方便透露。

意义重大。

产品方面,据介绍,LongCat-Flash采用 Shortcut-connected MoE 架构和 “零计算专家” 双重机制,使总参数 5600 亿的模型在推理时仅仅激活 18.6B–31.3B 参数。

能实现每秒 100 tokens 以上的单卡推理速度, 比DeepSeek-V3 还快 50%。

别看美团是外卖公司,但其开源的LongCat-Flash模型纸面实力一点都不弱。


它在Agent工具调用、指令遵循的表现超过国内数一数二的DeepSeek-V3.1、Qwen3 MoE-2507,甚至比闭源的Claude4 Sonnet还要好。

不过LongCat-Flash在通用领域、编程等场景的能力和、Kimi-K2、Qwen3 -2507还有一定差距。

价格上,LongCat-Flash属于物美价廉,据美团龙猫团队介绍,输出成本低至 5 元/百万 Token。

那效果到底如何,我们来测试一番,作为初来乍到的模型,当然得把之前模型踩过的坑都再踩一遍,看它能不能hold得住。

首先,是一道曾难倒无数模型的比大小问题——9.11和9.8谁大?


遗憾,开局不利,LongCat-Flash回答错误,比大小失败。

接下来,是另一个经典的坑——数字母。

我们让它数“Strawberry”这个词中有几个字母“r”,为了防止数据被提前训练,我们特意在原词基础上多加了一个“r”。


在加了一个字母“r”的情况下,LongCat-Flash依旧回答正确,扳回一局!

为了验证它是否是真的会数字母,换一个词”assessments“,让它数里面有几个字母“s"。


这次就没有回答正确,”assessments"有5个字母“s”,而它给出的回答是4次。

再来看看下一道题,一根8米的绳子,可以通过宽2米,长2米的门吗?


还是翻车,依旧回答错误,LongCat-Flash给出的回答是“一根8米的棍子无法直接通过宽2米,长2米的门”。

很遗憾,在这些曾用于刁难其他模型的经典测试题中,LongCat-Flash的表现并没有想象中的那么好

不过,这并不能代表该模型的全部实力,直接进入下一趴,和其他模型来场PK。

此次派出的选手分别是Deepseek R1和Qwen3 -2507,看看LongCat-Flash能否真的辣么厉害。

为了防止它们这三兄弟“开挂”,测试过程中不开搜索。

试题一:高三摸底试卷题


这道题是一道多选题,正确答案是:A、B、D,看看哪位选手能做对,为了测试的准确性,将题目转换成了LaTeX格式。

LongCat-Flash:


Deepseek R1:


Qwen3 -2507:


Qwen3 -2507和Deepseek R1都回答准确,出个了正确答案:ABD,反观LongCat-Flash回答错误,露了一个A。

测试题二:天气卡片

提示词:
Create a single HTML file containing CSS and JavaScript to generate an animated weather card. The card should visually represent the following weather conditions with distinct animations: Wind: (e.g., moving clouds, swaying trees, or wind lines) Rain: (e.g., falling raindrops, puddles forming) Sun: (e.g., shining rays, bright background) Snow: (e.g., falling snowflakes, snow accumulating) Show all the weather card side by side The card should have a dark background. Provide all the HTML, CSS, and JavaScript code within this single file. The JavaScript should include a way to switch between the different weather conditions

经典老题,测试模型的美感,看谁生成的更加好看。

LongCat-Flash:

Deepseek R1:

Qwen3 -2507:

从上面的视频不难看出,LongCat-Flash生成的效果真不赖,不过如果要说谁生成的效果更好看,那自然是Qwen3 -2507。

测试题三:3D山脉


提示词:创建一个 3D HTML 山脉场景,包含悬崖、河流和昼夜光照变化。支持拖动和缩放、动画过渡、真实感渐变色,并可切换等高线显示。

这道题主要是测试模型的编程能力,因为测试了很多模型,发现有很多模型面对这道题,生成的效果都不咋样,看看它们是否能交出一个满意的答卷。

LongCat-Flash:

Deepseek R1:

Qwen3 -2507:

这次测试不知道为什么,连续生成了3次,DeepSeek R1都没有生成完整的山脉,而LongCat-Flash和Qwen3 -2507则是生成出来了,但LongCat-Flash生成的效果更好。

测试题四:逻辑推理题


提示词:给
甲、乙、丙三人各发一个正整数,并告诉他们他们三人的数字之和为14。甲对乙和丙说:我知道你们两人的数字一定不相等。
乙想了想,对甲说:我们两人的数字之差一定比丙大。
丙听完甲和乙的话后,依旧沉默不语。
若甲乙丙三人都很聪明,且只要他们能推断出三人的数字分别是什么,那个人会在第一时间说出。(不考虑甲、乙见到丙沉默之后是否知晓)
那么,丙的数字是多少?

先说答案:4。

LongCat-Flash:


Deepseek R1:


Qwen3 -2507:


全部回答准确。

虽然此次测试没有基准测试那么全面,但也可以看出各个模型的优缺点。

目前美团的LongCat-Flash模型已经上线Hugging Face、GitHub等开源平台,技术报告同步发布。

同时,美团也提供了LongCat-Flash模型的网页版体验链接。

传送门:longcat.ai/

感兴趣的小伙伴可以去试一试。

扫码邀请进群,我们带你一起来玩转ChatGPT、GPT-4、文心一言、通义千问、讯飞星火等AI大模型,顺便学一些AI搞钱技能。

往期文章回顾

特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相关推荐
热点推荐
1956年,龙开富去北京看望毛主席,主席:怎么这么久都不来看我?

1956年,龙开富去北京看望毛主席,主席:怎么这么久都不来看我?

春秋砚
2025-11-13 12:30:02
全运会乒乓球:林诗栋第3局8-8后哑火!周子豪连得3分,追到1-2!

全运会乒乓球:林诗栋第3局8-8后哑火!周子豪连得3分,追到1-2!

刘姚尧的文字城堡
2025-11-13 11:57:49
生涯之夜!小谢挤掉伊森上位第六人,白魔战旧主坐实火箭正确选择

生涯之夜!小谢挤掉伊森上位第六人,白魔战旧主坐实火箭正确选择

徐纗老表哥
2025-11-13 13:16:37
这两个新闻放一起看,讽刺得让人无话可说

这两个新闻放一起看,讽刺得让人无话可说

清书先生
2025-11-12 15:55:46
两败俱伤!大陆市场700台光刻机全部回购?外媒:荷兰这次闹大了

两败俱伤!大陆市场700台光刻机全部回购?外媒:荷兰这次闹大了

花心电影
2025-11-12 14:24:18
15元中7397万后续:曝普通村民,中奖前还在买角磨机,有追加习惯

15元中7397万后续:曝普通村民,中奖前还在买角磨机,有追加习惯

花心电影
2025-11-12 18:11:27
广东男篮登上央视新闻!夺冠合影赵睿靠边,一位老人霸气站C位

广东男篮登上央视新闻!夺冠合影赵睿靠边,一位老人霸气站C位

甜柠聊史
2025-11-13 11:11:25
老伯被儿子送养老院,一气捐掉340万存款,儿子跑来:爸,出事了

老伯被儿子送养老院,一气捐掉340万存款,儿子跑来:爸,出事了

兰姐说故事
2025-11-10 20:15:02
三星杯1/4决赛最新赛况,杨鼎新执白战朴廷桓,中韩围棋风云再起

三星杯1/4决赛最新赛况,杨鼎新执白战朴廷桓,中韩围棋风云再起

林子说事
2025-11-13 12:01:31
“尊重沈伯洋成为‘台独烈士’的权利”

“尊重沈伯洋成为‘台独烈士’的权利”

环球时报新闻
2025-11-12 21:13:12
98年我爱上车间没人敢碰的寡妇,表白后她说可以试试,但有个条件

98年我爱上车间没人敢碰的寡妇,表白后她说可以试试,但有个条件

温情邮局
2025-05-12 15:49:39
那年,我受命去调查于幼军

那年,我受命去调查于幼军

霹雳炮
2025-11-02 19:38:51
尊界S800断层领先!国内70万以上超豪华轿车10月销量排行榜公布

尊界S800断层领先!国内70万以上超豪华轿车10月销量排行榜公布

热点科技
2025-11-11 18:05:16
哈马斯开始在加沙收取“帐篷税”,真是内战内行!

哈马斯开始在加沙收取“帐篷税”,真是内战内行!

环球热点快评
2025-11-13 10:28:37
三国正史中遗臭万年的6个名人,被三国演义洗白了,马超徐庶都在

三国正史中遗臭万年的6个名人,被三国演义洗白了,马超徐庶都在

掠影后有感
2025-11-13 11:30:44
浙经贸的三分钟战士大二弟弟火了

浙经贸的三分钟战士大二弟弟火了

杭城村叔
2025-09-11 12:54:47
文班亚马和卡斯尔成为马刺队史首对同场砍下三双的组合

文班亚马和卡斯尔成为马刺队史首对同场砍下三双的组合

北青网-北京青年报
2025-11-13 13:19:02
原来升级矛盾就是解决的终极手段!网友分享绝了,以牙还牙最管用

原来升级矛盾就是解决的终极手段!网友分享绝了,以牙还牙最管用

夜深爱杂谈
2025-11-05 07:56:38
美媒公开中国轰炸计划:日本敢走错半步,我们万枚导弹雨包大饺子

美媒公开中国轰炸计划:日本敢走错半步,我们万枚导弹雨包大饺子

混沌录
2025-11-12 21:27:11
你老公就在我旁边!

你老公就在我旁边!

果粉之家
2025-11-06 12:00:56
2025-11-13 14:16:49
AI先锋官 incentive-icons
AI先锋官
AIGC大模型及应用精选与评测
379文章数 23关注度
往期回顾 全部

科技要闻

深夜重磅!GPT-5.1发布,奥特曼大谈情商

头条要闻

银行取4万被盘问律师:我等了半小时反诈中心无人出警

头条要闻

银行取4万被盘问律师:我等了半小时反诈中心无人出警

体育要闻

保罗,看看你对马刺干的好事!

娱乐要闻

一场演唱会,戳穿岳云鹏圈中地位

财经要闻

源峰25亿赌局!汉堡王中国"卖身"求生

汽车要闻

具备高阶辅助驾驶功能 欧拉5预售价10.98万起

态度原创

健康
教育
家居
公开课
军事航空

血液科专家揭秘白血病七大误区

教育要闻

划重点!中小学科技教育将有这些新变化

家居要闻

情感之所 生活教会设计

公开课

李玫瑾:为什么性格比能力更重要?

军事要闻

美媒爆出猛料 "北溪"破坏行动由扎卢日内指挥

无障碍浏览 进入关怀版