网易首页 > 网易号 > 正文 申请入驻

Meta憋了9个月放大招,Muse Spark没拿第一却让对手睡不着

0
分享至

去年4月,Llama 4的发布成了AI圈年度翻车现场。基准测试数字是真的,但跑分的模型你根本下载不到——Meta自己的AI首席科学家离职前实锤了这事。开发者社区炸了,公司装死。

然后,整整9个月,一声不吭。

从零开始:一场被迫的推倒重来

这9个月Meta干了什么?不是修修补补,是全部推倒。据内部人士透露,团队砍掉了为刷榜而存在的专用子模型架构,重新设计了训练流程。一位参与项目的产品经理形容:"就像发现地基是空心砖之后,决定连地基带楼一起拆了。"

5月15日,Muse Spark突然发布。没有预告,没有倒计时,没有"即将改变世界的"公关话术。模型卡(Model Card)直接扔在官网上,附了一行小字:「本次测试使用公开可下载版本,未启用任何未公开子模块。」

这话是说给谁听的,大家都懂。

分数之外:一个产品经理的赌局

Muse Spark的纸面成绩很有意思。它在MMLU-Pro、GPQA Diamond等学术基准上确实没干过Claude 4和Gemini 2.5 Pro,差距大概在3-5个百分点。但Meta这次换了个玩法——他们同时公布了一套「生产环境压力测试」结果。

这套测试模拟的是真实场景:长文档摘要时突然插入新指令、多轮对话中的上下文遗忘率、高并发下的响应稳定性。在这些指标上,Muse Spark的反超幅度达到了12-18%。

换句话说,Meta不再跟你比考试分数,而是比谁能扛住真实用户的折腾。

这个转向很产品经理思维。刷榜模型就像为跑分特调的概念车,真上路就散架;Muse Spark想证明自己是量产车,能过减速带,能装五个人,空调不会坏。

开源社区的微妙反应

Hugging Face上的下载曲线说明了一些问题。发布后72小时内,Muse Spark的权重下载量超过了Llama 4同期数据的2.3倍。更关键的是微调模型的爆发——社区在48小时内上架了17个垂直领域适配版本,从法律合同审查到半导体工艺优化。

一位在GitHub上维护Llama生态的开发者留言:「上次Llama 4发布时我在写bug report,这次我在写集成文档。感受完全不同。」

但质疑声也没停。有人翻出Muse Spark在代码生成任务上的HumanEval得分,确实比竞品低4个百分点。「没拿第一就是没拿第一,换种说法包装而已。」

Meta的选择是沉默。没有高管出来反驳,没有追加声明。

9个月沉默的代价与收益

这9个月对Meta来说很贵。据The Information报道,重组期间至少有3名资深研究员离职加入对手公司,Llama品牌的市场信任度一度跌到谷底。但换来的东西也很具体:一套可复现的训练流程,一份经得起显微镜审视的模型卡,以及——用内部人士的话说——「我们终于能睡踏实了」。

首席AI科学家Yann LeCun在Threads上发了张图:Muse Spark架构图的某个角落,藏着一行工程师注释「# no benchmark tricks this time」。收获了1.2万赞和一堆「lol」。

这种自嘲式的坦诚,在Meta历史上并不常见。

Muse Spark是不是最好的模型?按传统评分标准,不是。但它可能是第一个让竞争对手真正紧张的开源模型——不是因为分数,而是因为Meta证明了它愿意为了长期可信度,放弃短期刷榜的快感。

下一个问题是:当OpenAI和Anthropic的下一代闭源模型发布时,这套「生产环境优先」的叙事还能不能站得住脚?

特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相关推荐
热点推荐
跌落神坛!40岁诺伊尔全场0扑救 让大巴黎5次射正进5球 仅获5.2分

跌落神坛!40岁诺伊尔全场0扑救 让大巴黎5次射正进5球 仅获5.2分

我爱英超
2026-04-29 05:22:10
魔术黑八活塞,一步之遥?!

魔术黑八活塞,一步之遥?!

张佳玮写字的地方
2026-04-28 11:28:09
难以置信!太原一女司机将轿车开上超高台阶从容淡定,一夜爆红了

难以置信!太原一女司机将轿车开上超高台阶从容淡定,一夜爆红了

火山詩话
2026-04-28 08:45:45
平台回应“孕妇自称花200元买水果遭丈夫咒骂后引产”:系剧情演绎,已处置禁言

平台回应“孕妇自称花200元买水果遭丈夫咒骂后引产”:系剧情演绎,已处置禁言

齐鲁壹点
2026-04-28 17:19:17
畸形母爱毁星二代:母乳12年同床15年荒唐事

畸形母爱毁星二代:母乳12年同床15年荒唐事

看尽落尘花q
2026-04-25 14:10:18
争议!墨菲失误后,女球迷对赵心童喊汉语“XX他”,裁判:谢谢你

争议!墨菲失误后,女球迷对赵心童喊汉语“XX他”,裁判:谢谢你

风过乡
2026-04-28 21:37:56
陈思诚找小21岁阮巨不是瞎了眼:他比谁都精,要的是情绪稳定

陈思诚找小21岁阮巨不是瞎了眼:他比谁都精,要的是情绪稳定

小猫娱乐叭叭
2026-04-27 20:42:52
新娘确实漂亮,但我更喜欢戴眼镜那个。

新娘确实漂亮,但我更喜欢戴眼镜那个。

动物奇奇怪怪
2026-04-12 12:44:36
女生主动起来有多黏人?网友:这些女的太开放了

女生主动起来有多黏人?网友:这些女的太开放了

带你感受人间冷暖
2026-01-27 00:20:06
曾经对程序员最好的公司,倒下了

曾经对程序员最好的公司,倒下了

纯洁的微笑
2026-04-28 12:18:28
世锦赛28日战报,赵心童遭五连鞭勉力追平,吴宜泽4-2浪打失先机

世锦赛28日战报,赵心童遭五连鞭勉力追平,吴宜泽4-2浪打失先机

天涯远行人
2026-04-29 08:11:07
西班牙第一季度失业率为10.83%

西班牙第一季度失业率为10.83%

每日经济新闻
2026-04-28 15:10:08
Manus肖弘比张一鸣错了哪里

Manus肖弘比张一鸣错了哪里

酷公司
2026-04-28 18:24:24
湖北广电董事和高管人员薪酬公布

湖北广电董事和高管人员薪酬公布

越乔
2026-04-28 23:09:02
有没有人敢爆自己的瓜?网友:确定玩这么大吗?

有没有人敢爆自己的瓜?网友:确定玩这么大吗?

夜深爱杂谈
2026-02-18 20:55:58
阿Sa官宣结婚24小时内男方身份揭秘,内幕惊人

阿Sa官宣结婚24小时内男方身份揭秘,内幕惊人

调侃国际观点
2026-04-29 01:14:08
西方害怕中国治沙?《自然》新评揭开真相:他们怕的并非沙漠消失

西方害怕中国治沙?《自然》新评揭开真相:他们怕的并非沙漠消失

生活的哲学
2026-04-29 06:41:35
迟来的爱:俄罗斯“现代级”驱逐舰的完美型号被中国海军实现了

迟来的爱:俄罗斯“现代级”驱逐舰的完美型号被中国海军实现了

风信子的花
2026-04-29 04:26:49
赖清德向大陆喊话,林佳龙返台:机场大言不惭!解放军打独大动作

赖清德向大陆喊话,林佳龙返台:机场大言不惭!解放军打独大动作

共工之锚
2026-04-28 15:40:37
反摆烂新规!越烂越亏!肖华下手太狠了!!

反摆烂新规!越烂越亏!肖华下手太狠了!!

柚子说球
2026-04-29 08:43:05
2026-04-29 09:51:00
薛定谔的BUG
薛定谔的BUG
有态度网友ytd
1850文章数 38关注度
往期回顾 全部

科技要闻

夭折的造富神话,逼着中国AI回去赚"慢钱"

头条要闻

牛弹琴:白宫官宣两个国王 全世界看得目瞪口呆

头条要闻

牛弹琴:白宫官宣两个国王 全世界看得目瞪口呆

体育要闻

魔术黑八活塞,一步之遥?!

娱乐要闻

蔡卓妍官宣结婚,老公比她小10岁

财经要闻

多地药店违规串换商品套刷医保揭秘

汽车要闻

拒绝疯狂套娃!现代艾尼氪金星长在未来审美点上

态度原创

本地
游戏
艺术
教育
军事航空

本地新闻

用青花瓷的方式,打开西溪湿地

《远日点》登陆Steam正式推出 太空科幻叙事冒险

艺术要闻

赵朴初:比风水厉害100倍的宇宙定律

教育要闻

“你爸真可怜,心已经死了!”10后女孩晒职高报到,父亲全程沉默

军事要闻

德国总理默茨:美国正遭受伊朗领导层的羞辱

无障碍浏览 进入关怀版