网易首页 > 网易号 > 正文 申请入驻

汪滔的第一款大模型,让Meta终于重新上桌了

0
分享至



从汪滔(Alexandr Wang)加入Meta算起,已经过去大约十个月了,世界眼瞅着就要从一个夏天走到另一个夏天,Meta的“牛油果”终于熟了。

当地时间4月8日,Meta官宣发布Muse系列的第一款模型Spark。这也是Meta吸纳汪滔并建立“超级智能实验室(MSL)”之后端上来的第一盘菜。

汪滔在X上连发数条消息介绍新模型,表示:“九个月前,我们从零开始重建了人工智能技术栈,包括全新的基础设施、架构和数据管道。Muse Spark 正是这项工作的成果。”

就连之前传闻与汪滔不和的Meta前首席科学家杨立昆(Yann LeCun)都赶来恭喜,气氛一片祥和。



Meta官方强调,Spark的设计初衷是“小巧快速”,用这样一个模型打头阵,而不是“憋大招”直接发布碾压态势的模型,Meta也清楚时间不等人。

目前来看这一招奏效了,Meta的股价在当日一度上涨约9%。

01

新模型Muse Spark

首先,让我们来看看Meta发了个什么模型。

新模型名叫Muse Spark,其中Muse是模型系列的名称。这个名字也挺有意思的,Muse即“缪斯”,Spark是“火花”。

Meta表示,Muse Spark是Meta迄今为止功能最强大的模型。它目前为Meta AI应用和网站提供支持,并将于未来几周内陆续登陆WhatsApp、Instagram、Facebook、Messenger和AI眼镜。Meta还将通过API向部分合作伙伴提供该模型的私有预览版。

很明显,Meta想要充分发挥自己的平台优势,明确表示Muse Spark是专为Meta的产品而打造的。

它将为Meta AI提供更智能、更快速的支持,并随着时间的推移解锁新功能,这些功能可以引用用户在Instagram、Facebook和Threads上分享的推荐内容和信息。

“我们正朝着个人超级智能的目标迈进:打造一款能够随时随地帮助任何人处理他们最关心之事的智能助手。”

Muse Spark的设计初衷是小巧快速,却足以应对科学、数学和健康领域的复杂问题,其核心是一个原生多模态推理模型。

与以往将视觉和文本“拼接”在一起的版本不同,Muse Spark从底层架构开始重建,将视觉信息整合到其内部逻辑中。这种架构转变实现了“视觉思维链”,使模型能够标注动态环境——例如识别复杂咖啡机的组件,或通过并排视频分析纠正用户的瑜伽姿势。



然而,最重要的技术飞跃是新增的“思考”模式。

Meta声称,该功能协调多个子智能体并行推理,使Meta能够与谷歌的Gemini Deep Think和OpenAI的GPT-5.4 Pro等极端推理模型相媲美。



单模型测试结果来看。

Meta的新模型Muse Spark在综合智能指数上表现亮眼。它在Artificial Analysis Intelligence Index(一个涵盖多维度基准的综合智能评分)上拿到了52分,位列全球第4名。排在前面的分别是Gemini 3.1 Pro和GPT-5.4(均为约57分),以及Claude Opus 4.6(约53分)。

相比去年Llama 4 Maverick的仅18分,这已经是巨大的进步,显示Meta在前沿模型上明显追赶了回来。

具体强项和弱项:

. PhD级科学推理(GPQA Diamond):Muse Spark达到了89.5%的准确率,表现相当强劲,但仍略微落后于Gemini 3.1 Pro(94.3%)、GPT-5.4(92.8%)和Claude Opus 4.6(92.7%)。

. 图表与视觉理解(CharXiv Reasoning,在Contemplating模式下):得分86.4,在这项多模态视觉推理任务上明显优于竞品——超过了Gemini 3.1 Pro(80.2)、GPT-5.4(82.8)和Claude Opus 4.6(65.3)。视觉理解和图表推理是Muse Spark的突出优势之一。

. 医疗硬推理(HealthBench Hard):得分42.8%,大幅领先所有主要竞品,包括GPT-5.4(40.1%)、Gemini 3.1 Pro(20.6%)和Claude Opus 4.6(14.8%)。Meta表示,这得益于他们与超过1000名医生合作进行的针对性训练,医疗相关能力是它的亮点。

. 软件工程与编码(SWE-Bench Verified):得分77.4%,落后于Claude Opus 4.6(80.8%)和Gemini 3.1 Pro(80.6%)。Meta自己也坦承,在长时程多步自主任务(agentic tasks)和复杂编码工作流上还有差距,需要继续投入。

. 多模态多学科理解(MMMU Pro):得分约80.4–80.5%,仅次于Gemini 3.1 Pro(83.9%),在视觉多模态任务中排名第二。

总体来看,Muse Spark在视觉多模态推理、医疗领域和高效推理上表现突出,尤其适合Meta自己的社交、内容和健康生态;但在纯编码和长链条自主任务上仍有追赶空间。

02

推迟数次的“牛油果”

在X上,发生了一个有趣的小插曲。

作为Meta如今的AI掌舵手,汪滔(Alexandr Wang)在X上咣咣发布消息宣传新模型。

这个时候,有人指出,Meta给出的benchmark图表太混淆视听,“简直是犯罪”。在这张图表中,Muse Spark的分数排在第一列并且全部标成突出高亮色,乍一看,感觉是全面领先,但是细看便知其实有些分数是较低的。





在图表上玩花样,其实并不新鲜,OpenAI此前已经多次因此受到指责。

有意思的是,汪滔这次选择了立刻“滑跪”,回复该质疑:

“抱歉,我们并非有意暗示我们的得分最高。恰恰相反,大多数评估结果表明,我们的模型还有很多需要改进的地方。我们不会再犯同样的错误。”



不难看出,Meta也并非要让Muse Spark达到全面碾压之势,而是要回到AI的竞争行列当中。

从种种迹象来看,Muse系列应该就是Meta此前内部代号“牛油果(Avocado)”的项目。

牛油果已经跳票太久,Meta如今采取了“先小后大”的策略。Meta在官方博文中强调,Spark主打快速小巧,这只是个开始:

“我们的模型正在按预期发展。Muse Spark是我们发展历程中的一个早期数据点,我们正在开发更大规模的模型。”

这和AI行业(尤其是头部玩家)习惯于“炸场”“惊世骇俗”的节奏不同,但是Meta确实也没时间慢慢来了。

去年初,Meta发布Llama 4系列后,模型表现未达预期(尤其是Behemoth大模型性能提升不足),随后暂停了Llama系列的进一步开源研发。

到了去年夏天,Meta斥资143亿美元投资Scale AI(持股49%),并直接挖来Scale AI创始人兼CEO、28岁的汪滔(Alexandr Wang)担任首席AI官,正式成立Meta Superintelligence Labs(MSL)。

同时Meta展开疯狂挖角,从OpenAI、Google等公司高薪招募数十名顶尖研究员,部分offer达到数百万至上亿美元。

成本方面,Meta2025年全年AI相关资本支出达722.2亿美元;2026年1月财报指引显示,这一数字将大幅提升至1150亿—1350亿美元,几乎翻倍,主要用于MSL的模型训练和数据中心扩建。

过去这十个月的时间里,Meta以及扎克伯格、Meta的AI一把手汪滔身上,都压力山大。人们迫切地想看到汪滔加入、Meta重组之后,究竟会端上来一盘什么菜。

至少从市场的第一时间反馈来看,Meta放弃“憋大招”转而先上小菜的策略是奏效的,Meta股价当日一度大涨近9%,创下自今年1月以来最大单日涨幅。截至收盘,Meta收涨6.5%。

一个值得注意的信息是,过去外界一直认为“牛油果”将完全转向闭源,但Meta这次却没有把话说死。未来,Meta可能走开源与闭源并行的混合策略,将旗舰模型和独家技术保留在内部的同时保持新鲜模型对广泛开发者群体的开源可用性。

Meta总算把“牛油果”端上桌了,但这还远远不是终点。对汪滔和扎克伯格来说,Muse Spark更像是一声发令枪,未来如何,还要看“越来越强”的承诺能不能兑现。

特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相关推荐
热点推荐
中国石化:公司原油探明储量2074百万桶,天然气探明储量10029十亿立方英尺

中国石化:公司原油探明储量2074百万桶,天然气探明储量10029十亿立方英尺

每日经济新闻
2026-04-08 18:14:24
不愧是HBO!奥妹这一脱,太拼了

不愧是HBO!奥妹这一脱,太拼了

来看美剧
2026-04-08 22:04:30
理想汽车高管:张雪三缸机绕开所有海外专利壁垒 解决了国产大排摩托卡脖子问题

理想汽车高管:张雪三缸机绕开所有海外专利壁垒 解决了国产大排摩托卡脖子问题

快科技
2026-04-07 10:06:17
国务院国资委成立境外国资工作局

国务院国资委成立境外国资工作局

每日经济新闻
2026-04-08 17:02:03
伊朗警告以色列:立即停止袭击黎巴嫩 否则将遭“沉重回击”

伊朗警告以色列:立即停止袭击黎巴嫩 否则将遭“沉重回击”

极目新闻
2026-04-09 01:03:19
太恶劣了!再见NBA首轮秀!宁波队当场解除合同

太恶劣了!再见NBA首轮秀!宁波队当场解除合同

篮球实战宝典
2026-04-08 22:57:50
震惊!老师下班买杯奶茶,竟被家长深夜追责,一段聊天记录炸锅了

震惊!老师下班买杯奶茶,竟被家长深夜追责,一段聊天记录炸锅了

火山詩话
2026-04-08 07:24:29
河南男子在县城买下127平房子,4年后回来结婚,打开房门他愣住了

河南男子在县城买下127平房子,4年后回来结婚,打开房门他愣住了

民间精选故事汇
2025-02-01 11:20:02
美伊关键联络人曝光,去年指挥“铜墙铁壁”行动,抵御印度越境袭击有功晋升元帅,系巴基斯坦65年来首位

美伊关键联络人曝光,去年指挥“铜墙铁壁”行动,抵御印度越境袭击有功晋升元帅,系巴基斯坦65年来首位

鲁中晨报
2026-04-08 15:37:05
外媒:人麻了,特朗普神助攻,将中国人民币变成世界下一个安全港

外媒:人麻了,特朗普神助攻,将中国人民币变成世界下一个安全港

通鉴史智
2026-04-09 11:54:51
单打32强出炉!国乒6人出局,向鹏温瑞博石洵瑶领衔太原主场争冠

单打32强出炉!国乒6人出局,向鹏温瑞博石洵瑶领衔太原主场争冠

莼侃体育
2026-04-09 08:49:05
“解冻是真实的”!中方证实:5年多来首次访华

“解冻是真实的”!中方证实:5年多来首次访华

第一财经资讯
2026-04-09 14:49:20
伊朗这回开窍了!他们不炸军营,不炸核设施,专门炸这几个大工厂

伊朗这回开窍了!他们不炸军营,不炸核设施,专门炸这几个大工厂

鉴史录
2026-04-07 00:10:03
春天百病起,用三种东西泡水喝,“抵过百药~”

春天百病起,用三种东西泡水喝,“抵过百药~”

环京快爆
2026-04-07 09:11:22
彩票出现断崖式暴跌,“花2元中500万”没人信了?原因引人深思

彩票出现断崖式暴跌,“花2元中500万”没人信了?原因引人深思

平说财经
2026-02-12 16:27:02
美伊同意停火后,首批船只通过霍尔木兹海峡

美伊同意停火后,首批船只通过霍尔木兹海峡

界面新闻
2026-04-08 18:09:20
太离谱,张镇麟把广东队前外援打失业,杜锋真该学学了

太离谱,张镇麟把广东队前外援打失业,杜锋真该学学了

宗介说体育
2026-04-09 10:57:08
“病危要不要拔管”——向华强哽咽谈生死:大哥插管9个月花几百万,女儿舍不得拔

“病危要不要拔管”——向华强哽咽谈生死:大哥插管9个月花几百万,女儿舍不得拔

音乐时光的娱乐
2026-04-09 12:15:31
上半年北京小客车指标资格审核结果公布,无车家庭积分本月发布

上半年北京小客车指标资格审核结果公布,无车家庭积分本月发布

新京报
2026-04-09 14:20:06
性学家说男人恢复精力最快的方法,就是每天晚上睡前喝一杯小酒

性学家说男人恢复精力最快的方法,就是每天晚上睡前喝一杯小酒

周哥一影视
2026-04-07 08:26:53
2026-04-09 15:51:00
字母榜 incentive-icons
字母榜
让未来不止于大。
2361文章数 8057关注度
往期回顾 全部

科技要闻

Meta凌晨首发闭源大模型 扎克伯格又行了?

头条要闻

白宫发言人:特朗普直接把伊朗停战条款扔进了垃圾桶

头条要闻

白宫发言人:特朗普直接把伊朗停战条款扔进了垃圾桶

体育要闻

8万人面前心脏骤停 现在他还站在球场上

娱乐要闻

金莎官宣结婚 与老公孙丞潇相差18岁

财经要闻

谈判基础已被破坏!霍尔木兹海峡关闭

汽车要闻

合资3.0革命性重构,文飞与神行者背水一战

态度原创

本地
房产
手机
游戏
公开课

本地新闻

建水Color Walk | 古城慢调,掉进春天的调色盘里

房产要闻

利润暴跌44%!那个春节被骂惨了的海峡股份 正在经历什么?

手机要闻

摩托罗拉Edge 70 Pro手机曝光:6500mAh电池配90W快充

《真人快打1》销量突破800万份 官方感谢玩家反遭批评

公开课

李玫瑾:为什么性格比能力更重要?

无障碍浏览 进入关怀版