网易首页 > 网易号 > 正文 申请入驻

Meta新模型Muse Spark上线,能力仍落后于第一梯队

0
分享至

21世纪经济报道记者 彭新

当地时间4月8日,Meta Platforms(纳斯达克:META)旗下超级智能实验室(Meta Superintelligence Labs,下称MSL)发布多模态推理模型Muse Spark系列,并同步上线该系列第一款模型。

Meta将Muse Spark称为公司“有史以来最强大的模型”。该模型支持工具使用、视觉思维链以及多智能体编排,主打多模态感知与推理能力。Meta首席人工智能官、MSL负责人汪滔(Alexandr Wang)介绍,过去九个月,MSL团队“从一片空地”上重建了整条AI系统框架和算力基础设施,推翻了过往的诸多做法。

这是MSL自2025年6月成立以来发布的首个正式产品,也是Meta在人工智能战略大幅调整后向外界交出的第一份答卷。消息公布当日,Meta股价收涨6.50%,报612.42美元/股。

与Meta此前发布的Llama系列模型不同,Muse Spark为闭源模型。目前用户可通过网站及Meta AI应用程序使用该模型,但API(应用程序接口)尚未全面开放,仅向少数客户提供预览版。至于Muse Spark未来是否开源,汪滔仅表示其后续版本“计划开源”,但并未给出时间表。

在效率方面,Meta表示,通过改进模型架构、优化算法及数据清洗,Muse Spark的算力效率大幅提升——与上一代旗舰模型Llama 4 Maverick相比,Muse Spark达到相同能力所需算力不足后者十分之一。

从Meta公布的内部基准测试结果来看,Muse Spark在多模态理解、健康问答和智能体任务方面的表现具有竞争力,但尚未实现全面超越竞争对手的头部模型。例如,在多模态基准测试CharXiv Reasoning中,Muse Spark思考模式得分为86.4,超过GPT-5.4的82.8和Gemini 3.1 Pro High的80.2,但在其他多个多模态基准测试中,其得分低于Gemini 3.1 Pro High。

在智能体能力方面,Muse Spark思考模式在DeepSearchQA测试中得分74.8,超过Gemini 3.1的69.7和GPT-5.4的73.6,GDPval-AA Elo测试得分亦高于Gemini 3.1和Grok 4.2。在编程能力关键指标SWE-Bench Verified等多项基准测试中,Muse Spark的得分接近或低于Claude Opus 4.6、Gemini 3.1和GPT-5.4。

Muse Spark还提供“沉思模式(Contemplating mode)”,该模式通过编排多个智能体进行并行推理。沉思模式的Muse Spark在“人类终极考试(Humanity’s Last Exam)”中取得了58.4%的成绩,略逊于GPT 5.4 Pro的58.7%,在“前沿科学研究(Frontier Science Research)”中取得了38.3%的成绩,高于GPT 5.4 Pro的36.7%。

在第三方平台Artificial Analysis的综合智能能力排名上,Muse Spark目前列第四,前三名依次为谷歌Gemini 3.1 Pro、OpenAI GPT-5.4和Claude Opus 4.6。

独立评测机构Vals AI在Muse Spark公开发布前对其进行了测试。该机构首席执行官雷恩·克里希南(Rayan Krishnan)认为,Meta从Llama 4到Muse Spark实现了模型能力的显著提升,Meta已成为一家具备竞争力的AI实验室,若能维持当前进步速度,有望在较短时间内推出业内领先的模型。但他同时指出,编程能力仍是Muse Spark的明显短板,预计这将是Meta后续重点攻关的方向。

Muse Spark也是Meta过去一年AI战略剧烈转型的成果。

2023年至2024年间,Meta凭借Llama 1、2、3系列开源模型在AI社区赢得广泛认可。这些模型性能接近OpenAI同期的旗舰模型,一度成为学术领域和开发者社区的重要基础设施。

但转折发生于2025年4月,Meta发布开源多模态模型Llama 4后遭到外界质疑,多名测试者指出模型针对特定排行榜进行优化“刷榜”,实际性能甚至不及马斯克旗下xAI发布的上一代模型。Meta后来承认了针对基准测试的特定优化行为。

与此同时,Meta首席AI科学家杨立昆(Yann LeCun)长期质疑主流大语言模型(LLM)路线,认为其无法通向通用人工智能,杨立昆主张基于视频训练的世界模型(World Model),要让模型与人类一样、通过物理直觉的方式来理解世界,这一立场被部分人士认为其令Meta在大模型竞争中贻误时机。

多重压力之下,Meta启动了大规模AI团队重组。2025年6月,Meta宣布以约143亿美元获得数据标注初创公司Scale AI 49%股份,并将时任Scale AI创始人兼首席执行官汪滔招入麾下。随后,扎克伯格发布内部信,将基础研究、产品团队及FAIR整合成为新的MSL。扎克伯格给新实验室定下的目标是:下一代AI大模型在2026年前后达到行业先进水平,未来要做服务个人的超级智能体(Agent),由汪滔与GitHub前CEO Nat Friedman领导。

Meta首席执行官扎克伯格还亲自出马招揽AI人才,据报道曾在其位于加州帕洛阿尔托和太浩湖的私宅中接待研究人员,并开出高达1亿美元的薪资待遇。最终,MSL组建了一支由50余名研究人员、工程师及其他AI从业者构成的核心团队。

然而,人员大规模涌入也带来了摩擦。2025年10月,Meta被曝计划裁减其人工智能团队约600个职位,多名Meta早期AI员工在此期间离职,部分系主动跳槽,另有部分人员在2025年10月公司重组中遭裁员。去年底,杨立昆宣布离职,这一人事变动被外界普遍视为Meta彻底拥抱主流LLM路线的标志性信号。

对于新模型,扎克伯格曾在1月份的财报电话会议表示,预计首批模型会表现不错,但更重要的是,新模型将展示Meta所处的快速发展轨道,随着新模型的不断发布,预计Meta将在年内稳步推进技术前沿。

Meta长远目标是构建其所谓的“超级智能”(superintelligence),这是一种超越人类的智能技术,能为Meta超10亿用户提供处理各类任务的个人智能体。

而在资本市场方面,Meta在AI基础设施领域的投入规模在美国科技公司中属于最为激进之列。该公司此前预告,2026年资本开支可能相比上年翻一倍,预计在1150亿美元至1350亿美元之间。

目前来看,Meta虽已凭借Muse Spark重新进入第一梯队的竞争视野,但距离全面领先仍有明显差距,大模型赛道的竞争在2026年正愈发激烈。

4月7日,Anthropic披露最新大模型Claude Mythos Preview,号称能在没有任何人类干预的情况下,自主发现并利用各大主流操作系统和Web浏览器中的复杂漏洞。据Anthropic发布的技术博客,在体现真实漏洞利用能力的测试中,Claude Mythos Preview准确率大幅提升。Anthropic还表示,新模型有望重塑网络安全领域。

此外,市场传言显示,OpenAI的GPT-6可能在4月推出。与此同时,DeepSeek于4月8日低调更新了对话界面,新增“快速模式”与“专家模式”选项,被部分观察人士解读为DeepSeekV4版本上线的前奏。

特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相关推荐
热点推荐
欧美高管访华后集体失眠:中国凭什么让百年巨头慌了?

欧美高管访华后集体失眠:中国凭什么让百年巨头慌了?

奇思妙想生活家
2026-04-07 03:12:08
金卡戴珊复工穿2.8万裤袜 网友:对不起只看了硬实力

金卡戴珊复工穿2.8万裤袜 网友:对不起只看了硬实力

3DM游戏
2026-04-09 18:13:31
张伦硕吐槽钟丽缇买50万水晶裙,得知是老婆自己钱后依旧不依不饶

张伦硕吐槽钟丽缇买50万水晶裙,得知是老婆自己钱后依旧不依不饶

观鱼听雨
2026-04-08 19:35:53
大批巴基斯坦战机挺进伊朗!防止以军偷袭!使用大批中方制造装备

大批巴基斯坦战机挺进伊朗!防止以军偷袭!使用大批中方制造装备

全球热点大揭秘
2026-04-11 02:31:18
大股东都在套现离场,你还在等牛市?

大股东都在套现离场,你还在等牛市?

金牛远望号
2026-04-10 19:56:16
广东队迎来1个好消息!焦泊乔结束了请假,回到了东莞

广东队迎来1个好消息!焦泊乔结束了请假,回到了东莞

体育哲人
2026-04-10 21:15:34
3月MPV销量TOP10:前三竞争白热化,赛那险夺第一

3月MPV销量TOP10:前三竞争白热化,赛那险夺第一

AGUI艺车
2026-04-10 21:04:06
皇马翻盘拜仁的最后底牌是他?22岁边卫回归,防奥利塞就靠他了

皇马翻盘拜仁的最后底牌是他?22岁边卫回归,防奥利塞就靠他了

里芃芃体育
2026-04-10 06:00:12
中国股市唯一赚钱最快的方法:持有一只股,保留50%仓位,长期做T

中国股市唯一赚钱最快的方法:持有一只股,保留50%仓位,长期做T

股经纵横谈
2026-04-09 18:01:46
五国决定出兵,大批我国产新型坦克大炮将参战:上千美军准备突围

五国决定出兵,大批我国产新型坦克大炮将参战:上千美军准备突围

幸运史册
2026-04-10 23:28:38
稳定币牌照公布,牛市旗手闻声大涨,券商股还有哪些利好?

稳定币牌照公布,牛市旗手闻声大涨,券商股还有哪些利好?

财联社
2026-04-10 18:24:07
广东一家制衣厂仅有一位男员工,百余名女同事围着轮流投喂呵护

广东一家制衣厂仅有一位男员工,百余名女同事围着轮流投喂呵护

捣蛋窝
2026-04-07 13:22:20
阿里巴巴集团CEO发全员信,宣布重大人事变动

阿里巴巴集团CEO发全员信,宣布重大人事变动

ZAKER新闻
2026-04-08 18:29:22
刘震云:一个妈妈最大的悲哀,就是轻易向别人透露子女这3件隐私,真的很傻!

刘震云:一个妈妈最大的悲哀,就是轻易向别人透露子女这3件隐私,真的很傻!

新浪财经
2026-04-10 12:43:57
D杯以上用户被运动内衣折磨10年,终于有人摊牌了

D杯以上用户被运动内衣折磨10年,终于有人摊牌了

影视情报室
2026-04-10 08:32:56
遭民进党影射是“民众党宣传样板”,“学姐”黄瀞莹轰:绿权压迫

遭民进党影射是“民众党宣传样板”,“学姐”黄瀞莹轰:绿权压迫

海峡导报社
2026-04-10 17:32:05
妮塔・安巴尼身着高定纱丽,钻石珠宝尽显豪门贵气

妮塔・安巴尼身着高定纱丽,钻石珠宝尽显豪门贵气

述家娱记
2026-03-25 15:19:57
失业后在小县城的两年发现,打麻将和性生活才是普通人底色!

失业后在小县城的两年发现,打麻将和性生活才是普通人底色!

黯泉
2026-04-01 17:44:20
脑梗最怕的三种维生素,不妨了解!

脑梗最怕的三种维生素,不妨了解!

药师方健
2026-04-10 22:05:32
西部第3至5的排名 还有很大变动可能性 火箭首轮打掘金的概率不小

西部第3至5的排名 还有很大变动可能性 火箭首轮打掘金的概率不小

大话火箭队
2026-04-10 14:45:04
2026-04-11 04:47:00
21世纪经济报道 incentive-icons
21世纪经济报道
中国商业新闻领导者
242396文章数 744033关注度
往期回顾 全部

科技要闻

马斯克狂发大火箭也养不起AI 年亏50亿美元

头条要闻

特朗普:美军舰已装最先进武器 未来24小时成关键窗口

头条要闻

特朗普:美军舰已装最先进武器 未来24小时成关键窗口

体育要闻

17岁赚了一百万美元,25岁被CBA裁员

娱乐要闻

黄景瑜王玉雯否认恋情!聚会细节被扒

财经要闻

李强主持召开经济形势专家和企业家座谈会

汽车要闻

搭载第二代刀片电池及闪充技术 腾势N8L闪充版预售35万起

态度原创

艺术
手机
健康
教育
公开课

艺术要闻

深圳顶级海景地段,为啥留下一排“幽灵别墅群”?真相成谜!

手机要闻

三星Galaxy Z Flip 8小折叠手机渲染图曝光,预计7月发布

干细胞抗衰4大误区,90%的人都中招

教育要闻

2026年最具“性价比”的4个专业,本科就业率高,考研容易上岸!

公开课

李玫瑾:为什么性格比能力更重要?

无障碍浏览 进入关怀版