网易首页 > 网易号 > 正文 申请入驻

Meta新模型Muse Spark上线 能力仍落后于第一梯队

0
分享至

来源:市场资讯

(来源:21世纪经济报道)

当地时间4月8日,Meta Platforms(纳斯达克:META)旗下超级智能实验室(Meta Superintelligence Labs,下称MSL)发布多模态推理模型Muse Spark系列,并同步上线该系列第一款模型。

Meta将Muse Spark称为公司“有史以来最强大的模型”。该模型支持工具使用、视觉思维链以及多智能体编排,主打多模态感知与推理能力。Meta首席人工智能官、MSL负责人汪滔(Alexandr Wang)介绍,过去九个月,MSL团队“从一片空地”上重建了整条AI系统框架和算力基础设施,推翻了过往的诸多做法。

这是MSL自2025年6月成立以来发布的首个正式产品,也是Meta在人工智能战略大幅调整后向外界交出的第一份答卷。消息公布当日,Meta股价收涨6.50%,报612.42美元/股。

从开源转向“闭源”,模型能力尚未全面领先

与Meta此前发布的Llama系列模型不同,Muse Spark为闭源模型。目前用户可通过网站及Meta AI应用程序使用该模型,但API(应用程序接口)尚未全面开放,仅向少数客户提供预览版。至于Muse Spark未来是否开源,汪滔仅表示其后续版本“计划开源”,但并未给出时间表。

在效率方面,Meta表示,通过改进模型架构、优化算法及数据清洗,Muse Spark的算力效率大幅提升——与上一代旗舰模型Llama 4 Maverick相比,Muse Spark达到相同能力所需算力不足后者十分之一。

从Meta公布的内部基准测试结果来看,Muse Spark在多模态理解、健康问答和智能体任务方面的表现具有竞争力,但尚未实现全面超越竞争对手的头部模型。例如,在多模态基准测试CharXiv Reasoning中,Muse Spark思考模式得分为86.4,超过GPT-5.4的82.8和Gemini 3.1 Pro High的80.2,但在其他多个多模态基准测试中,其得分低于Gemini 3.1 Pro High。

在智能体能力方面,Muse Spark思考模式在DeepSearchQA测试中得分74.8,超过Gemini 3.1的69.7和GPT-5.4的73.6,GDPval-AA Elo测试得分亦高于Gemini 3.1和Grok 4.2。在编程能力关键指标SWE-Bench Verified等多项基准测试中,Muse Spark的得分接近或低于Claude Opus 4.6、Gemini 3.1和GPT-5.4。

Muse Spark还提供“沉思模式(Contemplating mode)”,该模式通过编排多个智能体进行并行推理。沉思模式的Muse Spark在“人类终极考试(Humanity’s Last Exam)”中取得了58.4%的成绩,略逊于GPT 5.4 Pro的58.7%,在“前沿科学研究(Frontier Science Research)”中取得了38.3%的成绩,高于GPT 5.4 Pro的36.7%。

在第三方平台Artificial Analysis的综合智能能力排名上,Muse Spark目前列第四,前三名依次为谷歌Gemini 3.1 Pro、OpenAI GPT-5.4和Claude Opus 4.6。

独立评测机构Vals AI在Muse Spark公开发布前对其进行了测试。该机构首席执行官雷恩·克里希南(Rayan Krishnan)认为,Meta从Llama 4到Muse Spark实现了模型能力的显著提升,Meta已成为一家具备竞争力的AI实验室,若能维持当前进步速度,有望在较短时间内推出业内领先的模型。但他同时指出,编程能力仍是Muse Spark的明显短板,预计这将是Meta后续重点攻关的方向。

验证Meta AI战略转型成果

Muse Spark也是Meta过去一年AI战略剧烈转型的成果。

2023年至2024年间,Meta凭借Llama 1、2、3系列开源模型在AI社区赢得广泛认可。这些模型性能接近OpenAI同期的旗舰模型,一度成为学术领域和开发者社区的重要基础设施。

但转折发生于2025年4月,Meta发布开源多模态模型Llama 4后遭到外界质疑,多名测试者指出模型针对特定排行榜进行优化“刷榜”,实际性能甚至不及马斯克旗下xAI发布的上一代模型。Meta后来承认了针对基准测试的特定优化行为。

与此同时,Meta首席AI科学家杨立昆(Yann LeCun)长期质疑主流大语言模型(LLM)路线,认为其无法通向通用人工智能,杨立昆主张基于视频训练的世界模型(World Model),要让模型与人类一样,通过物理直觉的方式来理解世界,这一立场被部分人士认为其令Meta在大模型竞争中贻误时机。

多重压力之下,Meta启动了大规模AI团队重组。2025年6月,Meta宣布以约143亿美元获得数据标注初创公司Scale AI 49%股份,并将时任Scale AI创始人兼首席执行官汪滔招入麾下。随后,扎克伯格发布内部信,将基础研究、产品团队及FAIR整合成为新的MSL。扎克伯格给新实验室定下的目标是:下一代AI大模型在2026年前后达到行业先进水平,未来要做服务个人的超级智能体(Agent),由汪滔与GitHub前CEO Nat Friedman领导。

Meta首席执行官扎克伯格还亲自出马招揽AI人才,据报道曾在其位于加州帕洛阿尔托和太浩湖的私宅中接待研究人员,并开出高达1亿美元的薪资待遇。最终,MSL组建了一支由50余名研究人员、工程师及其他AI从业者构成的核心团队。

然而,人员大规模涌入也带来了摩擦。2025年10月,Meta被曝计划裁减其人工智能团队约600个职位,多名Meta早期AI员工在此期间离职,部分系主动跳槽,另有部分人员在2025年10月公司重组中遭裁员。去年底,杨立昆宣布离职,这一人事变动被外界普遍视为Meta彻底拥抱主流LLM路线的标志性信号。

对于新模型,扎克伯格曾在1月份的财报电话会议上表示,预计首批模型会表现不错,但更重要的是,新模型将展示Meta所处的快速发展轨道,随着新模型的不断发布,预计Meta将在年内稳步推进技术前沿。

仍面临巨大竞争压力

Meta长远目标是构建其所谓的“超级智能”(superintelligence),这是一种超越人类的智能技术,能为Meta超10亿用户提供处理各类任务的个人智能体。

而在资本市场方面,Meta在AI基础设施领域的投入规模在美国科技公司中属于最为激进之列。该公司此前预告,2026年资本开支可能相比上年翻一倍,预计在1150亿美元至1350亿美元之间。

目前来看,Meta虽已凭借Muse Spark重新进入第一梯队的竞争视野,但距离全面领先仍有明显差距,大模型赛道的竞争在2026年正愈发激烈。

4月7日,Anthropic披露最新大模型Claude Mythos Preview,号称能在没有任何人类干预的情况下,自主发现并利用各大主流操作系统和Web浏览器中的复杂漏洞。据Anthropic发布的技术博客,在体现真实漏洞利用能力的测试中,Claude Mythos Preview准确率大幅提升。Anthropic还表示,新模型有望重塑网络安全领域。

此外,市场传言显示,OpenAI的GPT-6可能在4月推出。与此同时,DeepSeek于4月8日低调更新了对话界面,新增“快速模式”与“专家模式”选项,被部分观察人士解读为DeepSeekV4版本上线的前奏。

特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相关推荐
热点推荐
便携式气象站的定义和组成

便携式气象站的定义和组成

测控技术有限公司
2026-03-10 15:38:36
情侣在餐厅秀恩爱,女友手部动作不雅被偷拍,目击者:都看习惯了

情侣在餐厅秀恩爱,女友手部动作不雅被偷拍,目击者:都看习惯了

李晚书
2026-04-10 17:13:10
3月份英国销量前十车型榜单,中国车历史性夺冠

3月份英国销量前十车型榜单,中国车历史性夺冠

财经老庄
2026-04-10 07:20:23
权威数读丨3月份:CPI同比继续温和上涨

权威数读丨3月份:CPI同比继续温和上涨

新华社
2026-04-10 15:15:36
D杯以上用户被运动内衣折磨10年,终于有人摊牌了

D杯以上用户被运动内衣折磨10年,终于有人摊牌了

影视情报室
2026-04-10 08:32:56
国乒用人失误!刚公布世乒赛阵容就出问题,邓亚萍却点出王皓无奈

国乒用人失误!刚公布世乒赛阵容就出问题,邓亚萍却点出王皓无奈

三十年莱斯特城球迷
2026-04-10 21:16:39
“反全红婵联盟”覆灭:抓了一个群主,潜水的大佬还能藏多久?

“反全红婵联盟”覆灭:抓了一个群主,潜水的大佬还能藏多久?

青青子衿
2026-04-11 04:00:05
苹果新品官宣:4月9日,正式开售

苹果新品官宣:4月9日,正式开售

科技堡垒
2026-04-08 10:22:36
外网同情全红婵遭遇,诋毁者正撞政策枪口,周继红望施展雷霆手段

外网同情全红婵遭遇,诋毁者正撞政策枪口,周继红望施展雷霆手段

铁锤妹妹是只猫
2026-04-11 02:06:58
演员李尚宝去世,终年45岁!生前曾蒙受不白之冤

演员李尚宝去世,终年45岁!生前曾蒙受不白之冤

阿晪美食
2026-04-10 22:13:21
迟重瑞,已皈依佛门,不生孩子家族显赫,财富差距掩盖了他的才华

迟重瑞,已皈依佛门,不生孩子家族显赫,财富差距掩盖了他的才华

混沌录
2026-04-09 18:45:25
159名球员票选MVP:亚历山大得票率39%居首 文班亚马意外没进前五

159名球员票选MVP:亚历山大得票率39%居首 文班亚马意外没进前五

罗说NBA
2026-04-10 22:00:23
自3月以来,巴尔韦德以7球位居五大联赛球员各项赛事进球榜首

自3月以来,巴尔韦德以7球位居五大联赛球员各项赛事进球榜首

懂球帝
2026-04-11 04:55:22
以军在教室开枪,打死正在上课的9岁加沙女孩

以军在教室开枪,打死正在上课的9岁加沙女孩

潇湘晨报
2026-04-10 14:59:14
伊朗发起第100轮强攻,大批美军官被抬走?特朗普恼羞成怒

伊朗发起第100轮强攻,大批美军官被抬走?特朗普恼羞成怒

老鹈爱说事
2026-04-11 01:51:53
文章上海开陕菜馆爆火!女儿打头阵捧场,手上婚戒引全网猜测

文章上海开陕菜馆爆火!女儿打头阵捧场,手上婚戒引全网猜测

老特有话说
2026-04-10 12:58:01
王天辰:住北京部队大院,身高185帅气迷人,出道10年终于火了

王天辰:住北京部队大院,身高185帅气迷人,出道10年终于火了

白面书誏
2026-02-26 17:21:20
大批巴基斯坦战机挺进伊朗!防止以军偷袭!使用大批中方制造装备

大批巴基斯坦战机挺进伊朗!防止以军偷袭!使用大批中方制造装备

共工之锚
2026-04-11 01:04:42
“小米食堂发布小米冰淇淋”登热搜榜第一,雷军回应:用工程师思维研发的新品“小米”冰淇淋有三个版本,标准版、pro版和Max版

“小米食堂发布小米冰淇淋”登热搜榜第一,雷军回应:用工程师思维研发的新品“小米”冰淇淋有三个版本,标准版、pro版和Max版

鲁中晨报
2026-04-10 17:12:05
郑丽文答凤凰记者:必须在台北赢得选举,才能落实我们的政治主张

郑丽文答凤凰记者:必须在台北赢得选举,才能落实我们的政治主张

爱意随风起呀
2026-04-11 03:48:16
2026-04-11 05:08:49
新浪财经 incentive-icons
新浪财经
新浪财经是一家创建于1999年8月的财经平台
2830966文章数 6533关注度
往期回顾 全部

科技要闻

马斯克狂发大火箭也养不起AI 年亏50亿美元

头条要闻

特朗普:美军舰已装最先进武器 未来24小时成关键窗口

头条要闻

特朗普:美军舰已装最先进武器 未来24小时成关键窗口

体育要闻

17岁赚了一百万美元,25岁被CBA裁员

娱乐要闻

黄景瑜王玉雯否认恋情!聚会细节被扒

财经要闻

李强主持召开经济形势专家和企业家座谈会

汽车要闻

搭载第二代刀片电池及闪充技术 腾势N8L闪充版预售35万起

态度原创

时尚
教育
健康
亲子
军事航空

今日热点:陈添祥长文道歉;夏克立曾给前经纪人传上厕所照片……

教育要闻

2026年最具“性价比”的4个专业,本科就业率高,考研容易上岸!

干细胞抗衰4大误区,90%的人都中招

亲子要闻

时间会融化所有尖锐,只剩平静

军事要闻

特朗普:对美国与伊朗达成和平协议“非常乐观”

无障碍浏览 进入关怀版