网易首页 > 网易号 > 正文 申请入驻

汪滔的第一款大模型,让Meta终于重新上桌了

0
分享至



从汪滔(Alexandr Wang)加入Meta算起,已经过去大约十个月了,世界眼瞅着就要从一个夏天走到另一个夏天,Meta的“牛油果”终于熟了。

当地时间4月8日,Meta官宣发布Muse系列的第一款模型Spark。这也是Meta吸纳汪滔并建立“超级智能实验室(MSL)”之后端上来的第一盘菜。

汪滔在X上连发数条消息介绍新模型,表示:“九个月前,我们从零开始重建了人工智能技术栈,包括全新的基础设施、架构和数据管道。Muse Spark 正是这项工作的成果。”

就连之前传闻与汪滔不和的Meta前首席科学家杨立昆(Yann LeCun)都赶来恭喜,气氛一片祥和。



Meta官方强调,Spark的设计初衷是“小巧快速”,用这样一个模型打头阵,而不是“憋大招”直接发布碾压态势的模型,Meta也清楚时间不等人。

目前来看这一招奏效了,Meta的股价在当日一度上涨约9%。

01

新模型Muse Spark

首先,让我们来看看Meta发了个什么模型。

新模型名叫Muse Spark,其中Muse是模型系列的名称。这个名字也挺有意思的,Muse即“缪斯”,Spark是“火花”。

Meta表示,Muse Spark是Meta迄今为止功能最强大的模型。它目前为Meta AI应用和网站提供支持,并将于未来几周内陆续登陆WhatsApp、Instagram、Facebook、Messenger和AI眼镜。Meta还将通过API向部分合作伙伴提供该模型的私有预览版。

很明显,Meta想要充分发挥自己的平台优势,明确表示Muse Spark是专为Meta的产品而打造的。

它将为Meta AI提供更智能、更快速的支持,并随着时间的推移解锁新功能,这些功能可以引用用户在Instagram、Facebook和Threads上分享的推荐内容和信息。

“我们正朝着个人超级智能的目标迈进:打造一款能够随时随地帮助任何人处理他们最关心之事的智能助手。”

Muse Spark的设计初衷是小巧快速,却足以应对科学、数学和健康领域的复杂问题,其核心是一个原生多模态推理模型。

与以往将视觉和文本“拼接”在一起的版本不同,Muse Spark从底层架构开始重建,将视觉信息整合到其内部逻辑中。这种架构转变实现了“视觉思维链”,使模型能够标注动态环境——例如识别复杂咖啡机的组件,或通过并排视频分析纠正用户的瑜伽姿势。



然而,最重要的技术飞跃是新增的“思考”模式。

Meta声称,该功能协调多个子智能体并行推理,使Meta能够与谷歌的Gemini Deep Think和OpenAI的GPT-5.4 Pro等极端推理模型相媲美。



单模型测试结果来看。

Meta的新模型Muse Spark在综合智能指数上表现亮眼。它在Artificial Analysis Intelligence Index(一个涵盖多维度基准的综合智能评分)上拿到了52分,位列全球第4名。排在前面的分别是Gemini 3.1 Pro和GPT-5.4(均为约57分),以及Claude Opus 4.6(约53分)。

相比去年Llama 4 Maverick的仅18分,这已经是巨大的进步,显示Meta在前沿模型上明显追赶了回来。

具体强项和弱项:

. PhD级科学推理(GPQA Diamond):Muse Spark达到了89.5%的准确率,表现相当强劲,但仍略微落后于Gemini 3.1 Pro(94.3%)、GPT-5.4(92.8%)和Claude Opus 4.6(92.7%)。

. 图表与视觉理解(CharXiv Reasoning,在Contemplating模式下):得分86.4,在这项多模态视觉推理任务上明显优于竞品——超过了Gemini 3.1 Pro(80.2)、GPT-5.4(82.8)和Claude Opus 4.6(65.3)。视觉理解和图表推理是Muse Spark的突出优势之一。

. 医疗硬推理(HealthBench Hard):得分42.8%,大幅领先所有主要竞品,包括GPT-5.4(40.1%)、Gemini 3.1 Pro(20.6%)和Claude Opus 4.6(14.8%)。Meta表示,这得益于他们与超过1000名医生合作进行的针对性训练,医疗相关能力是它的亮点。

. 软件工程与编码(SWE-Bench Verified):得分77.4%,落后于Claude Opus 4.6(80.8%)和Gemini 3.1 Pro(80.6%)。Meta自己也坦承,在长时程多步自主任务(agentic tasks)和复杂编码工作流上还有差距,需要继续投入。

. 多模态多学科理解(MMMU Pro):得分约80.4–80.5%,仅次于Gemini 3.1 Pro(83.9%),在视觉多模态任务中排名第二。

总体来看,Muse Spark在视觉多模态推理、医疗领域和高效推理上表现突出,尤其适合Meta自己的社交、内容和健康生态;但在纯编码和长链条自主任务上仍有追赶空间。

02

推迟数次的“牛油果”

在X上,发生了一个有趣的小插曲。

作为Meta如今的AI掌舵手,汪滔(Alexandr Wang)在X上咣咣发布消息宣传新模型。

这个时候,有人指出,Meta给出的benchmark图表太混淆视听,“简直是犯罪”。在这张图表中,Muse Spark的分数排在第一列并且全部标成突出高亮色,乍一看,感觉是全面领先,但是细看便知其实有些分数是较低的。





在图表上玩花样,其实并不新鲜,OpenAI此前已经多次因此受到指责。

有意思的是,汪滔这次选择了立刻“滑跪”,回复该质疑:

“抱歉,我们并非有意暗示我们的得分最高。恰恰相反,大多数评估结果表明,我们的模型还有很多需要改进的地方。我们不会再犯同样的错误。”



不难看出,Meta也并非要让Muse Spark达到全面碾压之势,而是要回到AI的竞争行列当中。

从种种迹象来看,Muse系列应该就是Meta此前内部代号“牛油果(Avocado)”的项目。

牛油果已经跳票太久,Meta如今采取了“先小后大”的策略。Meta在官方博文中强调,Spark主打快速小巧,这只是个开始:

“我们的模型正在按预期发展。Muse Spark是我们发展历程中的一个早期数据点,我们正在开发更大规模的模型。”

这和AI行业(尤其是头部玩家)习惯于“炸场”“惊世骇俗”的节奏不同,但是Meta确实也没时间慢慢来了。

去年初,Meta发布Llama 4系列后,模型表现未达预期(尤其是Behemoth大模型性能提升不足),随后暂停了Llama系列的进一步开源研发。

到了去年夏天,Meta斥资143亿美元投资Scale AI(持股49%),并直接挖来Scale AI创始人兼CEO、28岁的汪滔(Alexandr Wang)担任首席AI官,正式成立Meta Superintelligence Labs(MSL)。

同时Meta展开疯狂挖角,从OpenAI、Google等公司高薪招募数十名顶尖研究员,部分offer达到数百万至上亿美元。

成本方面,Meta2025年全年AI相关资本支出达722.2亿美元;2026年1月财报指引显示,这一数字将大幅提升至1150亿—1350亿美元,几乎翻倍,主要用于MSL的模型训练和数据中心扩建。

过去这十个月的时间里,Meta以及扎克伯格、Meta的AI一把手汪滔身上,都压力山大。人们迫切地想看到汪滔加入、Meta重组之后,究竟会端上来一盘什么菜。

至少从市场的第一时间反馈来看,Meta放弃“憋大招”转而先上小菜的策略是奏效的,Meta股价当日一度大涨近9%,创下自今年1月以来最大单日涨幅。截至收盘,Meta收涨6.5%。

一个值得注意的信息是,过去外界一直认为“牛油果”将完全转向闭源,但Meta这次却没有把话说死。未来,Meta可能走开源与闭源并行的混合策略,将旗舰模型和独家技术保留在内部的同时保持新鲜模型对广泛开发者群体的开源可用性。

Meta总算把“牛油果”端上桌了,但这还远远不是终点。对汪滔和扎克伯格来说,Muse Spark更像是一声发令枪,未来如何,还要看“越来越强”的承诺能不能兑现。

特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相关推荐
热点推荐
京粤大战1-1战平!于嘉赛后犀利点评:差距在气质,输赢看硬核!

京粤大战1-1战平!于嘉赛后犀利点评:差距在气质,输赢看硬核!

田先生篮球
2026-05-09 22:37:18
随着曼联0-0,富勒姆0-1、布莱顿3-0,英超最新积分榜出炉

随着曼联0-0,富勒姆0-1、布莱顿3-0,英超最新积分榜出炉

侧身凌空斩
2026-05-10 00:05:39
汪峰森林北被曝分手,森林北立即断舍离,自嘲是汪峰5任中最差的

汪峰森林北被曝分手,森林北立即断舍离,自嘲是汪峰5任中最差的

露珠聊影视
2026-05-09 22:16:53
上海狂胜2-0山东进四强:洛夫顿20+9+5 陈林坚21分王哲林14+6

上海狂胜2-0山东进四强:洛夫顿20+9+5 陈林坚21分王哲林14+6

醉卧浮生
2026-05-09 21:32:05
压缩即是全部 —— 菲尔兹奖得主 Michael Freedman 给数学和 AI 的一封信

压缩即是全部 —— 菲尔兹奖得主 Michael Freedman 给数学和 AI 的一封信

新浪财经
2026-05-09 00:51:54
近10年学术不端名单:协和“4+4”董袭莹、“首席科学家”郭伟、“不知知网”翟天临

近10年学术不端名单:协和“4+4”董袭莹、“首席科学家”郭伟、“不知知网”翟天临

网易新闻出品
2026-05-09 18:38:13
4只皮皮虾1035元,官方回应是否“带客吃回扣”

4只皮皮虾1035元,官方回应是否“带客吃回扣”

中国新闻周刊
2026-05-09 19:38:06
击败罗马尼亚,中国队晋级世乒赛女团决赛,将与日本队争冠

击败罗马尼亚,中国队晋级世乒赛女团决赛,将与日本队争冠

澎湃新闻
2026-05-09 20:58:27
人伦之乱,正在悄悄毁掉无数家庭!看完一身冷汗

人伦之乱,正在悄悄毁掉无数家庭!看完一身冷汗

三农老历
2026-05-08 19:20:12
深圳富士康涌入很多印度人,老员工一眼看穿来意:根本不是来打工

深圳富士康涌入很多印度人,老员工一眼看穿来意:根本不是来打工

捣蛋窝
2026-05-09 15:37:17
抓了那么多贪官,钱呢?跟我们有关系吗?

抓了那么多贪官,钱呢?跟我们有关系吗?

细说职场
2026-05-08 22:15:45
解放前特务用很小的电台就能向台湾发报,可如今为什么没法做到?

解放前特务用很小的电台就能向台湾发报,可如今为什么没法做到?

宅家伍菇凉
2026-05-09 09:41:53
马斯克:每年休息两三天,试过睡不到6小时结果脑子很痛效率很低

马斯克:每年休息两三天,试过睡不到6小时结果脑子很痛效率很低

顶级大佬思维
2026-05-09 14:23:20
尴尬!网红神裤成审美灾难,网友称市场有需求,有些人恨不得裸奔

尴尬!网红神裤成审美灾难,网友称市场有需求,有些人恨不得裸奔

火山詩话
2026-05-09 19:50:52
升至37死51伤!浏阳烟花厂爆炸:负责人创业历程曝光,个人照流出

升至37死51伤!浏阳烟花厂爆炸:负责人创业历程曝光,个人照流出

老猫观点
2026-05-09 18:44:54
外卖小哥冒死冲进火场救火 被物业收取50元“灭火器使用费”

外卖小哥冒死冲进火场救火 被物业收取50元“灭火器使用费”

闪电新闻
2026-05-09 09:31:06
凌晨咳到吐!全国多地中招“干咳毒株”,患者猜疑新冠病毒新变种

凌晨咳到吐!全国多地中招“干咳毒株”,患者猜疑新冠病毒新变种

谭谈社会
2026-05-08 23:19:21
A股:大家坐稳扶好了,从下周一起,牛市或将再次重演历史了!

A股:大家坐稳扶好了,从下周一起,牛市或将再次重演历史了!

夜深爱杂谈
2026-05-09 20:26:21
太心酸!国乒女团3-0横扫罗马尼亚,斯佐科斯赛后发言句句戳心!

太心酸!国乒女团3-0横扫罗马尼亚,斯佐科斯赛后发言句句戳心!

田先生篮球
2026-05-09 22:47:39
南宁一群众到法院申请立案被法警群殴断两根肋骨!警方:不予立案

南宁一群众到法院申请立案被法警群殴断两根肋骨!警方:不予立案

兵叔评说
2026-05-09 13:21:06
2026-05-10 01:39:00
字母榜 incentive-icons
字母榜
让未来不止于大。
2446文章数 8062关注度
往期回顾 全部

科技要闻

美国政府强力下场 苹果英特尔达成代工协议

头条要闻

演员文章面馆大火后又开酒吧 多位明星到场母亲也现身

头条要闻

演员文章面馆大火后又开酒吧 多位明星到场母亲也现身

体育要闻

成立128年后,这支升班马首夺顶级联赛冠军

娱乐要闻

50岁赵薇脸颊凹陷沧桑得认不出!

财经要闻

多地号召,公职人员带头缴纳物业费

汽车要闻

轴距加长/智驾拉满 阿维塔07L定位大五座SUV

态度原创

本地
手机
房产
教育
公开课

本地新闻

用苏绣的方式,打开江西婺源

手机要闻

华为Mate 90首发!鸿蒙7定档6月:和iOS安卓三分天下

房产要闻

低价甩卖!海口这个地标商业,无人接盘!

教育要闻

天津女教师怼家长!完整录音曝光,老师很嚣张,饭碗恐不保了

公开课

李玫瑾:为什么性格比能力更重要?

无障碍浏览 进入关怀版