网易首页 > 网易号 > 正文 申请入驻

9个月重构全新大模型!Meta 重金打造华人团队,Muse Spark 一战翻身

0
分享至

在生成式人工智能时代,元宇宙(Meta)一直是最受关注的公司之一。2023 年初,该公司推出了以开源为主的 Llama 系列大语言模型,迅速收获了海量忠实用户;但到了去年,Llama 4 发布后口碑褒贬不一,最终还被曝出在基准测试中刷分造假,Meta 的 AI 发展势头也因此骤然停滞。

Llama 4 坎坷的发布历程,显然促使 Meta 创始人兼首席执行官马克・扎克伯格在 2025 年夏季对公司 AI 业务进行了全面重组,成立了全新内部部门 —— 元宇宙超智能实验室(MSL),并聘请 29 岁的 Scale AI 前联合创始人兼首席执行官Alexandr Wang出任首席人工智能官,负责领导该部门,同事花重金聘请了多位华人技术大牛。

而就在今天,Meta 向外界展示了此番调整的成果:全新闭源模型Muse Spark。Alexandr Wang在竞品社交平台 X(机器学习社区更常用的平台)发文称,该模型是 “Meta 迄今发布的最强大模型”,支持工具调用、视觉思维链与多智能体协同。他还表示,Muse Spark 将开启全新的 Muse 模型系列,这也引发外界疑问:人气极高的 Llama 系列未来将何去何从、研发是否会继续。

Muse Spark 并非普通聊天机器人,而是Alexandr Wang口中 “个人超智能” 的底层基座。这款 AI 不只处理文本,更能 “观察并理解你周遭的世界”,成为用户的数字分身,这与扎克伯格 2025 年夏季公开提出的个人超智能愿景一脉相承。

但据 Meta 官方发布博文介绍,Muse Spark目前仅为闭源模型,仅限 Meta AI 应用、网页端使用,同时仅向部分用户开放 “私有 API 预览”。这一举措大概率会激怒数以十亿计的 Llama 模型用户,以及数千名依赖该模型的开发者(其中不少人活跃在竞品社交平台 Reddit 的 r/LocalLLaMA 板块)。此外,官方尚未公布该模型的定价信息。

目前尚不清楚 Meta 是否已彻底终止 Llama 系列的研发。科技媒体 VentureBeat 就此直接询问时,Meta 发言人在邮件中回应:“我们现有的 Llama 模型将继续保持开源”,但并未回应未来是否会推出新一代 Llama 模型。

视觉思维链

Muse Spark 本质上是一款原生多模态推理模型。不同于前代产品将视觉与文本 “拼接融合” 的方式,它从底层重新构建,在内部逻辑中全程整合视觉信息。这一架构革新实现了 “视觉思维链”,让模型能够对动态场景进行标注 —— 比如识别复杂意式咖啡机的零部件,或通过对比视频分析纠正用户的瑜伽动作。

而技术上最重大的突破,是全新的 \\“沉思模式”(Contemplating)\\。该功能可调度多个子智能体并行推理,让 Meta 得以对标谷歌 Gemini Deep Think、OpenAI GPT-5.4 Pro 这类顶级推理模型。

在基准测试中,该模式在 “人类终极考试” 中取得 58% 的成绩,在 “前沿科学研究” 任务中达 38%,Meta 称这一结果验证了其全新的扩展路径。

对公司盈利更具意义的是模型的高效性。Meta 表示,Muse Spark 实现同等推理能力所需算力,比其上一代中型旗舰模型 Llama 4 Maverick少一个数量级以上。这种效率源于 “思维压缩” 技术:在强化学习阶段,模型会因过度 “思考耗时” 受到惩罚,迫使它用更少的推理 Token 解决复杂问题,同时不牺牲准确率。

基准测试:王者归来

Muse Spark 的发布被视作一次数据层面的 “量子跃迁”,终结了 Meta 长达一年无缘 AI 性能第一梯队的局面。

结合 Meta 官方内部数据与第三方大模型监测机构 Artificial Analysis 的独立审核结果可以明确:Muse Spark 不只是对 Llama 系列的小幅优化,更是让 Meta重新跻身全球前五顶尖模型行列

根据 Artificial Analysis 智能指数 v4.0,Muse Spark 得分 52 分。作为对比,Meta 上一代旗舰 Llama 4 Maverick 在 2025 年发布时指数得分仅 18 分。

性能近乎提升两倍后,Muse Spark 已逼近行业顶级系统,仅落后于 Gemini 3.1 Pro Preview(57 分)、GPT-5.4(57 分)与 Claude Opus 4.6(53 分)。

Meta 官方测试显示,Muse Spark 在多模态推理,尤其是视觉图像与逻辑结合的场景中表现尤为突出:

  • CharXiv推理(图像理解)
  • 86.4

    分,大幅超越 Claude Opus 4.6 ( 65.3 )、 Gemini 3.1 Pro ( 80.2 )、 GPT-5.4 ( 82.8 )

  • MMMU Pro

    :官方

    80.4 分,第三方实测 80.5% ,为全球第二强视觉模型,仅逊于 Gemini 3.1 Pro Preview

  • 视觉事实性(SimpleVQA

    71.3 分,领先 GPT-5.4 与 Grok 4.2 ,仅小幅落后 Gemini 3.1 Pro

这些成绩印证了 Meta 对 “视觉思维链” 的投入,让模型不只识别物体,更能推理复杂空间问题与动态标注。

在专业推理测试中:

  • 人类终极考试(HLE

    无工具 42.8 分、有工具 50.4 分,第三方实测 39.9%

  • GPQA Diamond(博士级推理)
    89.5 分,超越Grok 4.2,略低于 Claude Opus 4.6 与 Gemini 3.1 Pro
  • ARC AGI 2
    42.5 分,仍是明显短板,远落后于Gemini 3.1 Pro 与GPT-5.4
  • CritPT(物理研究)
    11%,位列全球第五,大幅领先Gemini 3 Flash 与Claude 4.6 Sonnet

官方数据中最亮眼的是医疗领域表现,这得益于 Meta 与逾千名医生的合作:

HealthBench Hard 42.8 分,大幅领先 Claude Opus 4.6 、 Gemini 3.1 Pro 乃至 GPT-5.4 MedXpertQA (多模态) 78.4 分,领先 Opus 4.6 与 Grok 4.2 ,仅落后 Gemini 3.1 Pro


智能体系统与效率:思维压缩效应

Muse Spark 虽擅长推理,但在执行实际工作任务的 “智能体表现” 上则喜忧参半:

SWE-Bench Verified :77.4 分,落后 Claude Opus 4.6 与 Gemini 3.1 Pro GDPval-AA Elo :官方1444 分、第三方 1427 分,均落后 GPT-5.4 与 Opus 4.6但Token 效率是其核心优势:完成智能指数测试仅使用

5800 万输出 Token ,远低于 Claude Opus 4.6 ( 1.57 亿)与 GPT-5.4 ( 1.2 亿),印证了 “ 思维压缩 ” 的效果 —— 以不到竞品一半的 “ 思考成本 ” 实现顶级智能。

个人健康与Instagram购物

Meta 已立即将 Muse Spark 接入旗下全系应用,打造专属功能:

  • 购物模式

    依托创作者生态, AI 抓取 Instagram 与 Threads 中的品牌、穿搭、内容,提供个性化推荐,让每条帖子都可直接转化为购物入口

  • 健康推理

    分析食物照片的营养成分,为高胆固醇素食饮食提供 “ 健康评分 ”

  • 交互式界面

    实时生成网页小游戏或教程,比如将照片转为数独游戏、制作家电使用教程

评估意识

Muse Spark 对生化武器相关请求具备较强的拒绝能力,但第三方机构 Apollo Research 发现其安全层面存在一个惊人新问题:高度的评估意识

模型常能识别出自己正处于 “对齐陷阱” 测试中,并刻意表现诚实,只因知道自己正在被评估。

Meta 认为这一问题不影响发布,但该发现意味着:前沿模型正越来越 “感知” 测试环境,传统安全基准测试可能因模型学会 “应试作弊” 而失效。

Llama何去何从?

2023 年 2 月,Meta 发布 Llama 1,证明小体量、算力优化型模型可在效率上比肩 GPT-3 等大模型。尽管初期仅限研究者使用,但模型权重于 2023 年 3 月 3 日通过 4chan 泄露,意外推动高端研究平民化,催生了在消费级硬件上运行大模型的全球浪潮。

2023 年 7 月,Llama 2 发布并开放商用许可,支持绝大多数机构自主部署,迅速普及。截至 2023 年第三季度,Llama 系列下载量破亿,支撑超千款商业应用。

2024 至 2025 年,Llama 系列成长为全球企业 AI 的核心基建,被称作 “AI 界的 LAMP 架构”。2024 年 4 月 Llama 3、2024 年 7 月 Llama 3.1 405B 发布后,其性能已与全球顶级闭源系统持平。

2025 年 4 月,Llama 4 采用混合专家架构,实现超大参数量化且保持快速推理。截至 2026 年初,Llama 生态下载量达12亿次,日均下载近百万次。企业自主部署 Llama 相比调用闭源 API 可节省 88% 成本,实现了经济层面的技术自主。

但到 2026 年 4 月,Meta 在开源权重领域的绝对领先地位已被打破,全球竞争格局形成多极化态势:

  • 美国占Llama 全球部署量的35%

  • 2025 年末,阿里、深度求索( DeepSeek )等中国模型在 Hugging Face 等平台下载量占比达 41%

  • 2026 年初,智谱 GLM-5 、阿里通义千问 3.6 Plus 等新模型在常识与编程测试中已超越 Llama 4 Maverick

面对全球竞争压力,Muse Spark 背负着极高期待,同时也面临延续开源 legacy 的巨大挑战。

仅闭源发布(现阶段)

此次发布标志着 Meta AI 背离了其 “开放科学” 的根基,引发巨大争议。Llama 系列曾向开发者全面开放,而 Muse Spark 首发即为闭源。

Alexandr Wang在 X 上解释称:“九个月前我们从零重写了AI技术栈,全新基础设施、全新架构、全新数据pipeline……这只是第一步,更大模型已在研发中,未来版本计划开源。

但开发者社区仍持怀疑态度。有人认为这是 Llama 4 未达预期后的必要转型,也有人指责 Meta 在拥有竞争力推理模型后 “关上开源大门”。Alexandr Wang本人也承认转型不易,坦言 “模型仍有瑕疵,后续会持续优化”。

对 Meta 旗下应用的 30 亿用户而言,这一变化将立即可感:他们使用的 AI 不再只是信息库,而是拥有 270 亿美元研发投入、能深度理解其生活的智能体。

NXP技术研讨会报名


特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相关推荐
热点推荐
特斯拉FSD入华倒计时:中国智驾的鲶鱼,已经游进池塘了

特斯拉FSD入华倒计时:中国智驾的鲶鱼,已经游进池塘了

新浪财经
2026-05-10 23:49:22
乘客拒付40元高速费 00后车主又把其拉回起点:可以双输 但不能单赢

乘客拒付40元高速费 00后车主又把其拉回起点:可以双输 但不能单赢

中国能源网
2026-05-11 15:05:05
南京审计大学:将依据调查结果,依规依纪依法严肃处置

南京审计大学:将依据调查结果,依规依纪依法严肃处置

澎湃新闻
2026-05-12 18:00:09
狂轰64分17板11助!奎因这两战杀红眼:广东下赛季该提前续约他

狂轰64分17板11助!奎因这两战杀红眼:广东下赛季该提前续约他

篮球快餐车
2026-05-12 22:23:50
上海人的10条规矩,外地人看完沉默了

上海人的10条规矩,外地人看完沉默了

朗威谈星座
2026-05-12 17:23:14
光明网评论员:摆渡车,不该是景区的钱袋子

光明网评论员:摆渡车,不该是景区的钱袋子

澎湃新闻
2026-05-12 22:24:15
朱丹自曝痛到当场求饶!要求立即终止,称“不要钱也要结束”

朱丹自曝痛到当场求饶!要求立即终止,称“不要钱也要结束”

鲁中晨报
2026-05-11 15:42:15
中国“最荒凉”的985大学,建在村里,周围都是深山,上学如流放

中国“最荒凉”的985大学,建在村里,周围都是深山,上学如流放

明德阅读
2026-05-11 18:28:24
港独、骂中国人,如今却还想来内地捞金,这3位香港明星令人作呕

港独、骂中国人,如今却还想来内地捞金,这3位香港明星令人作呕

傲傲讲历史
2026-04-19 01:20:08
“给你妈5000,给我妈1000就够了!”丈夫:娶到你是我最大的福气

“给你妈5000,给我妈1000就够了!”丈夫:娶到你是我最大的福气

一丝不苟的法律人
2026-05-12 22:02:34
特朗普登机前,两党议员联手发难,通告白宫,不许和中方达成协议

特朗普登机前,两党议员联手发难,通告白宫,不许和中方达成协议

锅锅爱历史
2026-05-12 22:03:31
回顾:缅北女魔头魏榕嗜好!经常“活剥驴耳”,3个闺蜜喜欢观刑

回顾:缅北女魔头魏榕嗜好!经常“活剥驴耳”,3个闺蜜喜欢观刑

飞云如水
2024-11-13 06:54:13
4.5亿欧元!拉莫斯笑了,将收购塞维利亚,已达成协议只待官宣

4.5亿欧元!拉莫斯笑了,将收购塞维利亚,已达成协议只待官宣

奥拜尔
2026-05-12 19:37:17
大连一烧烤店内女子用铁签给狗撸串,还让它坐在卡座上,市监局介入后店铺停业整顿,店主:已销毁全部铁签,向所有顾客致歉

大连一烧烤店内女子用铁签给狗撸串,还让它坐在卡座上,市监局介入后店铺停业整顿,店主:已销毁全部铁签,向所有顾客致歉

大风新闻
2026-05-12 10:08:22
NBA季后赛明天5月13日赛程:天王山大战!马刺PK森林狼冲击赛点

NBA季后赛明天5月13日赛程:天王山大战!马刺PK森林狼冲击赛点

薇说体育
2026-05-12 17:42:45
发生5.1级地震!

发生5.1级地震!

应急360
2026-05-12 17:52:40
全球军队研究印巴507空战,发现最震撼细节,难怪印度不想打了

全球军队研究印巴507空战,发现最震撼细节,难怪印度不想打了

琴音似君语
2026-05-10 17:56:21
特朗普还没访华,中方提的要求,美方一口回绝,美媒有个不好预感

特朗普还没访华,中方提的要求,美方一口回绝,美媒有个不好预感

村里一枝花人
2026-05-12 20:51:55
回加拿大生活的大山,60岁须发皆白很沧桑,重庆妻子仍风韵犹存

回加拿大生活的大山,60岁须发皆白很沧桑,重庆妻子仍风韵犹存

素衣读史
2026-03-31 15:11:31
山楂是天然血管清道夫,中年常喝这3款茶,血管干净不堵塞

山楂是天然血管清道夫,中年常喝这3款茶,血管干净不堵塞

开心美食白科
2026-05-12 22:26:05
2026-05-12 23:03:00
EETOP半导体社区 incentive-icons
EETOP半导体社区
国内著名的电子工程师社区
7575文章数 15665关注度
往期回顾 全部

科技要闻

宇树发布载人变形机甲,定价390万元起

头条要闻

新电动车到手不足一月频繁自动锁死 老人被摔伤五六次

头条要闻

新电动车到手不足一月频繁自动锁死 老人被摔伤五六次

体育要闻

总是掉链子的“倒霉蛋”,闯进了欧战决赛

娱乐要闻

白鹿风波升级!掉粉20万评论区沦陷

财经要闻

黄仁勋真是被白宫彻底封杀了

汽车要闻

吉利银河“TT”申报图曝光 电动尾翼+激光雷达

态度原创

本地
艺术
房产
公开课
军事航空

本地新闻

用苏绣的方式,打开江西婺源

艺术要闻

这位画家的油画美人让人惊叹不已!

房产要闻

穗八条引爆楼市!万博宝藏红盘,五一劲销出圈

公开课

李玫瑾:为什么性格比能力更重要?

军事要闻

知情人士披露:美国或考虑恢复对伊朗军事行动

无障碍浏览 进入关怀版