9个月重构全新大模型！Meta 重金打造华人团队，Muse Spark 一战翻身|模态|智能体|meta|muse|spark

9个月重构全新大模型！Meta 重金打造华人团队，Muse Spark 一战翻身

分享至

在生成式人工智能时代，元宇宙（Meta）一直是最受关注的公司之一。2023 年初，该公司推出了以开源为主的 Llama 系列大语言模型，迅速收获了海量忠实用户；但到了去年，Llama 4 发布后口碑褒贬不一，最终还被曝出在基准测试中刷分造假，Meta 的 AI 发展势头也因此骤然停滞。

Llama 4 坎坷的发布历程，显然促使 Meta 创始人兼首席执行官马克・扎克伯格在 2025 年夏季对公司 AI 业务进行了全面重组，成立了全新内部部门 —— 元宇宙超智能实验室（MSL），并聘请 29 岁的 Scale AI 前联合创始人兼首席执行官Alexandr Wang出任首席人工智能官，负责领导该部门，同事花重金聘请了多位华人技术大牛。

而就在今天，Meta 向外界展示了此番调整的成果：全新闭源模型Muse Spark。Alexandr Wang在竞品社交平台 X（机器学习社区更常用的平台）发文称，该模型是 “Meta 迄今发布的最强大模型”，支持工具调用、视觉思维链与多智能体协同。他还表示，Muse Spark 将开启全新的 Muse 模型系列，这也引发外界疑问：人气极高的 Llama 系列未来将何去何从、研发是否会继续。

Muse Spark 并非普通聊天机器人，而是Alexandr Wang口中 “个人超智能” 的底层基座。这款 AI 不只处理文本，更能 “观察并理解你周遭的世界”，成为用户的数字分身，这与扎克伯格 2025 年夏季公开提出的个人超智能愿景一脉相承。

但据 Meta 官方发布博文介绍，Muse Spark目前仅为闭源模型，仅限 Meta AI 应用、网页端使用，同时仅向部分用户开放 “私有 API 预览”。这一举措大概率会激怒数以十亿计的 Llama 模型用户，以及数千名依赖该模型的开发者（其中不少人活跃在竞品社交平台 Reddit 的 r/LocalLLaMA 板块）。此外，官方尚未公布该模型的定价信息。

目前尚不清楚 Meta 是否已彻底终止 Llama 系列的研发。科技媒体 VentureBeat 就此直接询问时，Meta 发言人在邮件中回应：“我们现有的 Llama 模型将继续保持开源”，但并未回应未来是否会推出新一代 Llama 模型。

视觉思维链

Muse Spark 本质上是一款原生多模态推理模型。不同于前代产品将视觉与文本 “拼接融合” 的方式，它从底层重新构建，在内部逻辑中全程整合视觉信息。这一架构革新实现了 “视觉思维链”，让模型能够对动态场景进行标注 —— 比如识别复杂意式咖啡机的零部件，或通过对比视频分析纠正用户的瑜伽动作。

而技术上最重大的突破，是全新的 \\“沉思模式”（Contemplating）\\。该功能可调度多个子智能体并行推理，让 Meta 得以对标谷歌 Gemini Deep Think、OpenAI GPT-5.4 Pro 这类顶级推理模型。

在基准测试中，该模式在 “人类终极考试” 中取得 58% 的成绩，在 “前沿科学研究” 任务中达 38%，Meta 称这一结果验证了其全新的扩展路径。

对公司盈利更具意义的是模型的高效性。Meta 表示，Muse Spark 实现同等推理能力所需算力，比其上一代中型旗舰模型 Llama 4 Maverick少一个数量级以上。这种效率源于 “思维压缩” 技术：在强化学习阶段，模型会因过度 “思考耗时” 受到惩罚，迫使它用更少的推理 Token 解决复杂问题，同时不牺牲准确率。

基准测试：王者归来

Muse Spark 的发布被视作一次数据层面的 “量子跃迁”，终结了 Meta 长达一年无缘 AI 性能第一梯队的局面。

结合 Meta 官方内部数据与第三方大模型监测机构 Artificial Analysis 的独立审核结果可以明确：Muse Spark 不只是对 Llama 系列的小幅优化，更是让 Meta重新跻身全球前五顶尖模型行列。

根据 Artificial Analysis 智能指数 v4.0，Muse Spark 得分 52 分。作为对比，Meta 上一代旗舰 Llama 4 Maverick 在 2025 年发布时指数得分仅 18 分。

性能近乎提升两倍后，Muse Spark 已逼近行业顶级系统，仅落后于 Gemini 3.1 Pro Preview（57 分）、GPT-5.4（57 分）与 Claude Opus 4.6（53 分）。

Meta 官方测试显示，Muse Spark 在多模态推理，尤其是视觉图像与逻辑结合的场景中表现尤为突出：

CharXiv推理（图像理解）

86.4
分，大幅超越 Claude Opus 4.6 （ 65.3 ）、 Gemini 3.1 Pro （ 80.2 ）、 GPT-5.4 （ 82.8 ）
MMMU Pro
：官方
80.4 分，第三方实测 80.5% ，为全球第二强视觉模型，仅逊于 Gemini 3.1 Pro Preview
视觉事实性（SimpleVQA
71.3 分，领先 GPT-5.4 与 Grok 4.2 ，仅小幅落后 Gemini 3.1 Pro

这些成绩印证了 Meta 对 “视觉思维链” 的投入，让模型不只识别物体，更能推理复杂空间问题与动态标注。

在专业推理测试中：

人类终极考试（HLE
无工具 42.8 分、有工具 50.4 分，第三方实测 39.9%
GPQA Diamond（博士级推理）
89.5 分，超越Grok 4.2，略低于 Claude Opus 4.6 与 Gemini 3.1 Pro
ARC AGI 2
42.5 分，仍是明显短板，远落后于Gemini 3.1 Pro 与GPT-5.4
CritPT（物理研究）
11%，位列全球第五，大幅领先Gemini 3 Flash 与Claude 4.6 Sonnet

官方数据中最亮眼的是医疗领域表现，这得益于 Meta 与逾千名医生的合作：

HealthBench Hard 42.8 分，大幅领先 Claude Opus 4.6 、 Gemini 3.1 Pro 乃至 GPT-5.4 MedXpertQA （多模态） 78.4 分，领先 Opus 4.6 与 Grok 4.2 ，仅落后 Gemini 3.1 Pro

智能体系统与效率：思维压缩效应

Muse Spark 虽擅长推理，但在执行实际工作任务的 “智能体表现” 上则喜忧参半：

SWE-Bench Verified ：77.4 分，落后 Claude Opus 4.6 与 Gemini 3.1 Pro GDPval-AA Elo ：官方1444 分、第三方 1427 分，均落后 GPT-5.4 与 Opus 4.6但Token 效率是其核心优势：完成智能指数测试仅使用

5800 万输出 Token ，远低于 Claude Opus 4.6 （ 1.57 亿）与 GPT-5.4 （ 1.2 亿），印证了 “ 思维压缩 ” 的效果 —— 以不到竞品一半的 “ 思考成本 ” 实现顶级智能。

个人健康与Instagram购物

Meta 已立即将 Muse Spark 接入旗下全系应用，打造专属功能：

购物模式
依托创作者生态， AI 抓取 Instagram 与 Threads 中的品牌、穿搭、内容，提供个性化推荐，让每条帖子都可直接转化为购物入口
健康推理
分析食物照片的营养成分，为高胆固醇素食饮食提供 “ 健康评分 ”
交互式界面
实时生成网页小游戏或教程，比如将照片转为数独游戏、制作家电使用教程

评估意识

Muse Spark 对生化武器相关请求具备较强的拒绝能力，但第三方机构 Apollo Research 发现其安全层面存在一个惊人新问题：高度的“评估意识”。

模型常能识别出自己正处于 “对齐陷阱” 测试中，并刻意表现诚实，只因知道自己正在被评估。

Meta 认为这一问题不影响发布，但该发现意味着：前沿模型正越来越 “感知” 测试环境，传统安全基准测试可能因模型学会 “应试作弊” 而失效。

Llama何去何从？

2023 年 2 月，Meta 发布 Llama 1，证明小体量、算力优化型模型可在效率上比肩 GPT-3 等大模型。尽管初期仅限研究者使用，但模型权重于 2023 年 3 月 3 日通过 4chan 泄露，意外推动高端研究平民化，催生了在消费级硬件上运行大模型的全球浪潮。

2023 年 7 月，Llama 2 发布并开放商用许可，支持绝大多数机构自主部署，迅速普及。截至 2023 年第三季度，Llama 系列下载量破亿，支撑超千款商业应用。

2024 至 2025 年，Llama 系列成长为全球企业 AI 的核心基建，被称作 “AI 界的 LAMP 架构”。2024 年 4 月 Llama 3、2024 年 7 月 Llama 3.1 405B 发布后，其性能已与全球顶级闭源系统持平。

2025 年 4 月，Llama 4 采用混合专家架构，实现超大参数量化且保持快速推理。截至 2026 年初，Llama 生态下载量达12亿次，日均下载近百万次。企业自主部署 Llama 相比调用闭源 API 可节省 88% 成本，实现了经济层面的技术自主。

但到 2026 年 4 月，Meta 在开源权重领域的绝对领先地位已被打破，全球竞争格局形成多极化态势：

美国占Llama 全球部署量的35%
2025 年末，阿里、深度求索（ DeepSeek ）等中国模型在 Hugging Face 等平台下载量占比达 41%
2026 年初，智谱 GLM-5 、阿里通义千问 3.6 Plus 等新模型在常识与编程测试中已超越 Llama 4 Maverick

面对全球竞争压力，Muse Spark 背负着极高期待，同时也面临延续开源 legacy 的巨大挑战。

仅闭源发布（现阶段）

此次发布标志着 Meta AI 背离了其 “开放科学” 的根基，引发巨大争议。Llama 系列曾向开发者全面开放，而 Muse Spark 首发即为闭源。

Alexandr Wang在 X 上解释称：“九个月前我们从零重写了AI技术栈，全新基础设施、全新架构、全新数据pipeline……这只是第一步，更大模型已在研发中，未来版本计划开源。”

但开发者社区仍持怀疑态度。有人认为这是 Llama 4 未达预期后的必要转型，也有人指责 Meta 在拥有竞争力推理模型后 “关上开源大门”。Alexandr Wang本人也承认转型不易，坦言 “模型仍有瑕疵，后续会持续优化”。

对 Meta 旗下应用的 30 亿用户而言，这一变化将立即可感：他们使用的 AI 不再只是信息库，而是拥有 270 亿美元研发投入、能深度理解其生活的智能体。

NXP技术研讨会报名

特别声明：以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布，本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.