![]()
Meta憋了一年放出Muse Spark,基准测试跟Claude Opus 4.6、GPT 5.4打得有来有回。但数字好看只是入场券。
真正让圈内人坐直的是另一件事:独立开发者Simon Willison在meta.ai界面里随手敲了一行字——"你有什么工具?"——系统回了16个。Meta没藏,只是没提。
浏览器三件套:最基础的,往往最要命
browser.search、browser.open、browser.find,这三个工具构成了Muse Spark的网页交互层。
搜索走的是一个未公开的引擎,能加载页面,能在内容里做模式匹配。功能看着朴素,但解决了大模型最头疼的幻觉问题——让它自己上网查,而不是瞎编。
这个设计跟ChatGPT、Claude的路数一致,但Meta多了一层:搜索行为本身会被记录,成为后续调用的上下文。换句话说,它记得你上次查过什么。
参数表里有个细节:browser.search支持site_filter,可以限定域名范围。对企业用户来说,这意味着能锁死内部知识库做检索,不用怕模型跑到 Reddit 上抄答案。
社交图谱搜索:别人抄不走的护城河
meta_1p.content_search是16个工具里最让竞品眼红的那个。
它能语义搜索Instagram、Threads、Facebook的帖子,但有个硬门槛:只返回用户自己有权限看的内容,且发布时间必须在2025年1月1日之后。参数列表长得惊人——author_ids、key_celebrities、commented_by_user_ids、liked_by_user_ids——你能按作者筛、按名人关联筛、按谁评论过筛、按谁点赞过筛。
这是把社交关系链直接变成检索语法。Claude和GPT再强,也调不到Facebook的点赞数据。
有个限制值得玩味:2025年1月1日的时间 cutoff。Meta在官方文档里没解释,但开发者社区猜了一圈——可能是新隐私合规框架的分界线,也可能是训练数据的新鲜度窗口。不管哪种,这个时间戳本身就成了产品策略的信号。
代码解释器:抄作业抄到同一套卷子
container.python_execution跑的是Python 3.9,沙盒环境,预装pandas、numpy、matplotlib、plotly、scikit-learn、PyMuPDF、Pillow、OpenCV。
文件持久化路径定在/mnt/data/,跟ChatGPT的Code Interpreter、Claude的Artifacts同一个套路。三家独立走到同一个路口,说明这套交互范式已经收敛——用户要的不是"模型告诉我怎么算",是"模型直接算给我看"。
Meta的版本多了个细节:PyMuPDF和OpenCV在列,意味着它能直接啃PDF、做图像预处理。这对财务分析、研报解读这类场景是刚需,不用用户自己先转格式。
网页产物与视觉定位:从聊天到动手
container.create_web_artifact能生成HTML+JavaScript文件,以沙盒iframe形式渲染。 kind参数设成html就是小型应用,设成svg就是矢量图形。这个工具把对话界面变成了轻量IDE,用户说完需求,直接拿到可运行的东西。
更细的是container.visual_grounding。上传一张图,它能识别物体、返回边界框坐标、关键点位置、数量统计。Simon Willison的测试案例很损:让模型数浣熊的胡须,它真的返回了每根胡须的坐标对。
这背后是Meta的Segment Anything模型在当工具用。视觉理解从"描述这张图"降级成"定位第3个物体",粒度细到能支撑工业质检、医学影像标注这类 precision-critical 的场景。
子代理 spawning:把递归写进工具层
subagents.spawn_agent可能是16个工具里架构野心最大的。
它能委派任务给独立的子代理,每个子代理有自己的上下文窗口和执行环境。Simon Willison几个月前就在博客里写过这种"模型调用模型"的模式,当时还靠prompt工程硬凑。现在Meta把它做成了原生工具。
这意味着Muse Spark能自己拆任务、派工单、收结果。写个爬虫?主代理拆成"搜链接-下页面-解析数据-存文件"四个子任务,并行跑完再汇总。用户看到的只是最终结果,中间调度全黑箱。
风险也在这:子代理的权限边界怎么设?Meta的文档没细说,但参数表里有parent_agent_id的追踪字段,说明调用链是可审计的。这对企业部署是刚需——出了事得知道是哪个环节造的孽。
开源的悬念:权重比工具更重要
Scale AI的Alexandr Wang在X上放了一句话,被截图转疯了:"未来版本可能开源"。
Meta自己也在摇摆。Llama系列打响了开源权重的第一枪,Llama 4突然闭源,现在Muse Spark又是hosted only、私有API预览。Simon Willison扒出来的这16个工具,目前只能在meta.ai的 rented 环境里用,本地跑不了。
但如果真开源,事情就变味了。Muse Spark的权重+工具 harness 会成为一整套参考实现,开发者能在本地复刻完整的meta.ai体验——包括那个社交图谱搜索,只要你接自己的数据源。
Artificial Analysis给Muse Spark的评分是52,排在Gemini 3.1 Pro、GPT-5.4、Claude Opus 4.6后面。Meta自己吹的是算力效率:比Llama 4 Maverick少用一个数量级的计算资源。但圈子里聊的都不是这个。
聊的是收敛。文件操作原语(view、insert、str_replace)、沙盒视觉分析、子代理递归——每家都在往同一个架构挤。Meta的变量是社交数据,OpenAI的变量是插件生态,Anthropic的变量是Claude Code的开发者粘性。工具层的战争,比模型层的分数更决定终局。
Simon Willison的发现被扒出来后,meta.ai的接口文档连夜更新了一版——没删工具,只是加了更多使用条款。Meta的选择很直白:给你看,但不让你白嫖。
如果Alexandr Wang的暗示兑现,这套16工具 harness 会不会成为下一个开源标准?还是像Llama 4一样,喊完开源又缩回去?
特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.