![]()
一个70亿参数的模型,在网页任务上跑赢了700亿的对手。这不是实验室里的数字游戏,是西雅图那家叫Ai2的机构刚扔出来的开源炸弹。
他们把这个东西叫MolmoWeb。名字听着像某种化学试剂,实际是个能自己操作浏览器的AI代理——点按钮、填表单、抓数据,全程不用人类盯着。更狠的是,整套代码和权重全开源,连训练数据都摊在桌上。
开源社区的"掀桌"时刻
网页代理(Web Agent)这个赛道,过去两年被闭源模型垄断得死死的。OpenAI的Operator、Anthropic的Computer Use,哪个不是会员专属?Ai2这次直接把桌子掀了。
MolmoWeb的核心架构叫"视觉-语言-动作"(VLA),简单说就是让模型既能看懂网页截图,又能理解自然语言指令,最后输出可执行的操作代码。传统做法需要三步走:先截图给视觉模型看,再转文字给语言模型想,最后调工具执行。Ai2把这三层揉成了一个端到端的神经网络。
训练数据是另一个狠招。他们没像某些公司那样偷偷爬用户隐私,而是用了公开可用的网页任务数据集,加上自己合成的交互轨迹。具体数字没公布,但Ai2的研究负责人强调:"每一行训练代码都能被审计。"
Benchmark成绩出来那天,社区炸了。WebArena基准测试——这个被业内当作网页代理高考的标准——MolmoWeb 7B版本拿了63.4%的成功率。什么概念?GPT-4o的网页代理版本是61.2%,而Claude 3.5 Sonnet的Computer Use大概在58%左右。更讽刺的是,某些700亿参数的闭源模型,在这个测试上还没过60%。
![]()
小模型凭什么逆袭
参数差10倍,性能却反超。Ai2的人把秘诀归结为"任务专用化"。
大模型什么都学,网页操作只是它无数技能中的一个。MolmoWeb从出生就只干一件事:理解网页结构,执行浏览器操作。用他们技术报告里的说法,这叫"认知卸载"——把通用知识砍掉,给任务技能腾地方。
具体技术细节很产品经理友好。模型输入是一张网页截图加一句自然语言指令,输出的是浏览器自动化框架Playwright能直接执行的代码。截图被切成网格,每个网格对应可能的点击区域;模型要同时预测操作类型(点击/输入/滚动)和具体坐标。
这种设计让推理速度快到离谱。在标准测试机上,MolmoWeb处理一个复杂表单填写任务平均只要2.3秒。某些云端大模型光网络往返就要这个时间的三倍。
开源策略更是精准打击。Ai2不是第一次这么干——他们去年发布的Molmo多模态模型就在学术圈攒了口碑。这次把网页代理这个商业场景最肥的肉扔出来,直接戳中了开发者的痛点:谁愿意把自己的核心工作流绑在别人的API上?
谁最慌?谁最爽?
![]()
闭源厂商的定价表可能要重写了。按当前市场价,GPT-4o级别的网页代理调用一次动辄几美分,复杂任务链跑下来账单能吓死人。MolmoWeb本地部署,成本压到接近电费。
但最坐不住的可能是RPA(机器人流程自动化)那帮老牌厂商。UiPath、Automation Anywhere卖了十几年 license,核心卖点就是"让软件自动操作软件"。现在一个7B模型开源了,中小企业谁还买你那套重型基础设施?
开发者这边已经开香槟。Hacker News上最高赞评论是个类比:"这感觉像当年MySQL出来时的数据库市场——Oracle还在卖天价license,年轻人已经开始用免费工具搭互联网了。"
当然也有冷静的声音。网页代理的噩梦场景是"幻觉操作"——模型看错一个按钮,把"提交订单"点成"清空购物车"。MolmoWeb在WebArena的误操作率是12.7%,比GPT-4o的9.3%略高。Ai2团队在发布博客里坦承:"高风险场景建议保留人类确认环节。"
技术报告里埋了个细节挺有意思。他们在训练时故意加入了"恶意网页"样本——钓鱼网站的仿冒按钮、隐藏条款的勾选框、自动勾选的隐私协议。模型学会的第一反应不是执行,而是标记风险。这个设计没有写在官方宣传里,但代码里确实留了接口。
开源社区的分支已经开始疯长。GitHub上已经有开发者把MolmoWeb接进了Selenium、Puppeteer,还有人尝试让它操作桌面应用。Ai2的许可证是Apache 2.0,商用无限制。换句话说,明天出现个"基于MolmoWeb的自动化客服SaaS"也不奇怪。
最后一个数据点:发布72小时内,Hugging Face上的模型下载量破了4万。对比之下,某些大厂同期发布的开源模型,同期数据通常在5千到8千之间。
浏览器自动化的旧秩序,这次是真被撬松了。但有个问题Ai2没回答——当每个开发者都能低成本部署网页代理,那些靠"人工审核"吃饭的众包平台,接下来几个月会怎么转型?
特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.