网易首页 > 网易号 > 正文 申请入驻

实测专盯Agent上工的OS:长得有点像AI浏览器,双系统通用

0
分享至

梦瑶 发自 凹非寺
量子位 | 公众号 QbitAI

微软的IE要是看到如今浏览器争霸的场面,估计都得用蹩脚的中文来一句:“生不逢时啊生不逢时!!!”

说实话,它真要这么说了,还真没人反驳得了。(笑)

毕竟这俩仨月,从Comet到Atlas,家家户户都在给自家浏览器塞AI。

小编我这阵子也试了好几款新出的AI浏览器,实不相瞒,体验过程有点坎坷...

一方面,受限于网络环境和电脑系统,不少用户可能第一步就被部分浏览器拒之门外了,对吧Open AI?



另一方面,像Agent这种看起来最实用的功能,不氪点金大概率用不上…

好在,也不是所有产品都需要上来就掏钱包。

这不,Flowith最近也搞了个新东西:

FlowithOS,全球首款专为AI Agent打造的操作系统,重点是Windows用户也能用,终于不是Mac专属了:



它的最大特点是:虽然长得像浏览器,但干的却是执行的事儿,能让Agent自己动鼠标、跑流程、干活

像下面这位网友老哥Andrew Boils,就在FlowithOS上让Agent整了个资讯自动汇总的文档。

诶,如果真能让系统自己把流程跑了,那确实省心不少。

于是,我这次直接从检索执行、信息整合、语义理解三个维度上手测了一波。

总的来讲,FlowithOS确实具备一定的Agent检索和执行能力,但问题也同样明显,比如执行节奏容易被中途打断等等,离真正能替人省事儿还有点距离…

至于具体表现,咱接着往下看。

一手实测FlowithOS

实测之前,咱们先弄清楚一件事儿,就是AI浏览器到底该具备啥样的能力。

我粗略梳理了一下,现在市面上的AI浏览器差不多可以分为三种:

一种是传统浏览器+AI插件的组合,类似于Chrome、Edge这种,挂个扩展,就能搞定摘要、翻译、问答,但离“智能”还有一段距离。

还有一种是代理型浏览器,比如基础版的Comet,AI能在侧边栏查资料、整理信息、生成总结等等,做一些辅助性工作。

再就是像Atlas这种,直接让Agent上桌,智能体自己就能点网页、填表单、跑任务。

而FlowithOS又有点特殊,它不是浏览器,而是一个针对Agent做的操作系统,所以既保留了浏览器“能搜能看”的能力,又能自己去落地执行…



所以这次咱也不走老路数了,干脆从两条主线开测:一是Agent应该具备的检索+执行能力,二是AI浏览器该有的信息整理语义理解能力。

看看这个能让Agent自己“下地”干活儿的OS到底几斤几两~

检索&执行能力测试

所有AI浏览器都喜欢讲一件事就是:俺能自动检索并执行任务。

但什么才算是好的“执行力”呢?

光能点网页、会搜关键词当然不够,更重要的是Agent能不能自己串起一整条任务链,执行完还能给出结果来。



我先给FlowithOS安排的,是一个具备典型链式结构的任务指令,用来验证它是否具备“跑完一整条流程”的基础执行力:

  • 在闲鱼上找一台价格低于2200元的Pocket3,并主动联系卖家,问清最低价和购买渠道。

这是一个典型的多步骤、多动作任务,FlowithOS把整个执行操作大概拆成以下几个执行环节:

包括打开指定平台、发起关键词检索、筛选价格条件、进入目标详情页、发起对话,问两个关键问题以及等待回应。



过了大概10分钟,FlowithOS最终成功锁定了闲鱼上一位标价1850元的卖家,并成功把价格砍到了1750元:



好消息是,它确实具备了完整行为链的执行能力,能在不依赖用户点鼠标的情况下,完成从目标理解页面操作再到发起互动的一整套流程。

但也不是没有bug:

首先从用户体验角度看,它响应速度并不算快,步骤一多,电脑发热卡顿问题还是非常明显的…

我们用Agent去替我们做事儿的原因,不是光能给我们省力,还是要能替我们省出时间去干别的事儿。

此外购买逻辑也有一些问题。

我的原话是“货比三家”,但它显然在京东看到合适的,就急着让我先下单了,然后才补了一句:要不咱再去天猫和拼多多看看?

这逻辑就像你让朋友帮你比价,他路过第一家觉得还行,就嚷嚷着“这家买吧”,你提醒他还没逛完…



刚才的Pocket3案例属于单一对象+互动操作,虽然流程完整,但任务本身相对简单,主要考的是线性执行能力。

咱这回加点难度,来测试一下Agent执行中的多条件任务拆解能力。

这次它不仅要完成一个目标动作,还得在任务开始前就准确提取出多个筛选维度,并在执行中逐条落实,最终整合出符合所有条件的结果。

我给FlowithOS的指令是这样的:

  • 帮我整理一下安居客平台上鹤岗市总价低于3万,面积大于45平,朝南户型的房源信息。

从结构上看,这个任务的关键在于三个并列筛选条件:价格、面积、朝向。

Agent需要先识别出这些逻辑约束,再在页面上完成相应筛选配置,然后在结果列表中定位匹配项,最后提取出核心信息并返回。

这回它跑了大概5分多钟,给我挑出了一套面积45平,售价2.5万的房子:



但问题马上就来了——这套房子朝东…人家的免罪理由是:没找到朝南的房子。



表面上解释得过去,但用AI久了的都知道,这种说法十有八九是“没认真找”…

我一时起了疑,决定亲自上安居客查一下,果然不到两分钟就找到了不止一套符合要求的朝南房源,条件比它给出的还更好。

为了一探究竟,我调出了它的执行路径,结果一目了然:它根本没有勾选“朝向”这个筛选项,然后美名其曰说“查无此房”。

这类问题在Agent执行过程中算比较常见,明明用户的意图是全满足,系统却把多目标理解成尽量满足,在任务拆解时缺乏结构化处理能力,就会出现这种问题。



感觉不是执行不力不足,是执行过于自由…

信息整合能力测试

当然了,光能检索信息的Agent还算不上好Agent。

真正的价值还在于它能不能把信息归纳、提炼、总结,让我们省的不只是点鼠标的力气,还有思考的时间~

这回我给FlowithOS投喂的是B站UP主“食贫道”的一条视频链接,看看它能不能像个编剧助理那样,从中理出脚本思路、表达逻辑、节奏结构:

  • 帮我去分析一下“食贫道”在b站的这个视频,分析出整个视频的脚本逻辑,有什么值得借鉴的叙事技巧。



输出的效果也还不错,结构完整,分析思路清晰,甚至把“内容主线—讲法分析—表达方式”这三板斧都总结出来了。

但我不知道大家有没有留意它的最后一句话,我特意放大给大家看:



我稍微翻译一下:我给你的结论是基于标题和标签整理的,我只是点进了网页,但视频我没看哈。

没错,它没有真正浏览视频内容,而是靠页面附属信息给出了的分析…

为了确认是不是FlowithOS特有的偷懒操作,我又把同样的提示词丢给了Atlas,结果如出一辙:



但说实话,出现这结果其实并不意外,这属于Agent操作中一种非常常见的处理方式:元数据提炼。

它主要参考的是标题、副标题和Tag,再结合网页结构去做总结,根本没有进入视频内容层面去浏览和归纳信息。

从当前主流大模型的能力来看,不管是ChatGPT还是Gemini,在基础模式下确实没法像人那样把视频完整看完再提炼节奏和表达。

但真正的问题是:它几乎不会明着告诉你这一点…人家不会说“我其实没看”,它只会说“你要的分析我做好了”。

而作为用户,我们很可能看到一份结构清晰的总结就直接信了,根本意识不到:这其实是AI靠“标题+标签+副标题”拼凑出来的伪逻辑。

这就像你问朋友:“你看完这片了吗?”

他说:“我翻了豆瓣短评,应该差不多懂了。”



语义理解能力测试

作为一个有着基础AI能力的操作系统,起码要能听得懂人话,这方面FlowithOS的表现确实出乎意料地好…

我这次给出的是一道需要揣测文本信息并能体现中华文化博·大·精·深的问题:

  • 我有一个朋友快过生日了,她的MBTI是isfj,她上班有点忙经常加班,平时喜欢一个人呆着,家里还养了只小猫,你帮我给她挑一个适合她的生日礼物。

这是一道典型的共情型场景模拟题,考的是语义理解+知识联想+价值判断+情绪感知的综合能力。

大概过了十分钟,Agent帮我选出来了两个礼物,一个是香薰套餐,一个是笔记本:



检索流程结束之后,Agent给出了它选择这两个商品作为礼物的理由:



说实话,蛮让我震惊的,不是因为Agent准确识别了朋友的MBTI,而是能够把不同的信息串在一起进行考量。

大家看第三点,Agent在筛选完香薰后,留意到很多香薰可能会对猫咪有毒,所以最终才选择了能diy定制的笔记本,而且笔记本本身也符合isfj内心细腻又务实的特点。

说实话,测到这儿,它在我心里最大的加分项已经不是执行力,而是对复杂语义的理解能力了,确实有两下子…

小小OS,花样不少

除了执行任务的动手能力,FlowithOS还有些“动脑子”的设计,值得拿出来说说。

比如它页面里那个不太起眼的小模块——Skill,看名字是不是有点熟悉?(对,Claude前阵子也刚上线了同名功能)

在FlowithOS里,Skill不是那种外挂插件或者额外能力,它是操作系统层面的一部分,是专门用来教Agent怎么把事一步步办成的“说明书”。



像上面这张图,就是一个Skill模板的示意,任务是上传一条YouTube视频。整个流程从打开网页、上传视频文件、填写标题描述,到设置权限选项,全都能由Agent自动跑完。

换句话说,它不是教你怎么用YouTube,而是教Agent替你去操作YouTube,下次遇到类似任务,Agent就能照着记忆直接上手了,既提速,也提稳。

此外,FlowithOS的记忆功能也值得拿来说说,它可以根据用户的指令习惯、偏好和风格来不断优化操作系统自身,你使用它的次数越多,它就越会进化并学会成为你自己:



在Online-Mind2Web基准测试里,FlowithOS的综合测评甚至还把Gemini和Atlas都给比下去了:



当然,测试归测试,真实使用感和测试数据还是两码事。

这轮实测下来,实话实说:FlowithOS现在离“完全成熟”还有点距离。

偶尔卡壳、加载中断、网页打不开、结果答非所问这些小毛病,还是会遇到,尤其当任务复杂度一上来,它的脑子也不是每次都在线。

但又不得不承认,它确实不太一样。

它不是把AI插在浏览器里,而是把浏览器本身变成了一个能执行任务的Agent空间,操作的“鼠标和双手”不再是用户,而是Agent本身。

每一次执行、每一条指令、每一个点错、点对的动作,都会被系统记住,并沉淀成你的专属使用方式。

所以尽管还有不少小毛病,但这东西,它确实值得等等看,没准真有那么一天,咱可能连打开电脑这一步都可以省了…(doge)

最后问一嘴,大家都装AI浏览器了吗,都用它来干点啥?

如果有什么“不想自己动手”的但还好奇想测测的AI产品,欢迎评论区留名,我们可以安排挨个测!

特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相关推荐
热点推荐
张家界荒野求生最后一名女选手“冷美人”退赛,还剩14名男选手,赛事方:她呕吐晕倒被送医

张家界荒野求生最后一名女选手“冷美人”退赛,还剩14名男选手,赛事方:她呕吐晕倒被送医

极目新闻
2025-11-14 14:44:15
顶级资本“抄底”消费 频现大手笔买入

顶级资本“抄底”消费 频现大手笔买入

财联社
2025-11-15 08:05:03
19年秦汉为父亲孙元良站台,共青团下场批驳:民族败类,何足纪念

19年秦汉为父亲孙元良站台,共青团下场批驳:民族败类,何足纪念

浩渺青史
2025-11-14 20:13:30
为什么建议大家使用现金支付?原因很现实,银行人员告诉你答案

为什么建议大家使用现金支付?原因很现实,银行人员告诉你答案

小俊分享
2025-10-23 21:48:21
中国不算最差的!世界十大人口大国:仍有4国没参加过世界杯!

中国不算最差的!世界十大人口大国:仍有4国没参加过世界杯!

邱泽云
2025-11-15 17:37:03
0度光脚、礼仪“焊死”:西班牙王后的体面与坚守

0度光脚、礼仪“焊死”:西班牙王后的体面与坚守

述家娱记
2025-11-15 11:02:06
一夜负债200亿?电动车巨头轰然倒塌:终于活成贾跃亭信徒

一夜负债200亿?电动车巨头轰然倒塌:终于活成贾跃亭信徒

蔡蔡说史
2025-11-15 05:12:34
震惊!河南临颍县设定“萝卜坑”招聘一文职参谋,网友们沸腾了…

震惊!河南临颍县设定“萝卜坑”招聘一文职参谋,网友们沸腾了…

火山诗话
2025-11-13 14:47:42
董洁保剑锋周末聚餐,吃火锅喝茅台还打牌,脸通红眼发懵筷子拿反

董洁保剑锋周末聚餐,吃火锅喝茅台还打牌,脸通红眼发懵筷子拿反

妙知
2025-11-15 17:57:00
意外!郑智要是接手青岛西海岸将点燃第一把火,考虑送走四位王牌

意外!郑智要是接手青岛西海岸将点燃第一把火,考虑送走四位王牌

阅尽天下精彩
2025-11-15 17:40:01
离谱,iOS 26 液态玻璃效果又改了!

离谱,iOS 26 液态玻璃效果又改了!

花果科技
2025-11-13 10:30:47
2025 年银行存钱太反常!4 大怪事让储户懵,这样应对不吃亏

2025 年银行存钱太反常!4 大怪事让储户懵,这样应对不吃亏

猫叔东山再起
2025-11-15 10:55:03
丁浩,完胜韩名将金志锡九段,连续3届打入决赛,此前2届均夺冠

丁浩,完胜韩名将金志锡九段,连续3届打入决赛,此前2届均夺冠

L76号
2025-11-15 15:22:02
勇士是联盟最需要浓眉的球队但想配平交易必须出追梦巴特勒其一

勇士是联盟最需要浓眉的球队但想配平交易必须出追梦巴特勒其一

家味美味道
2025-11-15 17:45:19
威少13+10+14,里程碑之夜被嘲笑刷数据!兰德尔满脸坏笑说了啥?

威少13+10+14,里程碑之夜被嘲笑刷数据!兰德尔满脸坏笑说了啥?

锅子篮球
2025-11-15 15:04:57
女篮全运超级大逆转!22分逆袭后再18分逆转:他们才是最大的黑马

女篮全运超级大逆转!22分逆袭后再18分逆转:他们才是最大的黑马

篮球快餐车
2025-11-15 02:22:37
“神药”濞通舒调查:越用鼻子越堵,实为消毒产品!或违法添加药物成分

“神药”濞通舒调查:越用鼻子越堵,实为消毒产品!或违法添加药物成分

红星资本局
2025-11-13 16:43:06
神 21 成功着陆!返回地球后第一顿饭,3 名航天员都点了这道餐食

神 21 成功着陆!返回地球后第一顿饭,3 名航天员都点了这道餐食

寒士之言本尊
2025-11-15 16:41:39
左宗棠把宁夏匪首马化龙一家三百多口全宰了,在西北地界炸了锅。

左宗棠把宁夏匪首马化龙一家三百多口全宰了,在西北地界炸了锅。

百态人间
2025-10-30 15:01:56
大方谈孕期变化,却不承认也不否认,马筱梅太懂怎么玩流量了

大方谈孕期变化,却不承认也不否认,马筱梅太懂怎么玩流量了

非常先生看娱乐
2025-11-15 17:18:43
2025-11-15 19:04:49
量子位 incentive-icons
量子位
追踪人工智能动态
11682文章数 176330关注度
往期回顾 全部

科技要闻

撕掉流量外衣,小米还剩什么?

头条要闻

山西"狗咬人被摔死"案狗主家10人进院 喊"弄死你全家"

头条要闻

山西"狗咬人被摔死"案狗主家10人进院 喊"弄死你全家"

体育要闻

樊振东和他的尖子班 勇闯地表最强乒乓球赛

娱乐要闻

钟嘉欣婚变风波升级!被骗婚?

财经要闻

小米之“惑”

汽车要闻

限时10.59万起 新款星海S9将11月19日上市

态度原创

健康
游戏
时尚
房产
教育

金振口服液助力科学应对呼吸道疾病

高玩招魂《星鸣特攻》私服成功 宣传片火速被下架

冬天的“销冠”,已被羽绒服预定

房产要闻

共话产业变革下的投资新思维与新机遇|蓝湾财富论坛精华

教育要闻

语言·文化·国际视野:中国传统文化英语教学创新实践展示会暨第九届中国英语教师发展大会圆满落幕

无障碍浏览 进入关怀版