今年是 AI 的 Agent 之年,也是……邀请码之年
花叔表示:我不理解,难道 "先进智能" 的第一步是“把人挡在门外”?
从 Manus 开始,国内 AI 圈发布新品似乎都要以下三件套:
邀请码——越难求,越显高级;
“全球首款 ××× Agent”——句式千篇一律,槽点年年翻新;
全英文炫酷发布视频——受众 90% 是国人,BGM 却像在硅谷。
第一个这么玩确实有创意,但人人都跟风就显得……无聊。
现在我的原则:需要排队的 AI 产品 = 直接忽略。毕竟你想要的,可能只是“我有,别人没有”的优越感——而不是真正的生产力。
Skywork:SOTA 级 Agent,不玩邀请码套路
终于,等来了一个敢让所有人立刻免费上手的深度研究型 Agent —— 天工超级智能体(Skywork Super Agents,方便起见下文简称Skywork).
来,先看成绩单:
他们在GAIA Bechmark评测指标上都超越了前任最佳,达到了SOTA级别。
上面这几个名词你可能比较陌生,我来简单解释下:
GAIA Benchmark:General Agent Intelligence Assessment——翻译成大白话就是“看你家 Agent 究竟是学霸还是学渣”的统考。Skywork 在这张卷子上直接把前任第一挤到了旁边。
SOTA:State Of The Art,行业里最高水准。拿到这标签=行业“天花板”。
OK,专业解释结束,下面进入正题。
从通用Agent到 “Office 三件套”Agent
现在AI行业对Agent,或者说智能体有两套不同的想法和逻辑。
一类是走工作流的方式,比如Coze、Dify这样的产品让用户自己搭建工作流,去完成一个特定任务的执行;这个逻辑的优势是生成的结果非常可控且个性化,但是对使用者的要求比较高,无论是操作上还是对于完成一个工作所需要经历的流程的认知上;
第二类是走通用Agent,比如Manus、Genspark等,给底层模型足够开放的空间,不做限制,再提供一些工具去实现通用性人物的解决,这类agent的主要优势是能完成的工作范围广,你想要完成的任何工作都可以让agent试试,但是劣势是未对任何场景做优化,产生的结果质量相对不可控,对底层模型能力的依赖性太强。
现在我觉得以模型的发展水平来说,更合理的方式是走中间形态,简化用户的操作,让模型能更自主的完成尽可能大量的工作,但是又最好能对高频场景做优化,用人类的认知去弥补特定场景下模型能力暂时不足的地方。前段时间出圈的设计Agent产品Lovart就是基于这个逻辑,对设计场景做了大量的优化,所以他们在设计VI、海报等方面的表现是明显优于常规的对话式AI和通用Agent的。
那,对打工人来说,日常最需要干的是什么?
写文档、做表格、做PPT。
不管你平时是开会、复盘,还是工作总结、汇报,这“Office三件套“几乎是人人都避不开的。
AI是时候把这些人类不愿意干,觉得枯燥乏味的活给干一干了,令我比较惊喜的是Skywork在产品界面的设计上都强调了他们主打的是这三类高频场景,而且我试了试,效果还真不错。
Skywork 的使用示例
1️⃣ 访问
Skywork有海外版和国内版,海外用户可以马上上 skywork.ai ;国内用户直达 tiangong.cn,无需邀请码。
2️⃣ 模式选择
打开之后,可以先选个模式:文档模式、PPT模式、表格模式、网页模式、播客模式、通用模式,我个人觉得现在他们在前三个office三件套的模式上优化得比较好,也是他们相比其他agent产品的优势所在。
3️⃣ 需求表达
然后,直接表达你的需求就好了,比如我最近要去大理一个社区做分享,本来还头疼做PPT的事,我打算偷个懒,让Skywork给我试试,我输入的要求是:
我是「小猫补光灯」app的开发者,最近我要去给一个社区分享使用AI编程和需求洞察的经验,请帮我设计一个分享的ppt,我希望这份PPT里先包含我的个人介绍、小猫补光灯和小猫补光灯pro这两个app所获得的成绩,以及与之相关的切实可行的ai编程以及需求洞察相关的经验,你可以多找找我的一些对外分享
4️⃣ 需求确认
和OpenAI的DeepResearch类似,其实很多复杂需求你在表达时总会有一些遗漏,你会希望当你把这件事交给AI,或者交给实习生的时候,对方都能思考下你的要求,再跟你做些确认,以免方式一顿乱猜,最后做出来的东西不符合你需求的情况。
DeepResearch的方式是会用一大堆问题询问你的需求,Skywork在这部分做了些创新,让用户做“选择题”而不是更困难的“问答题”。
5️⃣ Todo规划与执行
接下来的过程就是Agent的常规逻辑了,规划完成这项任务所需的步骤,然后逐步执行完成这个步骤。Skywork执行的方式主要是调用MCP去完成网页搜索、浏览、图片下载等任务。
6️⃣ 交付
在收集完信息后,Skywork会形成内容大纲,然后填充内容实现最终的交付。
这个交付的结果我给打个75分吧,有三个方面我还挺惊喜的:
1)视觉效果还不错,而且不是AI PPT产品那种千篇一律的物料模板;
2)居然找到了我的照片,并且放在了PPT里,这点还挺超出预期的;
3)可以直接编辑或者下载PPT,毕竟AI生成的东西不是你可以100%全用的,方便的编辑操作还挺重要。
我觉得还有待提升的地方是有些信息错误,比如这类提到我2024年3月裸辞,但实际是2023年3月,我估计可能是部分信源的不准确或者表达不精准导致的错误。另外,怎么没把我app logo放进来,以及我的个人介绍里没放上我的自媒体昵称和链接还是不那么好。但是作为一个实习生的话,这事我能接受。
Skywork 的优势总结
除了上面的PPT生成任务,我把做文档和做表格的任务也都试了试。感受上是Skywork在信息搜集的深度上做的还不错,毕竟你不管是要做PPT、doc还是excel,前提其实都是你该有足够的信息,MCP模式现在能获取的信息量还挺丰富的,可以看出这个产品的信息搜集是对标OpenAI DeepResearch来的。
但...我也发现了和之前用别的Agent产品类似的问题,国内网页信息源的墙还是障碍重重,AI还没法完全越过,比如多次出现要爬知乎的页面,但是无法访问的情况 这倒是不怪AI了。
不过呢,瑕不掩瑜,Skywork在信息溯源上算是下了相当大的功夫,就算是做出来的PPT,但你只要把下面的“溯源”打开,PPT里每段文字都能看到信息来源是哪里,这对打工人来说,是相当放心了,能让你减少一些被AI幻觉支配的恐惧。
而在写Doc文档方面,Skywork能生成相当好的图文并茂的文档,拿这个功能去做公众号文章的写作,写PRD,或者制定旅行计划等等估计是再合适不过了。我这次让Skywork生成AI Agent发展报告的任务里,TA甚至还帮我生成了一个图表插入到文档里。
Excel任务比较有趣的是,我最开始只是让Skywork帮我收集下最近20年奥斯卡最佳影片获奖影片的一些基础信息,但是我没想到,它帮我把各种信息整理完之后,还做了不少我没有提到的分析。
比如这个评分与票房之间的关系,虽然不是我直接要求的,但还真是我感兴趣的方面,而且在一次任务中能做这种类似的分析,所以确实融入不少数据处理的策略。
Agent的中点
Skywork既不是AI Agent的起点,也不是终点,但我会觉得是个有趣的中点。Agent的发展还需要一个又一个这种中间点的发展历程的出现。
如果你正在为“做 PPT 做到半夜”“Excel 函数写到怀疑人生”“查资料跳转五十个标签页”而头大,不如马上试试这位“AI 打工人”。它真干活,而且是帮你干那些脏活累活。
看完这篇文章,你记住这句话就行了:
Skywork = 深度研究 × AI Office 三件套 × 可精准溯源 × 在线可改。
特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.