网易首页 > 网易号 > 正文 申请入驻

全球智能体榜单新SOTA!中国公司登顶,Office三件套一键生成

0
分享至

白交 发自 凹非寺
量子位 | 公众号 QbitAI

左超Manus,右跨Genspark,GAIA榜单上又一家中国公司登顶!

天工超级智能体(Skywork Super Agents),出自昆仑万维,今日刚一上线即霸榜。

Agent赛道开始热闹之后,GAIA就成为大家摩拳擦掌的竞技场。

作为一个评估Agent解决实际问题能力的基准,它包括450个问题,这些问题需要不同级别的工具支持和自主能力,为此它还划分了三个Level水平。

结果能够看到,天工超级智能体(Skywork Super Agents)在前两个Level都以较大分数超过Manus和OpenAI的Deep Research,最后一个较高难度的Level 3,能力与Manus持平。

另外,它还在SimpleQA排行榜上,实现了对OpenAI和当前SOTA的超越。

除了在排行榜表现惊艳,它还有很多与其他产品不同的细节点。

摘一个最重要的(对打工人最友好的)来说。

它支持五种模态一站式生成,包括Office三件套(Word、PPT、Excel)、网站、网页、播客,一应俱全。

而且生成的结果可溯源、可编辑,还有类似NotebookLM的在线私人知识库的功能。

要知道,以前Agent那么多,但对打工人都不是特别的友好,生成的报告无法溯源、支持的文件格式又有限……

现在似乎是一个真正强大且对打工人友好的Agent来了,具体来看看。

超越Genspark和Manus,GAIA榜单第一

在说天工超级智能体(Skywork Super Agents)之前,有必要说说GAIA的含金量。

它之所以能成为众多Agent/大模型屡试不鲜的通用Benchmark,主要在于它提出了真实世界中一系列需要基本能力的问题,如推理、多模态处理、网页浏览和一般工具使用熟练程度。

而且还很细致地区分了三个层次,分别代表着不同的难易程度,级别越高,难度越大。

Level 1,往往不需要任何工具,或者有且最多只使用一种工具,但步骤不超过5步。

Level 2,涉及到的步骤在5-10步之间,需要结合不同的工具。

Level 3,这一级别的问题已经接近通用Agent了,要求采取任意长的行动序列,使用任意数量的工具,并能访问整个世界。

不过别看这么复杂,但其实这种难度只是「AI限定」,对人类来说很简单。他们的实验表明,人类答题者的得分率为92%,而装有插件的GPT-4的得分率仅为15%。

这种显著的差异与「当前大模型在诸多任务优于人类」的现象形成了鲜明的对比。

于是乎这也就成为了海内外Agent的擂台,结果没想到现在又出现一个国产Agent「天工超级智能体」(Skywork Super Agents)突出重围,实现SOTA。

另外,它还收获了SimpleQA上评分第一、Product Hunt日榜第一。

具体来看看产品

从入口上看,目前只有网页端口,界面相比其他Agent产品丰富和清晰不少,覆盖的模式和场景都更全面一些。

在模式中有六种可以选择,其中Office三件套(文档、PPT、表格)还都是专家模式。

尤其是表格的首发,让AI生成数据表格和图标,这是其他Agent产品尚且还不具备的。

而这次通用模式,它可以生成音乐、MV、宣传片、绘本、有声书等内容。昆仑万维过去在多模态技术上的多方面探索这次沉淀下来,并且All in One

此外它还可以细分场景,基本上我们日常生活工作高频场景都覆盖了。

这样拆分其实简化了用户的流程,不需要再去多思考如何想提示词,只需选定一个模式和场景,简单地提出一个需求就可以搞定,直接降低了使用门槛。

当然有一些详细需求且里面的场景没有涉及到,也跟其他Agent/AI助手一样,支持「通用」场景和模式。

比如生成个游戏/网页,研究报告啥的。

  • 我是个技术小白,我想从零做一个小游戏的微信小程序,要真正能够上线分享给其他人的,请问我应该一步步怎么做,给我写一个详细完整的攻略和教程,要具有实际可操作性,步骤要清晰,阅读起来不要太费劲。

  • 给我做个网页,一个tab是微信聊天界面,另一个tab是朋友圈,模拟历史上的各位皇帝在聊天和发朋友圈,要符合各个皇帝的性格和特点,然后互相还会在朋友圈点赞,增加一个继续看的按钮,每次点击都会触发新的聊天和朋友圈事件。

整体看下来,其他智能体有的它都有,而且产品功能设计得更贴合用户习惯,大大简化了用户使用门槛。

那就来看看它的真本事~彻底地来实测感受一下。

实测天工超级智能体:真正对打工人友好

这次天工超级智能体(Skywork Super Agents)支持了Office三件套,据说还做了专门的优化,那就来看看它的实力所在。

首先来看看PPT模式。

  • 主题:大模型与智能体科普,目标:中小学生

在如此简单的提示词驱动下,它就开始运作了。当然除了Prompt,也可以投喂资料或你的个人知识库内容,可以是图片、在线文档、网页、PDF。

发起任务后,它会根据任务生成一个表单, 你可以跳过也可以修改,这样让需求更具体。

这样也能让它更能get你的需求,避免没有搞清楚就开干。这是不是比工作伙伴靠谱聪明多了(Bushi)。

确认需求之后,它会生成一个「待办清单」,包括收集、整理、生成大纲到制作等详细步骤,这里也有一个「确认」的操作需要你来执行,有任何补充也都OK。

整个过程在一些关键节点上都会有这种把关的「表单」需要你来执行,比如确认PPT大纲,当然也可以跳过。总之就是关键步骤更可控,而不是一股脑地完成,避免一步错步步错,让它最后完成的结果也能更符合你的预期。

在使用各种MCP依次完成步骤之后,来看看生成的结果,整体看上去还是不错。

风格和排版设计也很契合中小学生这一群体,仔细一看还会发现有动画效果?!可以说是很全面了,毕竟我就不会弄这个。

里面的案例也不局限于文本这一形式,还有视频、图片等多种模态穿插,而且也都是可溯源的真实案例,是真正可以直接拿出去用的程度。

这种高可用的特点,其实还挺惊艳的。

毕竟不是所有Agent平台都能生成这么丰富的多模态内容,也不是所有平台生成的内容都真实可用,但此处天工超级智能体(Skywork Super Agents)两者都实现了,不仅有用还好用,对于用户来说还敢直接在真实场景中使用。

而要是需要微调内容,它也支持「可编辑」,文字所到之处,都可以进行调整。

最后支持PPT、PDF以及HTML导出。

值得一提的是,在要完成其他的需求或者需要跳转其他的任务时,可以将它置于后台自行运作。然后就静静地等待它完成之后来「通知」你。

之前使用其他Agent可能还会担心置于后台就不干活的情况,经过这一番实测来看,它生成过程以及结果都还挺稳定的。

这种「通知」的设置,真的就有种拥有一个打工助理的感觉:你忙你的,我做我的,我做完再跟你汇报~

接下来再来试试其他两件套:Excel和Word模式

Excel模式下,要求它统计GitHub上热门的MCP项目,要求有项目名称、作者、Star数。在确认具体需求之后,它就开始运作了。

得到的结果是酱婶的~能够看到项目都是最新更新的,最后还附带了个Star排名表。

再来看看word模式:AI产品经理的面试指南,要求给问答清单写优秀示例。

最后这些生成的内容,都可以储存在知识库中,也可以自己上传pdf、doc、ppt、xls等多种格式的文件,可以上传录音,也可以上传url和youtube视频播放地址。每个知识库支持上传最多50个文档,方便之后可以调用。

适合工作场景的「三件套」模式说完了,通用模式其实更有意思。它集成了十余个MCP,包括网页搜索、图片搜索、网页爬取、文档搜索、思考分析、图片生成、图片理解、语音生成、音乐生成、视频生成、股票查询等。

于是在各种工具混合之后,就可以生成一些酷炫的产物,比如MV、宣传片、有声书、绘本……

  • 帮我生成一个小猫的旅行vlog,内容分别是小猫到法国埃菲尔铁塔、美国自由女神像、中国长城、澳大利亚悉尼歌剧院、埃及金字塔、印度泰姬陵、日本富士山等地旅游并与这些著名景点自拍合照,配乐轻松欢快。

最后,他们还考虑到了开发者,也就是今天,他们在GitHub上开源了DeepResearch Agent框架。并且把生成「三件套」的能力,集成MCP,供开发者调用。

DeepResearch Agent框架开源:https://github.com/SkyworkAI/DeepResearchAgent

MCP地址:https://mcp.so/server/skywork-super-agents/Skywork-ai

智能体从有用、敢用到好用

整个产品体验下来,能够感知到的是,AI Agent赛道从“技术秀场”向“真实生产力工具”的跨越。

首先,它不仅以GAIA榜单冠军和SimpleQA评分第一的成绩证明了技术能力的领先。

它还更通过一系列基于用户特点的产品设计,比如Office三件套深度优化、多模态一站式生成和可溯源可编辑的交互设计,重新定义了智能体的价值标准:

从“有用”到“敢用”,最终实现“好用”

智能体虽然能够让AI开始触达到真实任务执行中去,但往往会因生成内容有限,结果不可控被职场人束之高阁,但天工超级智能体(Skywork Super Agents)正在打破这样的信任壁垒。

比如全链路可控,从“需求确认-大纲审核-内容溯源”,让用户随时介入关键决策点,而且交付流程稳定,后台任务持续运行的特点,解决了AI工具“半成品烂尾”的痛点……用户才敢真正将核心工作交付给智能体。

此外,天工的好用易用其实并非简单的界面优化,而是围绕“真实需求-可用结果”一整套的闭环设计。

场景化入口将“提示词工程”转化为“选模式-填需求”的极简操作,私人知识库支持导入企业文档、会议记录等私有数据,让输出结果天然贴合用户知识体系;真实场景中往往数据类型更为复杂,还会涉及跨模态联动,智能体能够做到多模态一站式生成,落地场景就可以进一步得到延伸和扩展。

当下,全球Agent赛道激战正酣,OpenAI、Google等巨头押注通用智能体,还有一群像Genspark、Manus争先恐后的创业玩家。

中国玩家们,以天工超级智能体(Skywork Super Agents)的突破为例,其实正在探索一条更本质的进化路径:

AI的价值不在于炫技刷榜,而是针对真实用户体验,甚至可以让人忘记技术所在。

这场“有用→敢用→好用”的进化,或许正是撬动AI大规模落地的终极密码。

目前海外版国内版均已上线,可戳下方链接体验哦~

海外版:https://skywork.ai
国内版:https://tiangong.cn

特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相关推荐
热点推荐
5年前,他靠核酸检测设备2年狂入222亿,扬言活120岁,如今咋样

5年前,他靠核酸检测设备2年狂入222亿,扬言活120岁,如今咋样

芳芳历史烩
2026-01-25 10:06:32
40岁无腿廖智现状:赴美产下四胎女儿,被美籍丈夫宠成大公主

40岁无腿廖智现状:赴美产下四胎女儿,被美籍丈夫宠成大公主

暖心萌阿菇凉
2026-02-02 22:59:12
2026年开始,长期低谷结束,慢慢走稳上坡路的三个星座

2026年开始,长期低谷结束,慢慢走稳上坡路的三个星座

小晴星座说
2026-02-03 18:52:42
紧张局势升级之际,美媒:一架俄罗斯重型运输机降落在古巴一空军基地

紧张局势升级之际,美媒:一架俄罗斯重型运输机降落在古巴一空军基地

环球网资讯
2026-02-03 19:03:09
80岁拾荒老太被富二代砸烂三轮车,她淡定拨通号码:儿子帮我个忙

80岁拾荒老太被富二代砸烂三轮车,她淡定拨通号码:儿子帮我个忙

白云故事
2026-01-30 11:40:09
杨兰兰搬新家,入住顶级海景公寓!同楼层房源周租高达$8500

杨兰兰搬新家,入住顶级海景公寓!同楼层房源周租高达$8500

澳洲红领巾
2026-02-04 14:13:33
2.37亿惊天差距!C罗矛头调转:非对家新月或本泽马?

2.37亿惊天差距!C罗矛头调转:非对家新月或本泽马?

生活新鲜市
2026-02-04 17:06:09
一旦战争爆发,伊朗唯一活路,就是把那一万枚导弹一次全打出去!

一旦战争爆发,伊朗唯一活路,就是把那一万枚导弹一次全打出去!

议纪史
2026-02-03 18:45:05
大陆高层给出台阶、国民党不下,闭口不谈统一?郑丽文说出心里话

大陆高层给出台阶、国民党不下,闭口不谈统一?郑丽文说出心里话

蛙斯基娱乐中
2026-02-04 11:13:56
容易出轨的人,有几个典型的特征

容易出轨的人,有几个典型的特征

叶飞飞情感屋
2026-02-04 18:20:22
个人股东分红,不用缴个税了!

个人股东分红,不用缴个税了!

审计之家
2026-01-28 19:58:41
“继承权”无需再争!2026新规落地:父母房产按“这些规则”处理

“继承权”无需再争!2026新规落地:父母房产按“这些规则”处理

复转这些年
2026-01-27 03:00:03
2026春晚第三次联排落幕,小品演员大换血,赵本山的担心恐成真

2026春晚第三次联排落幕,小品演员大换血,赵本山的担心恐成真

手工制作阿歼
2026-02-05 00:54:03
“难怪大学生不爱回家了”,江苏母亲晒客厅,有钱也改变不了心累

“难怪大学生不爱回家了”,江苏母亲晒客厅,有钱也改变不了心累

泽泽先生
2026-02-03 21:23:06
ESPN:哈登和伦纳德私下并无深交,两人甚至从未去过对方家里

ESPN:哈登和伦纳德私下并无深交,两人甚至从未去过对方家里

懂球帝
2026-02-04 13:37:26
涨!涨!涨!苏州384个小区抗住了降价潮!

涨!涨!涨!苏州384个小区抗住了降价潮!

苏南房地产观察
2026-02-04 13:45:56
24岁小伙爱上51岁大妈,大妈性欲高还虐待他,结果被小伙砍成5段

24岁小伙爱上51岁大妈,大妈性欲高还虐待他,结果被小伙砍成5段

胖胖侃咖
2024-04-22 08:00:09
刘震云:凡是夫妻关系好的,都有一个共性,妻子允许丈夫做自己..

刘震云:凡是夫妻关系好的,都有一个共性,妻子允许丈夫做自己..

诗词中国
2025-10-11 19:09:33
张萌 紧身瑜伽裤穿搭,天生尤物前凸后翘身材太性感迷人

张萌 紧身瑜伽裤穿搭,天生尤物前凸后翘身材太性感迷人

冒泡泡的鱼儿
2026-02-05 01:32:00
国家账户只剩217美元,从非洲粮仓到穷得吃老鼠,这波操作简直绝了,这事怎么闹的?

国家账户只剩217美元,从非洲粮仓到穷得吃老鼠,这波操作简直绝了,这事怎么闹的?

老杉说历史
2026-02-04 18:58:14
2026-02-05 02:48:49
量子位 incentive-icons
量子位
追踪人工智能动态
12112文章数 176370关注度
往期回顾 全部

科技要闻

太烦人遭投诉!元宝红包链接被微信屏蔽

头条要闻

女子痛斥爱泼斯坦:我一次又一次被强奸 他禽兽不如

头条要闻

女子痛斥爱泼斯坦:我一次又一次被强奸 他禽兽不如

体育要闻

哈登回应交易:不想让自己拖累快船的未来

娱乐要闻

春晚主持人阵容曝光,5位都是老面孔

财经要闻

白银,突然暴涨

汽车要闻

综合续航1730km 5座中级电混SUV吉利银河M7官图发布

态度原创

教育
家居
时尚
本地
军事航空

教育要闻

数学提分,往往从复盘开始

家居要闻

灰白意境 光影奏鸣曲

60岁的刘嘉玲、章小蕙太美了!港女的魅力从不是少女感

本地新闻

围观了北京第一届黑色羽绒服大赛,我笑疯了

军事要闻

卡扎菲儿子被暗杀:4名蒙面人员闯入住所

无障碍浏览 进入关怀版