网易首页 > 网易号 > 正文 申请入驻

OpenAI发布ChatGPT Agent:部分能力超越人类,但做电子表格仍不如人类

0
分享至

7月,OpenAI尚未按照此前计划发布GPT-5,智能体方面的更新先行面世了。

北京时间7月18日凌晨,OpenAI直播发布了ChatGPT Agent,这一智能体融合了Operator智能体网页交互能力以及Deep Research功能,使ChatGPT内置计算机能帮助用户完成复杂的多步骤任务。

“现在ChatGPT可以思考和行动,能主动从技能工具箱中选择工具,完成一些任务。”OpenAI介绍,这些任务包括“查看我的日历并根据近期新闻介绍即将举行的会议”“分析三个竞争对手并创建幻灯片”等。此外,用户还可以执行一些重复任务,例如将屏幕截图转换为可编辑PPT、用新的财务数据更新电子表格、重新安排会议。

据介绍,ChatGPT的工作过程包括浏览网站、过滤结果、提醒用户登录相关账号、运行账号、分析、创建电子表格和幻灯片。

此前OpenAI曾单独发布Operator和Deep Research功能,其中Operator也是一个智能体,可以滚动、点击网页,帮用户完成餐厅预订等任务,Deep Research则主要面向信息深度分析和整合任务。OpenAI称,此次ChatGPT的核心更新是创建了一个统一的智能体系统,使Operator调动网站的能力、Deep Research整合信息的能力、ChatGPT对话能力融为一体。此次发布的智能体系统可以调用可视化浏览器、文本浏览器、终端工具、API接口,分别可用于与网页交互、处理大量文本、运行代码或下载文件、访问GitHub等应用数据。

从基准测试表现看,在跨学科专家级测试Humanity’s Last Exam中,ChatGPT Agent回答准确率为41.6%,超过Deep Research的26.6%、o3模型的24.9%;在数学基准测试FrontierMath中,ChatGPT Agent准确率为27.4%,高于o4 mini的19.3%和o3的10.3%;在针对真实知识工作任务的内部评测中,ChatGPT Agent在约半数案例中的表现与人类持平或超过人类;在现实数据科学任务DSBench测试中,ChatGPT的分析与建模准确率分别为89.9%和85.5%,超过人类水平;在衡量模型承担一到三年投资银行分析师建模任务能力的内部基准上,准确率高于o3和Deep Research。

不过,虽然ChatGPT Agent在SpreadsheetBench测试(评估模型编辑真实场景电子表格的能力)中,表现超过OpenAI的其他模型,但其最高得分45.5%还是远低于人类得分71.3%。

OpenAI称,此次更新是一个开始,公司将继续定期迭代改进。

Agent的能力很大程度上取决于基础模型的能力。发布ChatGPT Agent后,OpenAI最受关注的更新还是推出GPT-5。此前OpenAI CEO奥尔特曼表示,GPT-5可能于今年夏天推出,OpenAI代表此前也曾透露,初步预计的发布时间是在今年7月。当前,面对来自DeepSeek等厂商的竞争,OpenAI还是需要通过推出新的基础模型来证明自身的领先地位。

从Agent演进上看,有Agent开发者告诉记者,今年Agent预计可以在数十步较复杂的工具调用中,做到90%的准确率,基本达到可商用状态。但基础模型的能力还是还有所欠缺,基础模型还难以做到自主调用上万个工具并自主执行。

特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相关推荐
热点推荐
越媒:为何越南U23三天前惨败给中国,三天后就战胜了韩国?

越媒:为何越南U23三天前惨败给中国,三天后就战胜了韩国?

星耀国际足坛
2026-01-24 13:45:33
法国退出北约,动议已提交给法国议会!

法国退出北约,动议已提交给法国议会!

达文西看世界
2026-01-18 17:30:27
双色球再现“顺子尾号”?井喷出现32注大奖,彩民:这运气太假?

双色球再现“顺子尾号”?井喷出现32注大奖,彩民:这运气太假?

复转这些年
2026-01-24 23:56:50
深夜利好!100亿商业航天龙头即将IPO,核心受益股有这21个龙头

深夜利好!100亿商业航天龙头即将IPO,核心受益股有这21个龙头

鹏哥投研
2026-01-24 09:22:21
陈孝良蒋林伶官宣结婚,两人参与恋爱综艺相识并牵手

陈孝良蒋林伶官宣结婚,两人参与恋爱综艺相识并牵手

韩小娱
2026-01-24 10:22:40
女游客在新疆被雪豹咬伤面部,“雪山之王”为何亮出獠牙?

女游客在新疆被雪豹咬伤面部,“雪山之王”为何亮出獠牙?

新民周刊
2026-01-24 18:13:18
铁证如山!高市火速“跑路”,安倍晋三死因逆转,凶手竟是受害人

铁证如山!高市火速“跑路”,安倍晋三死因逆转,凶手竟是受害人

妙知
2026-01-23 16:37:53
饲养员用金属锁多次猛砸小象头部,西双版纳野生动物园致歉:饲养员操作不规范,已严肃批评教育

饲养员用金属锁多次猛砸小象头部,西双版纳野生动物园致歉:饲养员操作不规范,已严肃批评教育

封面新闻
2026-01-24 19:19:03
顶流就是顶流,到哪儿都发光!

顶流就是顶流,到哪儿都发光!

碧波万览
2026-01-25 00:26:16
特朗普通告全球,不许减持美国国债;中方还剩6830亿,游戏已结束

特朗普通告全球,不许减持美国国债;中方还剩6830亿,游戏已结束

影孖看世界
2026-01-23 23:49:11
4年时间门店从0增至960家,全国开店的零食品牌,如今陷入闭店争议!官方回应:主动放缓是策略,不是叫停加盟

4年时间门店从0增至960家,全国开店的零食品牌,如今陷入闭店争议!官方回应:主动放缓是策略,不是叫停加盟

每日经济新闻
2025-12-28 23:52:06
半场2球落后!媒体人热议:中国队不可谓不努力 硬实力确实有差距

半场2球落后!媒体人热议:中国队不可谓不努力 硬实力确实有差距

画夕
2026-01-25 00:04:18
广东双杀山西,赛后4个好消息和1个坏消息,跟队记者透露徐杰伤情

广东双杀山西,赛后4个好消息和1个坏消息,跟队记者透露徐杰伤情

邹维体育
2026-01-24 22:45:58
藏匿9年的本·拉登:5米高墙铁丝网防护,致命破绽是院中晾衣绳

藏匿9年的本·拉登:5米高墙铁丝网防护,致命破绽是院中晾衣绳

通鉴史智
2026-01-23 14:52:23
整天开会有啥必要啊?

整天开会有啥必要啊?

北京老付
2026-01-20 10:59:33
捡走吃掉赔8000元!2023年捡到一只回家煲汤,被人发现时只剩骨头

捡走吃掉赔8000元!2023年捡到一只回家煲汤,被人发现时只剩骨头

万象硬核本尊
2026-01-22 19:47:55
重兵压境 航母静默 美国真要对伊朗动手了?

重兵压境 航母静默 美国真要对伊朗动手了?

上游新闻
2026-01-23 20:24:12
好看的打扮不管在哪,都很吸引人

好看的打扮不管在哪,都很吸引人

美女穿搭分享
2026-01-01 11:01:35
国乒男单新榜样!小将夺冠专赢欧美壮汉,比王楚钦林诗栋特点突出

国乒男单新榜样!小将夺冠专赢欧美壮汉,比王楚钦林诗栋特点突出

三十年莱斯特城球迷
2026-01-24 22:26:49
今晚,一起为中国队加油!极目新闻全平台直播U23国足冲击亚洲之巅

今晚,一起为中国队加油!极目新闻全平台直播U23国足冲击亚洲之巅

极目新闻
2026-01-24 13:05:50
2026-01-25 00:56:49
第一财经资讯 incentive-icons
第一财经资讯
第一财经官方账号
242444文章数 621291关注度
往期回顾 全部

科技要闻

黄仁勋现身上海菜市场

头条要闻

张又侠、刘振立被查 解放军报发布社论

头条要闻

张又侠、刘振立被查 解放军报发布社论

体育要闻

当家球星打替补,他们在故意摆烂?

娱乐要闻

回归还是顶流 凤凰传奇将现身马年春晚

财经要闻

“百年老字号”张小泉遭60亿债务压顶

汽车要闻

有增程和纯电版可选 日产NX8或于3-4月间上市

态度原创

教育
本地
房产
手机
数码

教育要闻

高考地理中的赛事经济

本地新闻

云游中国|格尔木的四季朋友圈,张张值得你点赞

房产要闻

正式官宣!三亚又一所名校要来了!

手机要闻

消息称三星Exynos 2600芯片GPU性能超越骁龙8 Elite Gen 5

数码要闻

UnifyDrive UC250/450 Pro家庭存储NAS发布,配置与价格曝光

无障碍浏览 进入关怀版