网易首页 > 网易号 > 正文 申请入驻

OpenAI发布ChatGPT Agent:部分能力超越人类,但做电子表格仍不如人类

0
分享至

7月,OpenAI尚未按照此前计划发布GPT-5,智能体方面的更新先行面世了。

北京时间7月18日凌晨,OpenAI直播发布了ChatGPT Agent,这一智能体融合了Operator智能体网页交互能力以及Deep Research功能,使ChatGPT内置计算机能帮助用户完成复杂的多步骤任务。

“现在ChatGPT可以思考和行动,能主动从技能工具箱中选择工具,完成一些任务。”OpenAI介绍,这些任务包括“查看我的日历并根据近期新闻介绍即将举行的会议”“分析三个竞争对手并创建幻灯片”等。此外,用户还可以执行一些重复任务,例如将屏幕截图转换为可编辑PPT、用新的财务数据更新电子表格、重新安排会议。

据介绍,ChatGPT的工作过程包括浏览网站、过滤结果、提醒用户登录相关账号、运行账号、分析、创建电子表格和幻灯片。

此前OpenAI曾单独发布Operator和Deep Research功能,其中Operator也是一个智能体,可以滚动、点击网页,帮用户完成餐厅预订等任务,Deep Research则主要面向信息深度分析和整合任务。OpenAI称,此次ChatGPT的核心更新是创建了一个统一的智能体系统,使Operator调动网站的能力、Deep Research整合信息的能力、ChatGPT对话能力融为一体。此次发布的智能体系统可以调用可视化浏览器、文本浏览器、终端工具、API接口,分别可用于与网页交互、处理大量文本、运行代码或下载文件、访问GitHub等应用数据。

从基准测试表现看,在跨学科专家级测试Humanity’s Last Exam中,ChatGPT Agent回答准确率为41.6%,超过Deep Research的26.6%、o3模型的24.9%;在数学基准测试FrontierMath中,ChatGPT Agent准确率为27.4%,高于o4 mini的19.3%和o3的10.3%;在针对真实知识工作任务的内部评测中,ChatGPT Agent在约半数案例中的表现与人类持平或超过人类;在现实数据科学任务DSBench测试中,ChatGPT的分析与建模准确率分别为89.9%和85.5%,超过人类水平;在衡量模型承担一到三年投资银行分析师建模任务能力的内部基准上,准确率高于o3和Deep Research。

不过,虽然ChatGPT Agent在SpreadsheetBench测试(评估模型编辑真实场景电子表格的能力)中,表现超过OpenAI的其他模型,但其最高得分45.5%还是远低于人类得分71.3%。

OpenAI称,此次更新是一个开始,公司将继续定期迭代改进。

Agent的能力很大程度上取决于基础模型的能力。发布ChatGPT Agent后,OpenAI最受关注的更新还是推出GPT-5。此前OpenAI CEO奥尔特曼表示,GPT-5可能于今年夏天推出,OpenAI代表此前也曾透露,初步预计的发布时间是在今年7月。当前,面对来自DeepSeek等厂商的竞争,OpenAI还是需要通过推出新的基础模型来证明自身的领先地位。

从Agent演进上看,有Agent开发者告诉记者,今年Agent预计可以在数十步较复杂的工具调用中,做到90%的准确率,基本达到可商用状态。但基础模型的能力还是还有所欠缺,基础模型还难以做到自主调用上万个工具并自主执行。

特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相关推荐
热点推荐
破案!陈家政表现神勇杜锋却全程黑脸原因找到,现场球迷说出实情

破案!陈家政表现神勇杜锋却全程黑脸原因找到,现场球迷说出实情

后仰大风车
2026-03-26 08:15:08
14亿人集体买房,为什么最后买出了一个烂摊子?

14亿人集体买房,为什么最后买出了一个烂摊子?

流苏晚晴
2026-03-25 18:14:02
凯特戴6000块的帽子险出洋相!助手说漏嘴,意外爆出威廉的瓜?

凯特戴6000块的帽子险出洋相!助手说漏嘴,意外爆出威廉的瓜?

白露文娱志
2026-03-26 16:41:18
电影《挽救计划》高口碑热映 以跨文明协作诠释守望相助温暖内核

电影《挽救计划》高口碑热映 以跨文明协作诠释守望相助温暖内核

封面新闻
2026-03-26 18:56:02
定了!全票通过!杜兰特又要换队……

定了!全票通过!杜兰特又要换队……

贵圈真乱
2026-03-26 11:35:13
伊朗计划向通过霍尔木兹海峡的船只收取安全通行费

伊朗计划向通过霍尔木兹海峡的船只收取安全通行费

新浪财经
2026-03-26 20:28:52
独家:某运营商2025年营收几乎0增长! 好日子快到头了! 其实三大运营商日子都那样!

独家:某运营商2025年营收几乎0增长! 好日子快到头了! 其实三大运营商日子都那样!

新浪财经
2026-03-24 22:43:29
俄罗斯人想不明白:为什么强大的中国,几千年都不要西伯利亚?

俄罗斯人想不明白:为什么强大的中国,几千年都不要西伯利亚?

贱议你读史
2026-03-26 00:07:41
国金证券:长期来看黄金有望开启新一轮大牛市

国金证券:长期来看黄金有望开启新一轮大牛市

财联社
2026-03-26 08:08:04
蒙古总理当众给斯大林一耳光,走出宴会厅3小时后,被扣上间谍帽子枪决

蒙古总理当众给斯大林一耳光,走出宴会厅3小时后,被扣上间谍帽子枪决

老杉说历史
2026-03-23 22:17:08
波兰磨刀:谁将是压垮俄罗斯的最后一根稻草

波兰磨刀:谁将是压垮俄罗斯的最后一根稻草

民间胡扯老哥
2026-03-23 18:56:09
3轮0球0助攻!U23国足天才新星踢中超状态断崖式下滑,恐沦为鸡肋

3轮0球0助攻!U23国足天才新星踢中超状态断崖式下滑,恐沦为鸡肋

零度眼看球
2026-03-26 07:41:28
3月26日下午中国女排!传来朱婷、李盈莹、袁心玥最新消息

3月26日下午中国女排!传来朱婷、李盈莹、袁心玥最新消息

民哥台球解说
2026-03-26 16:17:49
崩了,知名光伏公司大规模停产,大面积待岗!

崩了,知名光伏公司大规模停产,大面积待岗!

黯泉
2026-03-25 21:36:39
随着朝鲜1-1,泰国2-2,西安邀请赛积分榜出炉:中国男足排名第一

随着朝鲜1-1,泰国2-2,西安邀请赛积分榜出炉:中国男足排名第一

侧身凌空斩
2026-03-25 21:41:35
法媒:“伊朗战争的首个受害者是真相”

法媒:“伊朗战争的首个受害者是真相”

参考消息
2026-03-26 13:30:07
国足VS库拉索:留洋小将坐镇中场,韦世豪王钰栋领衔,张玉宁冲锋

国足VS库拉索:留洋小将坐镇中场,韦世豪王钰栋领衔,张玉宁冲锋

零度眼看球
2026-03-26 07:23:48
不能光让特朗普出风头,俄罗斯宣布重大消息:和中国有大事要谈

不能光让特朗普出风头,俄罗斯宣布重大消息:和中国有大事要谈

哎呀哎呀看电影
2026-03-26 19:41:54
站在c位的是谁?张怡宁和郭晶晶两位同框,她在中间看着气场不小

站在c位的是谁?张怡宁和郭晶晶两位同框,她在中间看着气场不小

陈意小可爱
2026-03-26 07:59:48
逐玉爆火后最大的受益者,51岁翻红,涨粉百万!

逐玉爆火后最大的受益者,51岁翻红,涨粉百万!

娱人细品
2026-03-25 20:39:14
2026-03-26 21:00:49
第一财经资讯 incentive-icons
第一财经资讯
第一财经官方账号
248301文章数 621904关注度
往期回顾 全部

科技要闻

Meta高管狂分百亿期权,700名员工却下岗

头条要闻

张雪峰留巨额遗产:二婚妻子或拿50% 剩下的女儿占1/3

头条要闻

张雪峰留巨额遗产:二婚妻子或拿50% 剩下的女儿占1/3

体育要闻

申京努力了,然而杜兰特啊

娱乐要闻

刘晓庆妹妹发声!称姐姐受身边人挑拨

财经要闻

油价"驯服"特朗普?一到100美元就TACO

汽车要闻

一汽奥迪A6L e-tron开启预售 CLTC最大续航815km

态度原创

本地
手机
旅游
时尚
公开课

本地新闻

救命,这只酱板鸭已经在我手机复仇了一万遍

手机要闻

OPPO K15 Pro系列突然官宣:天玑9500s+主动散热,4月1日发布

旅游要闻

20元人民币背景观景台乱收费?景区通报:不存在封闭管控、强制收费等

上新|| 她们说,找到了自己的人生裙子!

公开课

李玫瑾:为什么性格比能力更重要?

无障碍浏览 进入关怀版