网易首页 > 网易号 > 正文 申请入驻

Agent 要被吃进大模型了

0
分享至

  OpenAI 做 Agent,得天独厚。

  作者丨郑佳美

  编辑丨马晓宁

  今天凌晨,奥特曼突然发文宣布推出自家最新的 o 系列模型:满血版 o3 和 o4-mini,同时表示这两款模型都可以自由调用 ChatGPT 里的各种工具,包括但不限于图像生成、图像分析、文件解释、网络搜索、Python。

  总的来说,就是比前一代的性能更强而且价格更低

  消息一出,马上就有网友晒出了两个模型的“小球测试”结果,并配文:“这确实是迄今为止看到的最好的测试结果了。”

  

  也有网友晒出了满血版 o3 和 o4-mini 在 HLM 基准的中的排名,其中 OpenAI 的两款新模型仅用了几个小时的时间就稳稳的“盘”上了榜单前三,引得网友大呼震惊。

  1

  o3 与 o4 mini 全面进化

  除了网友们的测评结果外,我们也来看一下 OpenAI 给出的两个模型的官方数据。

  首先,o3 在多个基准测试中表现优异,包括 Codeforces、SWE-bench 和 MMMU 等,刷新了多项纪录。除此之外,o3 在应对复杂现实任务时,比 OpenAI o1 减少了 20% 的重大错误,尤其在编程、商业咨询和创意构思领的方面能力最为突出。

  o4 mini 这边,别看它体量不大,但专为快速、高效的推理任务而设计,可以支持比 o3 更高的使用频率。

  在数学、编程和视觉任务上的表现依然非常亮眼。在 2025 年 AIME 数学竞赛中,借助 Python 解释器的帮助,o4-mini 取得了99.5%的高分,几乎达到了该测试的满分水平。专家评估同样显示,它在非 STEM 任务以及数据科学领域的表现已经超越了 o3-mini。

  此外,o3 和 o4-mini 首次实现了将图像直接融入思维链的能力,它们不仅“看得见”图像,更能“通过图像思考”。这带来了视觉与文本推理的全新融合方式,显著提升了它们在多模态任务中的表现。

  关于这点,OpenAI 图像推理研究员 Jiahui Yu 发文称:“自最初推出 o 系列以来,“图像思考”始终是我们在感知领域的核心战略之一。早期发布的 o1 vision,曾为这一方向提供了初步的探索与预览;而如今,随着 o3 和 o4-mini 的发布,这一战略终于以更为成熟和完整的形式落地。多模态能力的持续演进,不仅推动了模型在理解世界方式上的跃升,也成为 OpenAI 实现 AGI 愿景中不可或缺的关键一环。”

  模型性能毋庸置疑,而关于这两款模型可以自由调用 ChatGPT 里的各种工具的能力,OpenAI 首席研究官 Mark Chen 也发文表示:一旦推理模型学会了端到端地使用工具,它们就会变得更加强大,而最新的 o 系列模型正在“向未来迈出的质的一步”。

  所谓“质的一步”,无非是将大模型的能力扩展到目前最火的 Agent 领域,值得一提的是,这已经不是 OpenAI 第一次向 Agent 领域进发了。

  今年年初,OpenAI 接连推出 Operator 和 Deep Research 两个产品宣告向 Agent 进发,在此之前,他们还推出过一个类似于代办助手的 Agent 产品 —— ChatGPT tasks,来试了试水花。

  而这次的满血版 o3 和 o4 mini 则是支持直接调用 ChatGPT 里的各种工具,从之前的“聪明大脑”直接进化为了“灵巧双手”。

  有网友在试过了 o3 最新模型的调用能力后表示,模型帮他做了一些需要跨工具才能完成的工作,这让他感觉到了 Agent 给人们带来的便捷。

  2

  OpenAI 做 Agent,得天独厚

  关于如何才能做出真正的 Agent,目前坊间的主流观点是:强化学习加基座模型。

  但在 Agent 的实际研发中,大多数专注于 Agent 的公司并不具备自研基座模型的能力,能够组建强化学习团队的更是凤毛麟角。它们唯一的机会,往往在于依靠强悍的工程能力持续打磨产品体验,或通过差异化定位,探索某些功能层面的创新。

  然而,由于缺乏底层模型的掌控权,这样的努力终究只是为自己在与大模型公司的赛道上争取些许缓冲时间。正因如此,那些具备训练基础模型能力的公司,在开发 Agent 时,往往能够实现事半功倍的效果,占据天然优势。

  巧合的是,Deep Research 团队曾在多次访谈中强调,他们认为基于强化学习的端到端训练是当前 Agent 技术变革的关键所在,原因在于强化学习能够有效突破传统 AI 系统在复杂场景中面临的灵活性不足和泛化能力受限的问题。

  在此基础上,叠加 OpenAI 本身在基础模型上的强大优势,或许不久之后,Agent 就会被吃进 ChatGTP 的某个版本之中。

  一位长期从事 Agent 方向的研究人员曾对 AI 科技评论表示:“用强化学习训练 Agent,本质上更像是将语言模型的能力在特定环境中进行定向强化和适配。也就是说,强化学习更多是在帮助语言模型在某一特定场景中“训得很好”。然而,目前许多学术研究仍停留在使用较基础的 base model 进行环境内训练,这样的工作即便做到极致,其成果也往往只是某个环境下的“特化版本”,难以实现跨环境的泛化能力,因此其实际意义和应用价值仍然有限。”

  顺着这个点往下看,不难发现其实 OpenAI 已经同时掌握了基础模型和训练方式,拥有从底层能力到上层产品的完整控制权,也因此在定价方便拥有了更大的自主权。

  例如,Deep Research 的 Agent 以每月 200 美金的价格对外订阅,全部收入可以留在体系内部,而那些依赖第三方模型的独立 Agent 团队,不仅受到 API 成本和模型性能波动的限制,在产品定价上也显得捉襟见肘。

  “略知皮毛”不如洞彻本质,“套壳”并不是长久之计,这么一看,OpenAI 做 Agent,就得天独厚。

  3

  开源 Codex CLI

  新模型之外,OpenAI 还开源了一款本地代码智能体:Codex CLI。它是一个轻量级的编码助手,可直接在用户的终端命令行中运行,为的是充分发挥 o3、o4-mini 等模型的推理能力,紧密连接本地开发环境,未来还会支持 GPT 4.1 等其他模型。

  值得一提的是,它甚至支持通过截图或手绘草图进行多模态编程,直接刷新了代码交互与内容理解的边界。

  为了测试这个功能,在发布会的直播中,开发人员还现场用 Codex CLI 展示了一波实施摄影的 ASCII 画面,让不少直播间网友大呼:“Intresting!”

  https://x.com/sama/status/1912558495997784441

  https://news.ycombinator.com/item?id=43707719#43711155

  https://github.com/openai/codex

  https://x.com/jhyuxm/status/1912562461624131982

特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相关推荐
热点推荐
A股:反常迹象来了,今天盘面暗藏变数,周五走势大概率这样走

A股:反常迹象来了,今天盘面暗藏变数,周五走势大概率这样走

财经大拿
2026-06-04 13:48:10
新一轮强降雨6月6日登场,9省暴雨5大暴雨,雨停1天后在连下4天

新一轮强降雨6月6日登场,9省暴雨5大暴雨,雨停1天后在连下4天

老牛讲
2026-06-04 11:55:51
特朗普万万没想到,美媒关键时刻曝出大丑闻,居然与自己妻子有关

特朗普万万没想到,美媒关键时刻曝出大丑闻,居然与自己妻子有关

安逸安逸
2026-06-04 01:35:11
余秋雨在印考察很沮丧,印前部长安慰:中国再过25年就能赶上我们

余秋雨在印考察很沮丧,印前部长安慰:中国再过25年就能赶上我们

抽象派大师
2026-05-30 04:21:16
中组部明确:这八类人员列入公务员范围!

中组部明确:这八类人员列入公务员范围!

微法官
2026-06-02 08:55:27
郝劭文回台湾定居原因曝光,直播带货曾月赚近亿元,会赚更会做人

郝劭文回台湾定居原因曝光,直播带货曾月赚近亿元,会赚更会做人

以茶带书
2026-05-29 15:26:31
新冠后遗症的长期侵袭,无数人在不知不觉中深陷困境

新冠后遗症的长期侵袭,无数人在不知不觉中深陷困境

律法刑道
2026-04-01 10:15:47
中国3大禁地,个个重兵把守,无论哪一个被偷袭,都将视为宣战

中国3大禁地,个个重兵把守,无论哪一个被偷袭,都将视为宣战

抽象派大师
2026-05-28 00:06:41
奚梦瑶天价彩礼曝光:这不是婚礼,是审计报告,算完账都清醒了

奚梦瑶天价彩礼曝光:这不是婚礼,是审计报告,算完账都清醒了

东方不败然多多
2026-06-04 02:01:08
澡堂里衣服一脱,女人真的不一样,藏不住的

澡堂里衣服一脱,女人真的不一样,藏不住的

荷兰豆爱健康
2026-06-03 19:38:30
40天拿下巴西4座金矿:洛阳钼业,冲上云霄

40天拿下巴西4座金矿:洛阳钼业,冲上云霄

牛刀财经
2026-06-04 11:59:42
漫威亲手推翻10年布局?《复仇者联盟5》宣布“从零开始”重置整个宇宙

漫威亲手推翻10年布局?《复仇者联盟5》宣布“从零开始”重置整个宇宙

追星雷达站
2026-06-03 01:01:52
4号午评:长线外资看好中国持续加码硬科技,大盘后市将何去何从

4号午评:长线外资看好中国持续加码硬科技,大盘后市将何去何从

春江财富
2026-06-04 11:51:59
世联赛首日冰火两重天!中日女排差距肉眼可见,教练组问题是根源

世联赛首日冰火两重天!中日女排差距肉眼可见,教练组问题是根源

金毛爱女排
2026-06-04 09:24:42
雷雨+7级大风+小冰雹,北京发布雷电蓝色预警!预计时段——

雷雨+7级大风+小冰雹,北京发布雷电蓝色预警!预计时段——

BRTV新闻
2026-06-04 09:26:26
一位施工员择偶标准:满足不了我这4个要求的女人,不配嫁我

一位施工员择偶标准:满足不了我这4个要求的女人,不配嫁我

施工员小天哥
2026-06-04 15:17:57
卡尔德隆:弗洛伦蒂诺有脸把签C罗归给自己

卡尔德隆:弗洛伦蒂诺有脸把签C罗归给自己

懂球帝
2026-06-04 05:54:05
有望见证时隔24年夺冠!CBA总决赛G5球票全部售罄 二手平台卖疯了

有望见证时隔24年夺冠!CBA总决赛G5球票全部售罄 二手平台卖疯了

狼叔评论
2026-06-03 17:31:13
一张斩首照,让澳洲全国暴怒:百万人报名参军,追杀到天涯海角

一张斩首照,让澳洲全国暴怒:百万人报名参军,追杀到天涯海角

凉州辞
2026-06-03 07:25:03
土地卖不动了,地方政府怎么办?

土地卖不动了,地方政府怎么办?

大川东山再起
2026-06-01 15:38:14
2026-06-04 15:55:00
AI科技评论 incentive-icons
AI科技评论
点评学术,服务AI
7335文章数 20755关注度
往期回顾 全部

科技要闻

历史最大IPO!马斯克下周冲击万亿富豪

头条要闻

德国在联大遭遇"惨败" 德外长指责俄罗斯

头条要闻

德国在联大遭遇"惨败" 德外长指责俄罗斯

体育要闻

欧冠决赛躺赢?他也曾是大巴黎的英雄

娱乐要闻

难怪奚梦瑶能嫁入豪门

财经要闻

SpaceX发行价135美元 6月12日上市交易

汽车要闻

北京现代5月销量强势反弹:国内17065辆 出口环比翻倍

态度原创

艺术
数码
手机
教育
军事航空

艺术要闻

唐寅『梅花册』

数码要闻

戴森V10 Optic无绳吸尘器国行发售,3299元

手机要闻

苹果最新iPhone隐私广告指责Chrome等浏览器存在追踪问题

教育要闻

你们微笑高考、轻松跨越,未来的路 你们只管勇往直前

军事要闻

美众议院要求特朗普停止对伊动武并撤军

无障碍浏览 进入关怀版