网易首页 > 网易号 > 正文 申请入驻

OpenAI 深夜推出最强模型主打 Agent 功能,顺便又来尝试革程序员的命了

0
分享至

  4 月 17 日凌晨,OpenAI 正式宣布推出目前 OpenAI 系列里能力最强的推理模型——o3 模型和 o4-mini 模型。

  去年 12 月,OpenAI 就预热过 o3 推理模型,当时强调的重点是 o3 模型在解决困难问题上的能力,要显著强于 OpenAI 第一代推理模型o1。

  而此次正式发布中,OpenAI 不仅强调了 o3 模型在能力上的领先性,同时还强调了 o3 的 Agent 能力,且强调 o3 是第一代能够在思维链中使用图像进行推理的模型。

  自主调用工具是 Agent 能力最重要的体现。OpenAI 表示,曾看到 o3 为了解一个特别难的任务,连续调用了大约 600 次工具。

  随着 OpenAI 的 O 系列、DeepSeek R1 等推理模型日趋成熟,业内普遍认为,只需一条指令即可完成整套任务的 AI Agent 能力将迎来显著提升。

  相比于 Google,Anthropic 等从去年就开始宣传 Agent 能力,甚至已经开始推动 MCP、A2A 等 Agent 协议普及的公司,OpenAI 之前在 Agent 能力上的布局相对缺失。而今天的发布,证明 OpenAI 在 Agent 能力上,仍然有自己的思考和布局。

  OpenAI 宣布,从今天开始,Plus、Pro 和 Team 用户就可以使用 o3 模型和 o4-mini 模型了,接下来几周还会推出 o3-pro 模型,替代过去的 o1-pro 模型。

  在彩蛋环节,OpenAI 还表示,未来将发布一系列编程工具,重新定义 AI 时代的编程,首发的是一个叫 Codex CLI 的开源轻量化编程 agent。Codex CLI 可以直接使用 OpenAI 的模型(最终包括 o3 和 o4-mini),接管本地计算机终端命令行界面,直接进行代码编写和文件移动等等。

  OpenAI 的展示很有意念编程(vibe coding)的味道了:直接在网页上截图了一个别人编程好的效果图,丢给 Codex CLI,跟它说做一个 html 文件复现这个效果,并做一些改动。很快,Codex CLI 就自己写了代码,调用了系统工具,复现出了一个类似的效果。

  OpenAI 今日的发布大致符合预期——o3 和 o4-mini 已经预热多时,视觉推理与 Agent 能力也早已在其他公司的模型中有所体现。

  不过,从今天的发布中仍能看出 OpenAI 在 Agent 等前沿方向上的布局节奏,以及将已有能力产品化的独特能力。

  OpenAI 的模型迭代,也再一次重新肯定了后训练 Scaling Law 的存在。目前看来,AI 模型在接下来几年,仍然会出现能力的快速进化,还未到达瓶颈。

  01

  OpenAI 的 Agent 能力,目前更多的是调用自身的工具

  OpenAI 此次发布的一大亮点在于 Agent 的能力。

  最初的两个展示都与工具调用能力有关。

  第一个展示是研究员给了 OpenAI 一个十年前写过的论文图片,让 o3 模型找到一个特定的结果,并和最新的研究成果进行比较。

  o3 模型首先利用内置的视觉推理能力,放大图片,找到了研究员想要的特定结果,然后根据图片中的内容进行推理,算出了论文推导的数值,然后使用搜索功能,查找了十篇论文,比较了最新研究成果与作者十年前论文的结果的区别,最后给出了自己的建议。

  第二个演示是研究员问 OpenAI,根据我的兴趣,读新闻,告诉我一些我可能感兴趣的事情。

  这个演示则利用的是 OpenAI 内置的记忆工具——OpenAI 几天前刚刚宣布 OpenAI 的模型目前有了可以访问用户全量记忆的能力。

  o3 模型先是访问记忆后,找出用户喜欢水肺潜水和弹奏音乐,然后利用搜索功能,找到了一条交叉两条兴趣的新闻:研究人员会录下健康珊瑚礁的声音,然后用水下扬声器在海里播放这些声音,以保护珊瑚。

  最后 o3 模型使用了 OpenAI 的 canvas 工具和数据分析工具,生成了一个漂亮的博客界面,完成了任务。

  可以看到,在 OpenAI 目前的布局当中,Agent 能力更多的是调用 OpenAI 的内部工具。

  不过,在基础的工具调用能力水平存在的情况下,如果想要接入其他工具,似乎也并不是很难。OpenAI 3 月刚刚宣布接入 MCP 协议,为之后使用其他工具打下了基础。

  02

  o4-mini 表现出色,RL 的 Scaling Law 仍在起作用

  虽然在 12 月 OpenAI 曾经预热过 o3 模型的具体能力,这次正式发布,官方表示因为进行了「对推理成本和实用性做了大量优化」,在评测结果上,OpenAI 表示可能会有差别。

  在发布会直播中,OpenAI 展示了几组测试结果,o3 模型和 o4-mini 模型在数学能力、代码能力和多模态能力上都表现出色:

  值得注意的是,在多个维度上,o4-mini 的表现并不逊色于 o3。尤其是在高难度数学竞赛 AMI 中,o4-mini 结合工具的准确率达到了 99%,几乎逼近评测上限。

  这似乎意味着,o4 模型,在未来一定会有更加惊人的表现。

  OpenAI 研究员姚顺雨近期在《The Second Half》一文中引用了研究员 Jason Wei 的图表,标注了过去几年 AI 能力的飞跃式增长:

  AI在过去五年里不断刷新各类基准测试的成绩

  姚顺雨表示,在突破了强化学习泛化的问题后,过去曾经对于 AI 十分困难的问题,正在土崩瓦解,AI 能力的爬坡正在变得更加可预测。「下一个 O 系列模型无需明确针对该任务即可将其提升 30%。」

  OpenAI 的直播也确认了这一点。

  OpenAI 表示,在 o3 模型上的训练计算量是 o1 模型的 10 倍以上。随着 OpenAI 沿着「计算量」这条轴线不断扩展,像 AMI 这样的评测成绩也持续上升。

  Scaling Law 看起来没有尽头,而人类之前设计的基准线,已经快被用完了,甚至已经不一定有测评意义了。

  OpenAI 再一次确认,AI 的发展不会停,顶尖模型的探索会让更强的 AI 能力不断下放给用户。

  在相同推理成本下,o4-mini 的表现明显优于 o3-mini,且 o4-mini 是多模态模型。

  相同的推理成本,o3 模型的性能好于 o1 模型。

  模型一代代迭代,AI 的这把科技之火的燃料不会断。

  03

  颠覆编程

  顶尖的模型,已经开始干人类顶级科研人员的活了。

  对于广众而言,更强的模型,能带来的更切实的能力是什么?

  OpenAI 这次似乎瞄准了编程这个场景。

  OpenAI 在彩蛋中宣布,接下来将发布一系列产品,颠覆编程。

  根据 OpenAI CFO 近期的发言,OpenAI 似乎想结合目前模型的 Agent 能力,和极强的编程能力,做出一整套编程 Agent,能够直接对软件进行编程甚至测试。

  在演示中,OpenAI 已经给了一个类似的案例,展示了一个模型在虚拟机里,调用工具进行编程的例子,这个案例的思路与之前爆火的 Manus 的思路接近。

  OpenAI 给了模型一个虚拟机的终端命令行权限,要求模型定位一个 bug。

  当把这个 bug 报告输入给模型后,模型可以使用终端命令行访问整个代码库。先验证 bug 能否复现,确认问题存在后,模型开始代码里四处浏览,尝试理解整个仓库的结构,比如使用命令行 ls 查看文件,cat 打开文件看内容,或者直接查看 Python 文件中的函数,最后找到了 bug,成功修复了问题。

  目前,这样的能力,仍然没有被开放出来。

  OpenAI 最新发布的编程 agent,采取了调用本地终端命令行界面的方式,进行类似的操作。可以使用「建议模式」,也就是它每次想执行指令都会征求你的确认。也可以采用全自动模式,看起来则更有一种贾维斯的感觉。

  AI两分钟内只通过图片复刻出的程序

  如果说以往的 Copilot 更像是「代码自动补全」,那今年各家模型争夺的重点,很可能是「代码自动完成」。

  编程 + Agent,会不会成为第一个真正释放生产力的通用智能场景?起码现在看来,OpenAI 是这么押注的。

  *头图来源:视觉中国

  本文为极客公园原创文章,转载请联系极客君微信 geekparkGO

  极客一问

  GPT-5 之前的更新,还会有惊喜吗

特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相关推荐
热点推荐
“心机”标签被撕下!41岁张雪峰的离开,意外让蓝盈莹口碑暴增,原来我们误会她了

“心机”标签被撕下!41岁张雪峰的离开,意外让蓝盈莹口碑暴增,原来我们误会她了

陈意小可爱
2026-03-27 03:35:10
中美都在赌,美国赌中国不敢打日本,而中国则在赌美国不会下场

中美都在赌,美国赌中国不敢打日本,而中国则在赌美国不会下场

南权先生
2026-03-24 15:30:39
伊朗没想到,等来的不是美军地面部队,而是特朗普的和谈请求

伊朗没想到,等来的不是美军地面部队,而是特朗普的和谈请求

孟彦说
2026-03-26 13:07:44
沙特实战封神!中国“天盾”21发全中,15亿美制系统竟惨遭反杀

沙特实战封神!中国“天盾”21发全中,15亿美制系统竟惨遭反杀

素衣读史
2026-03-25 21:26:46
省长刘捷在台州专题调研开发区高质量发展工作

省长刘捷在台州专题调研开发区高质量发展工作

台州发布
2026-03-26 20:57:28
江西安源路桥集团有限公司党支部书记、董事长王东被查

江西安源路桥集团有限公司党支部书记、董事长王东被查

潇湘晨报
2026-03-25 16:16:44
美国20岁女子酒驾,在街道上冲撞人群,被警察从特斯拉中拽出

美国20岁女子酒驾,在街道上冲撞人群,被警察从特斯拉中拽出

潋滟晴方DAY
2026-03-26 08:28:06
英国女星 Duffy 蹭被下药绑架遭受性侵,曾以一曲《Mercy》走红全球!

英国女星 Duffy 蹭被下药绑架遭受性侵,曾以一曲《Mercy》走红全球!

下水道男孩
2026-03-26 22:25:45
第81波打击!以军司令部遇袭,美迎来艰难一夜,特朗普向35国求助

第81波打击!以军司令部遇袭,美迎来艰难一夜,特朗普向35国求助

黑鹰观军事
2026-03-26 19:09:40
拒绝回归WCBA!李月汝再赴美国,官宣重磅决定,韩旭也要这么干了

拒绝回归WCBA!李月汝再赴美国,官宣重磅决定,韩旭也要这么干了

萌兰聊个球
2026-03-26 13:09:33
玄学提醒:如果一个人还在穿着10年前的衣服,只说明3个问题

玄学提醒:如果一个人还在穿着10年前的衣服,只说明3个问题

洞读君
2026-03-04 14:30:12
冲突加剧,日本援兵赶到,中方直接封海四天,越南警告中国别造岛

冲突加剧,日本援兵赶到,中方直接封海四天,越南警告中国别造岛

云上乌托邦
2026-03-24 14:50:45
伊朗战争的“牺牲品”:重仓金铜,知名对冲基金Caxton单月巨亏13亿美元,净值暴跌15%

伊朗战争的“牺牲品”:重仓金铜,知名对冲基金Caxton单月巨亏13亿美元,净值暴跌15%

华尔街见闻官方
2026-03-26 09:19:54
曝张雪峰3段婚姻都是闪婚,前妻缅怀满是惋惜,疯狂健身疑为备孕

曝张雪峰3段婚姻都是闪婚,前妻缅怀满是惋惜,疯狂健身疑为备孕

古希腊掌管松饼的神
2026-03-25 12:00:46
肝最喜欢的一种水果,春分后坚持喝,大补肝血,整个春天肝都舒服

肝最喜欢的一种水果,春分后坚持喝,大补肝血,整个春天肝都舒服

江江食研社
2026-03-27 03:30:03
美国最担心的事发生了,伊朗亮出中国“底牌”,中国或成最大赢家

美国最担心的事发生了,伊朗亮出中国“底牌”,中国或成最大赢家

徐云流浪中国
2026-03-04 15:30:07
柯文哲一审判17年强调不会逃亡,盼降7000万新台币交保金遭驳回

柯文哲一审判17年强调不会逃亡,盼降7000万新台币交保金遭驳回

海峡导报社
2026-03-26 23:13:16
雷军晒成绩:小米SU7、YU7双双第一!

雷军晒成绩:小米SU7、YU7双双第一!

快科技
2026-03-26 13:09:04
一辆日本军车直闯虹桥机场,战役打响丨闵行情

一辆日本军车直闯虹桥机场,战役打响丨闵行情

上海闵行
2026-03-25 21:43:44
太强了!复出首秀28+6+4,带队爆砍157分,禁赛越禁越强

太强了!复出首秀28+6+4,带队爆砍157分,禁赛越禁越强

体育新角度
2026-03-26 18:57:24
2026-03-27 05:56:49
极客公园
极客公园
让最棒的创新成为头条
11912文章数 78857关注度
往期回顾 全部

科技要闻

美团发布外卖大战后成绩单:亏损超200亿

头条要闻

特朗普:对伊朗能源设施空袭再推迟10天

头条要闻

特朗普:对伊朗能源设施空袭再推迟10天

体育要闻

申京努力了,然而杜兰特啊

娱乐要闻

刘晓庆妹妹发声!称姐姐受身边人挑拨

财经要闻

油价"驯服"特朗普?一到100美元就TACO

汽车要闻

一汽奥迪A6L e-tron开启预售 CLTC最大续航815km

态度原创

艺术
家居
亲子
房产
公开课

艺术要闻

最美花卉图谱!记住后保你啥花都认识!

家居要闻

傍海而居 静观蝴蝶海

亲子要闻

试工育儿嫂被查出传染病,宝妈崩溃!家政服务“健康关”如何保障?

房产要闻

突发,三亚又有大批征迁补偿方案出炉!

公开课

李玫瑾:为什么性格比能力更重要?

无障碍浏览 进入关怀版