网易首页 > 网易号 > 正文 申请入驻

OpenAI发布具备全工具访问权限的新型模拟推理模型

0
分享至

周三,OpenAI宣布推出两款集模拟推理能力与网络浏览、代码编写等功能访问于一体的新型号——o3和o4-mini。这是OpenAI首次实现以推理为核心定位的模型能够同步使用所有ChatGPT工具,包括视觉分析和图像生成功能。

OpenAI早在去年12月就预告了o3型号,此前仅推出性能较弱的衍生型号"o3-mini"和"03-mini-high"。此次发布的新型号将全面取代前代产品o1和o3-mini。

企业用户和教育机构用户将于下周获得访问权限。免费用户可通过在提问前选择"思考"选项试用o4-mini。OpenAI CEO Sam Altman在推特透露:"我们计划在未来几周向专业用户推出o3-pro版本。"

对于开发者群体,即日起可通过Chat Completions API和Responses API使用这两款模型,但部分机构需要完成验证流程。

性能提升方面,OpenAI官网声明:"这是我们迄今发布的最智能模型,将为从普通用户到专业研究人员的所有使用者带来ChatGPT能力的阶跃式提升。" 新模型在成本效益上也优于前代产品,且定位分工明确:o3专攻复杂分析任务,而作为下一代SR模型"o4"(尚未发布)精简版的o4-mini则侧重速度和成本优化。

与GPT-4o和GPT-4.5等现有产品的核心差异在于其模拟推理能力。该技术通过模拟人类逐步思考过程解决问题,并动态决定何时及如何调用辅助工具处理多步骤任务。例如在回答加州未来能源使用量预测时,模型可自主完成公用事业数据检索、Python预测模型构建、可视化图表生成及关键因素解析等全套流程。

值得关注的是新模型的多模态能力突破——不仅能解析视觉输入,还能将图像直接整合到推理过程中进行"视觉化思考"。这项革新使模型能够解读白板内容、教科书图表和手绘草图,即使图像模糊或质量欠佳也能有效处理。

但OpenAI延续了其产品命名体系混乱的传统:o3虽编号较低但性能优于o4-mini,且与公司的非推理型AI模型(如GPT-4o)易产生混淆。Ars Technica撰稿人Timothy B. Lee在X平台指出:"将模型命名为GPT-4o和o4,这真是个惊人的品牌决策。"

性能评估与用户反馈

沃顿商学院教授、AI领域资深评论员Ethan Mollick在Bluesky平台对比测试后认为:"经过实际使用,我认为Gemini 2.5与o3处于同一水平区间(需注意智能体能力仍需更多测试)。两者各有特色,但与其他模型存在明显差距。"

在今日的直播发布会上,OpenAI总裁Greg Brockman宣称:"这是首批获得顶尖科学家认可、能够产出真正优质创新观点的模型。"免疫学家Derya Unutmaz在X平台反馈:"o3展现出接近天才水平的思维能力,能够按要求生成极具洞察力的复杂科学假设。其针对临床医学难题的回应质量堪比顶级专科医师。"

基准测试数据显示:在2025年美国数学邀请赛(AIME)中,o4-mini取得92.7%准确率;编程测试SWE-Bench Verified中,o3达到69.1%准确率;在衡量大学水平视觉问题解决能力的MMMU测试中,o3斩获82.9%的优异成绩。OpenAI特别指出,启用网络浏览功能的模型需防范在"人类终极考试"等基准测试中通过在线检索"作弊"的可能。

独立AI实验室Transluce对预览版o3的评估发现,该模型存在声称本地运行代码、虚构硬件参数等杜撰行为,推测可能源于其无法访问先前对话中的推理过程。Transluce在推特警告:"尽管在数学和编程任务中表现惊人,但o3默认不具备真实性保障机制。"

定价策略与开发工具

ChatGPT订阅用户可免费使用新模型。API接口定价方面:o3输入/输出token价格分别为每百万10/10/40,缓存输入享受2.5/百万优惠价,较前代o1降价332.5/百万优惠价,较前代o1降价331.1/$4.4。

同步发布的实验性终端应用CodexCLI被定位为"轻量级编程助手",这款开源工具可将模型与用户本地代码库连接。OpenAI为此配套推出百万美元资助计划,为使用该工具的项目提供API积分。该产品与Anthropic二月推出的Claude Code形成直接竞争,两者均支持终端操作、本地代码库交互和命令行执行功能。

CodexCLI的推出标志着OpenAI在开发自主执行多步复杂任务的智能体方向上又迈进一步。但专家提醒,在缺乏严格人工监督的情况下,应谨慎对待其生成的高风险应用代码。

关注【黑客联盟】带你走进神秘的黑客世界

特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相关推荐
热点推荐
特朗普不见高市,美军也撤了,解放军面朝日本,连续8天实弹演习

特朗普不见高市,美军也撤了,解放军面朝日本,连续8天实弹演习

时时有聊
2025-11-19 16:51:16
100米栏悲喜夜:3人打开13秒!吴艳妮第2夏思凝第4,广东名将夺冠

100米栏悲喜夜:3人打开13秒!吴艳妮第2夏思凝第4,广东名将夺冠

球场没跑道
2025-11-19 21:33:01
朝鲜代表联大发言炮轰日本:日本没有资格和理由觊觎安理会常任理事国席位;此前高市早苗在日本侵略战争、参拜靖国神社等问题上屡触碰红线

朝鲜代表联大发言炮轰日本:日本没有资格和理由觊觎安理会常任理事国席位;此前高市早苗在日本侵略战争、参拜靖国神社等问题上屡触碰红线

极目新闻
2025-11-19 13:18:23
国足受邀!俄罗斯将在美举办12国“小世界杯”:六大洲参赛

国足受邀!俄罗斯将在美举办12国“小世界杯”:六大洲参赛

邱泽云
2025-11-19 17:59:42
广东模特大赛冠军诞生后,我笑死在评论区

广东模特大赛冠军诞生后,我笑死在评论区

清书先生
2025-11-19 16:02:32
噩耗,广东美女陈俊玲去世,年仅33岁,入职体检时查出癌症

噩耗,广东美女陈俊玲去世,年仅33岁,入职体检时查出癌症

熠熠生辉的生活
2025-11-18 09:14:21
印共(毛主义)主要领导人被打死,印共(毛)是否到了穷途末路

印共(毛主义)主要领导人被打死,印共(毛)是否到了穷途末路

小院之观
2025-11-19 10:14:33
“漏X装”,火了!

“漏X装”,火了!

微微热评
2025-11-19 14:51:31
预算1.76亿的办公楼“未批先建”,市民质疑应罚10%,为啥只罚50万?律师说法

预算1.76亿的办公楼“未批先建”,市民质疑应罚10%,为啥只罚50万?律师说法

大风新闻
2025-11-19 16:31:04
喻恩泰和妻子婚内双出轨,聊天记录不堪入目,妻子约P喜欢大的

喻恩泰和妻子婚内双出轨,聊天记录不堪入目,妻子约P喜欢大的

社会酱
2025-11-19 17:42:35
10个月违法赚近9000万,最终被罚1.77亿!涉事人疑是DeepSeek创始人旗下公司核心员工

10个月违法赚近9000万,最终被罚1.77亿!涉事人疑是DeepSeek创始人旗下公司核心员工

可达鸭面面观
2025-11-19 08:59:19
遗憾!吴艳妮给自己打0分:跑出赛季最佳+只能拿第2 3战全运0金牌

遗憾!吴艳妮给自己打0分:跑出赛季最佳+只能拿第2 3战全运0金牌

风过乡
2025-11-19 22:05:53
日本炒作“击沉福建舰”,军事专家傅前哨:哪里来的底气?

日本炒作“击沉福建舰”,军事专家傅前哨:哪里来的底气?

南方都市报
2025-11-19 20:18:06
最担心的事情还是发生了,印度人疯狂涌入中国,未来会发生什么事

最担心的事情还是发生了,印度人疯狂涌入中国,未来会发生什么事

历史有些冷
2025-11-18 21:35:03
中组部:公职人员退休后未经批准经商(包括当律师)的,不再保留党政机关退休金等待遇

中组部:公职人员退休后未经批准经商(包括当律师)的,不再保留党政机关退休金等待遇

新浪财经
2025-11-18 12:46:38
出乎意料!继王曼昱后,陈梦也避开跟孙颖莎打比赛,放弃女单一号

出乎意料!继王曼昱后,陈梦也避开跟孙颖莎打比赛,放弃女单一号

侃球熊弟
2025-11-19 17:44:51
越来越多孩子得白血病?医生坦言:家里4样东西是祸根,趁早扔了

越来越多孩子得白血病?医生坦言:家里4样东西是祸根,趁早扔了

DrX说
2025-11-19 14:42:09
烟台一渣土车侧翻压死女老师,遇难者家属讲述: 学生纷纷悼念,肇事车经改装严重超载

烟台一渣土车侧翻压死女老师,遇难者家属讲述: 学生纷纷悼念,肇事车经改装严重超载

潇湘晨报
2025-11-19 20:32:25
沙俄让清朝损失的土地,面积达到330万平方公里,如今在哪些国家

沙俄让清朝损失的土地,面积达到330万平方公里,如今在哪些国家

兴趣知识
2025-11-17 15:39:26
我国古代4大旷世文章,一生必背的4篇千古奇文,谁能够排在第一?

我国古代4大旷世文章,一生必背的4篇千古奇文,谁能够排在第一?

掠影后有感
2025-11-18 11:14:38
2025-11-19 23:19:00
黑客联盟I
黑客联盟I
免费、开源、自由……
347文章数 1064关注度
往期回顾 全部

科技要闻

一夜封神,Gemini 3让谷歌找回“碾压感”

头条要闻

日媒:中方官员双手插兜 暗示"14亿中国人都很愤怒"

头条要闻

日媒:中方官员双手插兜 暗示"14亿中国人都很愤怒"

体育要闻

世界杯最小参赛国诞生!15万人岛国的奇迹

娱乐要闻

史林子出轨对方前妻放锤!

财经要闻

重磅!中金公司拟收购东兴与信达证券

汽车要闻

此刻价格不重要 第5代帝豪本身就是价值

态度原创

家居
教育
旅游
艺术
公开课

家居要闻

水岸美学 书香人文生活

教育要闻

选对专业与学校,赢在起跑线:中国石油2025年招聘数据解密

旅游要闻

上关镇位于洱海的一侧,没什么网红景点,堪称大理最安逸的角落

艺术要闻

启功:我是画家,但书名超过了画名

公开课

李玫瑾:为什么性格比能力更重要?

无障碍浏览 进入关怀版