网易首页 > 网易号 > 正文 申请入驻

谢谢Deepseek,o3-mini发布即免费!编程断崖式领先,思考过程冰冷而客观

0
分享至

  大数据文摘受权转载自夕小瑶科技说

  今日凌晨,OpenAI o3-mini 正式上线 ChatGPT,API 可用。还有更大的惊喜——

  免费用户也可以使用。

  只需要在消息编辑器中选择“Reason”就可以调用 o3-mini 了。

  这是 ChatGPT 首次向免费用户提供推理模型。

  对此,我只能用以下表情包评价此事件——

  具体来说:

  Plus 和 Team 用户:每天 150 次对话限制( 原 o1-mini 每天 50 条消息);

  Pro 用户:可以无限制地访问(当然,实际别太认真,真用多了大概率会跟此前 o1 一样降智);

  Enterprise 用户:将于 2 月推出;

  API:向 3-5 级开发者开放,提供了三种选择版本,low、medium、high ,根据开发需求在效果(推理时间)和速度(延迟)之间平衡,灵活选择。

  发布后,原 o1-mini 位置被 o3-mini 替代,付费用户还能选择更智能的 o3-mini-high。

  o3-mini 不止是在网页客户端免费开放,其商用 API 价格也相比 o1 迎来断崖式下跌——

  o3-mini 相比 o1:

  更快:延迟更低,响应更快。在 A/B 测试中,o3-mini 的响应速度比 o1-mini 快 24%,平均响应时间为 7.7 秒,而 o1-mini 为 10.16 秒。

  更强:答案更准确、幻觉更少、推理更强。尤其是编程能力,详情见《 》。

  更便宜:比 o1 便宜 93%。

  可以通过下面这张 LiveBench 测试基准直观的感受 o3-mini 在推理、编程、数学上面的表现,尤其是 Coding 这一列,编程能力断崖式的碾压了 o1、deepseek r1 和 gemini 系列模型:

  人类最后一次考试(Humanity’s Last Exam)则是由数百位人类领域专家开发的一个榜单,号称是捍卫人类智慧的最后一站。在此之前,所有顶尖 AI 通过率都不超过 10%,这次 O3-mini 首次打破记录。

  我观测到一个很有意思的现象。

  以前 OpenAI 发布新模型的时候,外网网友一般都会拿新模型与 OpenAI 的老模型,Claude 模型,最多再加上 Gemini 模型做比较。

  但这次,我发现外国网友甚至都很少拿 o3-mini 与 o1 去对比,反而大家齐刷刷的拿 o3-mini 与 DeepSeek R1 在做横向对比。

  比如,有国外网友从性价比层面点评 o3-mini——

虽然 o3-mini 更好,但 DeepSeek R1 相似却更便宜,“DeepSeek 时刻”值得被人们铭记,成为科技领域关键历史事件

  还有网友横向对比了 o3-mini 的思维链与 DeepSeek R1 的思维链——

o3-mini 的思维链与 R1 相比,更加冰冷、客观;R1 更接近我内心的思考过程

  放大图片,感受一下——

  而在横向的 case 表现上,大家更是齐刷刷的将 o3-mini 与 DeepSeek R1 进行 PK。

  模拟物理世界

  由于 o3-mini 相比较前一代模型,最大的提升就在于编程能力了。

  所以网友的实测 case 大部分都是跟编程相关的,尤其是一些通过视觉效果就能直观的感受到代码写的好坏的 case。例如下面这个——

提示词:“编写一个在 tesseract 内弹跳的球的 python 脚本”

  先看下o3-mini 写的代码的运行效果:

  

  然后是DeepSeek R1 所写代码的演示效果:

  

  
模拟物理世界的简单版本

  如果说上一个题目比较抽象,这个题目就能比较直观的感受效果了。

提示词:write a Python program that shows a ball bouncing inside a spinning hexagon. The ball should be affected by gravity and friction, and it must bounce off the rotating walls realistically
中文提示词:编写一个 Python 程序,显示球在旋转的六边形内弹跳。球应该受到重力和摩擦力的影响,并且必须逼真地从旋转的墙壁上反弹”

  分析:这题左边 o3-mini 明显要好于右边的 DeepSeek R1,R1 没有考虑重力影响

  

  当然,也有反例,比如有国外网友跑出了一个 DeepSeek R1 表现更好的例子——

提示:“编写一个 Python 脚本,每 5 秒在一个正方形内出现一个不同颜色的新弹跳球,请确保正确处理碰撞检测。使正方形缓慢旋转。在 Python 中实现它。确保球保持在正方形内”

  网友说必须明确提示 O1-Mini-high 才能获得弹跳球效果......DeepSeek-R1 在第一次就实现了,没有任何明确的提示。

  o3-mini-high:

  

  deepseek-r1 :

  

  从上面对比视频看,这题 deepseek-r1 的效果更好,因为它模拟了两个小球发生碰撞时弹开的物理情况,而 o3 则没有处理这种情况。

  除了上面的编程能力 PK 外,我还见到一个很棒的示例。

  8 秒写一个 Twitter 网站

原贴链接: https://x.com/aidan_clark/status/1885408020529545621

  网友要求用一个 python 脚本制作一个克隆版的推特网站,O3-mini 花了 8 秒写出了这个网站。提示词也出奇的简单——

  运行一下 o3-mini 写的代码,看下这个网站——

  

  好家伙,注册/登陆、发推、点赞、转推功能都齐全了。这效果,至少够熟练的人类程序员写一下午了,加上与产品经理的沟通拉扯,可能都要一天起步。而 o3-mini 只用了 8 秒。

  此外,还有网友提到,o3-mini 能做到 o1 pro 都做不到的事情,比如一个混合了艺术、科学和编程的复杂任务——

  贴一下这个着色器的视频,感受一下——

  

  除了网友晒出的编程 case 外,我也运行了几个大型项目中遇到的困难编程问题,其中不乏难倒了 o1 在内所有推理模型的问题。但由于比较敏感,这里没法直接贴出来测试题目。

  不过,可以分享一下结论性的体感表现——对于我手上那些上一代推理模型全军覆没的编程问题,o3-mini 解掉了约 50% 的题目。o3-mini 在编程方面的提升,确实能在体感上强烈感知到。

  Agent 应用开发的核心模型?

  大家经常说,2025 年是 Agent 元年(虽然 2024 年的时候也这样说)。

  而我们知道,对于 Agent 来说,思考、记忆和执行是其中要解决的三大关键问题。对于执行层面来说,老一代的模型如 Gemini 2.0、DeepSeek v3 等已经做的不错了,记忆和思考其实仍有很长的路要走。

  而在思考方面,o1 虽然有了很大的提升,但这高昂的推理成本,使其难以在 Agent 应用上大范围使用。

  而 o3-mini 发布后,就有开发者发现——

o3-mini 完全可以替换掉 o1,便宜 9 倍,快 4 倍,部分任务上效果还更好。

  有了 o3-mini,我觉得 2025 年 Agent 应用爆发,可能真的不再只是喊喊口号而已了。

  安全评估

  与此同时,OpenAI 也放出了关于 o3-mini 的安全评估报告"OpenAI o3-mini System Card". 有网友整理了这里面的一些关键信息。

  例如,o3-mini 的幻觉相比 4o 和上一代 o1-mini 模型大大减少——

  在一些看似危险实则一点也不安全的问题上,如“如何杀死 python 进程”,老的模型经常会拒绝回答,o3-mini 则不会过度阻止了——

  而我们常用的一些让 AI 模型越狱的手段,也更难攻破 o3-mini 了——

不过,看起来针对 System message 字段的攻击,o3-mini 相比 o1 反而更糟了(0.95=>0.88)

结语

  或 许,真正的挑战并非单纯的技术超越,而是在这个变革的时代,如何用创新和责任构建出人类和智能的和谐共生。

  未来的路依然漫长,但这一次,o3-mini与DeepSeek R1无疑为我们确认了一个方向——

  智能不应只是少数人的特权,而是每个人都能触及的力量。

特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相关推荐
热点推荐
到账230亿,贾跃亭起飞!

到账230亿,贾跃亭起飞!

鸣金网
2026-04-21 19:58:22
网盘禁止传播存储国外影视剧,这意味着什么?

网盘禁止传播存储国外影视剧,这意味着什么?

十柱
2026-04-21 14:04:56
山西长治万达广场一女子坠楼身亡,警方通报:张某(女,31岁)独自进入商场到4楼,翻越栏杆后坠落,排除刑事案件

山西长治万达广场一女子坠楼身亡,警方通报:张某(女,31岁)独自进入商场到4楼,翻越栏杆后坠落,排除刑事案件

扬子晚报
2026-04-21 09:21:30
4月21日俄乌最新:俄罗斯创造的神话

4月21日俄乌最新:俄罗斯创造的神话

西楼饮月
2026-04-21 20:24:18
美国发现一个“秘密”:每次对华加征关税,中国就去找非洲,为何

美国发现一个“秘密”:每次对华加征关税,中国就去找非洲,为何

泠泠说史
2026-04-21 21:59:17
情侣在瑞士雪山顶“撒欢”,就这么被全世界直播了···

情侣在瑞士雪山顶“撒欢”,就这么被全世界直播了···

新欧洲
2026-04-21 19:37:05
交警提醒:私家车将迎来“3+1”的严格检查,车主:为何不早说?

交警提醒:私家车将迎来“3+1”的严格检查,车主:为何不早说?

复转这些年
2026-04-21 17:19:57
中国高校只剩7年窗口期 学生数量断崖式塌方后一半高校都得死

中国高校只剩7年窗口期 学生数量断崖式塌方后一半高校都得死

六子吃凉粉
2026-04-20 19:10:49
亏惨了!车管所正式提醒,2026 新规后只买交强加三者险行不通

亏惨了!车管所正式提醒,2026 新规后只买交强加三者险行不通

夜深爱杂谈
2026-04-21 07:42:53
余承东:我们成本扛不住了,希望大家早点购买

余承东:我们成本扛不住了,希望大家早点购买

映射生活的身影
2026-04-20 21:53:17
重磅:乌克兰3天摧毁黑海舰队5艘军舰!再攻克里米亚大桥

重磅:乌克兰3天摧毁黑海舰队5艘军舰!再攻克里米亚大桥

项鹏飞
2026-04-21 20:11:23
今天才知道,市场上有6种“药水菜”,菜贩子从不给家人吃,指啥

今天才知道,市场上有6种“药水菜”,菜贩子从不给家人吃,指啥

阿龙美食记
2026-04-21 11:00:20
A股:2.5亿股民,今晚可能要兴奋得睡不着觉了,你知道为什么吗?

A股:2.5亿股民,今晚可能要兴奋得睡不着觉了,你知道为什么吗?

另子维爱读史
2026-04-21 19:44:48
黄大发等涉黑案一审宣判:黄大发等12人组织、领导、参加黑社会性质组织,判处黄大发死刑,其他11名被告人分别判处13年至2年2个月不等刑罚

黄大发等涉黑案一审宣判:黄大发等12人组织、领导、参加黑社会性质组织,判处黄大发死刑,其他11名被告人分别判处13年至2年2个月不等刑罚

扬子晚报
2026-04-21 15:07:17
商家发视频吐槽:景区人满为患,却无人消费,评论区全是人间清醒

商家发视频吐槽:景区人满为患,却无人消费,评论区全是人间清醒

谭谈社会
2026-04-21 10:12:09
库明加登老鹰海报扎心科尔!美媒曝主帅信任差距大:还晒分数对比

库明加登老鹰海报扎心科尔!美媒曝主帅信任差距大:还晒分数对比

颜小白的篮球梦
2026-04-21 15:40:44
美称扣押的船只与制造导弹有关?外交部:中方反对恶意关联和炒作

美称扣押的船只与制造导弹有关?外交部:中方反对恶意关联和炒作

澎湃新闻
2026-04-21 15:36:26
海军四川舰赴南海开展试验训练

海军四川舰赴南海开展试验训练

界面新闻
2026-04-21 23:23:46
炸裂!女子刚分手就献身异性,男友尾随当场抓获,情夫赤裸一脸懵

炸裂!女子刚分手就献身异性,男友尾随当场抓获,情夫赤裸一脸懵

李晚书
2026-04-21 16:43:59
湖北松滋市教育局通报“某学校要求走读生将背包改为透明书袋”:已责令涉事学校立即纠正、认真整改

湖北松滋市教育局通报“某学校要求走读生将背包改为透明书袋”:已责令涉事学校立即纠正、认真整改

环球网资讯
2026-04-21 12:17:57
2026-04-22 03:03:00
大数据文摘 incentive-icons
大数据文摘
专注大数据,每日有分享!
6851文章数 94541关注度
往期回顾 全部

科技要闻

创造4万亿帝国、访华20次,库克留下了什么

头条要闻

三国取消飞航许可 赖清德无法窜访斯威士兰

头条要闻

三国取消飞航许可 赖清德无法窜访斯威士兰

体育要闻

一到NBA季后赛,四届DPOY就成了主角

娱乐要闻

宋承炫晒宝宝B超照,宣布老婆怀孕

财经要闻

现实是最大的荒诞:千亿平台的冲突始末

汽车要闻

全新坦克700正式上市 售价42.8万-50.8万元

态度原创

艺术
游戏
房产
旅游
公开课

艺术要闻

任伯年写竹,真带劲

涨价两周即回调!索尼官方PS5数字版定价重回399美元

房产要闻

年薪40-50万!海南地产圈还在猛招人

旅游要闻

京城今春“滨水+”玩法迭代

公开课

李玫瑾:为什么性格比能力更重要?

无障碍浏览 进入关怀版