谢谢Deepseek，o3-mini发布即免费！编程断崖式领先，思考过程冰冷而客观|deepseek|python|agent|用户开放推理模型

谢谢Deepseek，o3-mini发布即免费！编程断崖式领先，思考过程冰冷而客观

2025-02-02 19:51:46　来源: 大数据文摘

北京举报

分享至

　　大数据文摘受权转载自夕小瑶科技说

　　今日凌晨，OpenAI o3-mini 正式上线 ChatGPT，API 可用。还有更大的惊喜——

　　免费用户也可以使用。

　　只需要在消息编辑器中选择“Reason”就可以调用 o3-mini 了。

　　这是 ChatGPT 首次向免费用户提供推理模型。

　　对此，我只能用以下表情包评价此事件——

　　具体来说：

　　Plus 和 Team 用户：每天 150 次对话限制（原 o1-mini 每天 50 条消息）；

　　Pro 用户：可以无限制地访问（当然，实际别太认真，真用多了大概率会跟此前 o1 一样降智）；

　　Enterprise 用户：将于 2 月推出；

　　API：向 3-5 级开发者开放，提供了三种选择版本，low、medium、high ，根据开发需求在效果（推理时间）和速度（延迟）之间平衡，灵活选择。

　　发布后，原 o1-mini 位置被 o3-mini 替代，付费用户还能选择更智能的 o3-mini-high。

　　o3-mini 不止是在网页客户端免费开放，其商用 API 价格也相比 o1 迎来断崖式下跌——

　　o3-mini 相比 o1：

　　更快：延迟更低，响应更快。在 A/B 测试中，o3-mini 的响应速度比 o1-mini 快 24%，平均响应时间为 7.7 秒，而 o1-mini 为 10.16 秒。

　　更强：答案更准确、幻觉更少、推理更强。尤其是编程能力，详情见《》。

　　更便宜：比 o1 便宜 93%。

　　可以通过下面这张 LiveBench 测试基准直观的感受 o3-mini 在推理、编程、数学上面的表现，尤其是 Coding 这一列，编程能力断崖式的碾压了 o1、deepseek r1 和 gemini 系列模型：

　　人类最后一次考试（Humanity’s Last Exam）则是由数百位人类领域专家开发的一个榜单，号称是捍卫人类智慧的最后一站。在此之前，所有顶尖 AI 通过率都不超过 10%，这次 O3-mini 首次打破记录。

　　我观测到一个很有意思的现象。

　　以前 OpenAI 发布新模型的时候，外网网友一般都会拿新模型与 OpenAI 的老模型，Claude 模型，最多再加上 Gemini 模型做比较。

　　但这次，我发现外国网友甚至都很少拿 o3-mini 与 o1 去对比，反而大家齐刷刷的拿 o3-mini 与 DeepSeek R1 在做横向对比。

　　比如，有国外网友从性价比层面点评 o3-mini——

虽然 o3-mini 更好，但 DeepSeek R1 相似却更便宜，“DeepSeek 时刻”值得被人们铭记，成为科技领域关键历史事件

　　还有网友横向对比了 o3-mini 的思维链与 DeepSeek R1 的思维链——

o3-mini 的思维链与 R1 相比，更加冰冷、客观；R1 更接近我内心的思考过程

　　放大图片，感受一下——

　　而在横向的 case 表现上，大家更是齐刷刷的将 o3-mini 与 DeepSeek R1 进行 PK。

　　模拟物理世界

　　由于 o3-mini 相比较前一代模型，最大的提升就在于编程能力了。

　　所以网友的实测 case 大部分都是跟编程相关的，尤其是一些通过视觉效果就能直观的感受到代码写的好坏的 case。例如下面这个——

提示词：“编写一个在 tesseract 内弹跳的球的 python 脚本”

　　先看下o3-mini 写的代码的运行效果：

　　然后是DeepSeek R1 所写代码的演示效果：

　　
模拟物理世界的简单版本

　　如果说上一个题目比较抽象，这个题目就能比较直观的感受效果了。

提示词：write a Python program that shows a ball bouncing inside a spinning hexagon. The ball should be affected by gravity and friction, and it must bounce off the rotating walls realistically

中文提示词：编写一个 Python 程序，显示球在旋转的六边形内弹跳。球应该受到重力和摩擦力的影响，并且必须逼真地从旋转的墙壁上反弹”

　　分析：这题左边 o3-mini 明显要好于右边的 DeepSeek R1，R1 没有考虑重力影响

　　当然，也有反例，比如有国外网友跑出了一个 DeepSeek R1 表现更好的例子——

提示：“编写一个 Python 脚本，每 5 秒在一个正方形内出现一个不同颜色的新弹跳球，请确保正确处理碰撞检测。使正方形缓慢旋转。在 Python 中实现它。确保球保持在正方形内”

　　网友说必须明确提示 O1-Mini-high 才能获得弹跳球效果......DeepSeek-R1 在第一次就实现了，没有任何明确的提示。

　　o3-mini-high：

　　deepseek-r1 ：

　　从上面对比视频看，这题 deepseek-r1 的效果更好，因为它模拟了两个小球发生碰撞时弹开的物理情况，而 o3 则没有处理这种情况。

　　除了上面的编程能力 PK 外，我还见到一个很棒的示例。

　　8 秒写一个 Twitter 网站

原贴链接： https://x.com/aidan_clark/status/1885408020529545621

　　网友要求用一个 python 脚本制作一个克隆版的推特网站，O3-mini 花了 8 秒写出了这个网站。提示词也出奇的简单——

　　运行一下 o3-mini 写的代码，看下这个网站——

　　好家伙，注册/登陆、发推、点赞、转推功能都齐全了。这效果，至少够熟练的人类程序员写一下午了，加上与产品经理的沟通拉扯，可能都要一天起步。而 o3-mini 只用了 8 秒。

　　此外，还有网友提到，o3-mini 能做到 o1 pro 都做不到的事情，比如一个混合了艺术、科学和编程的复杂任务——

　　贴一下这个着色器的视频，感受一下——

　　除了网友晒出的编程 case 外，我也运行了几个大型项目中遇到的困难编程问题，其中不乏难倒了 o1 在内所有推理模型的问题。但由于比较敏感，这里没法直接贴出来测试题目。

　　不过，可以分享一下结论性的体感表现——对于我手上那些上一代推理模型全军覆没的编程问题，o3-mini 解掉了约 50% 的题目。o3-mini 在编程方面的提升，确实能在体感上强烈感知到。

　　Agent 应用开发的核心模型？

　　大家经常说，2025 年是 Agent 元年（虽然 2024 年的时候也这样说）。

　　而我们知道，对于 Agent 来说，思考、记忆和执行是其中要解决的三大关键问题。对于执行层面来说，老一代的模型如 Gemini 2.0、DeepSeek v3 等已经做的不错了，记忆和思考其实仍有很长的路要走。

　　而在思考方面，o1 虽然有了很大的提升，但这高昂的推理成本，使其难以在 Agent 应用上大范围使用。

　　而 o3-mini 发布后，就有开发者发现——

o3-mini 完全可以替换掉 o1，便宜 9 倍，快 4 倍，部分任务上效果还更好。

　　有了 o3-mini，我觉得 2025 年 Agent 应用爆发，可能真的不再只是喊喊口号而已了。

　　安全评估

　　与此同时，OpenAI 也放出了关于 o3-mini 的安全评估报告"OpenAI o3-mini System Card". 有网友整理了这里面的一些关键信息。

　　例如，o3-mini 的幻觉相比 4o 和上一代 o1-mini 模型大大减少——

　　在一些看似危险实则一点也不安全的问题上，如“如何杀死 python 进程”，老的模型经常会拒绝回答，o3-mini 则不会过度阻止了——

　　而我们常用的一些让 AI 模型越狱的手段，也更难攻破 o3-mini 了——

不过，看起来针对 System message 字段的攻击，o3-mini 相比 o1 反而更糟了（0.95=>0.88）

结语

　　或许，真正的挑战并非单纯的技术超越，而是在这个变革的时代，如何用创新和责任构建出人类和智能的和谐共生。

　　未来的路依然漫长，但这一次，o3-mini与DeepSeek R1无疑为我们确认了一个方向——

　　智能不应只是少数人的特权，而是每个人都能触及的力量。

特别声明：以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布，本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.