![]()
研究揭示了一个“残酷”的现实:AI 行业鼓吹的“推理”能力,背后其实只是高级的模式匹配罢了。
就在周二,OpenAI 宣布他们家最强的“模拟推理模型”新版本 o3-pro 正式上线了,现在 ChatGPT Pro 和 Team 用户可以在模型选择器里直接用它,它会替代之前的 o1-pro。不仅如此,OpenAI 还大手一挥,把 o3-pro 的 API 定价直接砍了 87%(相比 o1-pro),连普通版 o3 的价格也降了 80%!虽然这种“推理”功能在某些分析任务上确实挺有用,但最新研究却对 AI 系统身上这个“推理”二字,提出了根本性的疑问:它到底意味着啥?
我们一会儿深入扒一扒这个“推理”的真相,但先别急,咱们来看看 o3-pro 到底新在哪儿。OpenAI 之前在四月份就发布了普通版 o3,而这次的 o3-pro 模型,主要把重心放在了数学、科学和编程上,还新增了网页搜索、文件分析、图像分析和 Python 代码执行等功能。当然了,这些工具集成会拖慢响应速度(比本来就慢的 o1-pro 还要慢),所以 OpenAI 建议大家在遇到复杂问题、更看重准确性而不是速度的时候,再用这个模型。不过,话说回来,它们并不一定比那些所谓的“非推理”AI 模型少“胡说八道”(也就是它们还是会犯事实性错误),这一点在追求准确结果时,可是个不小的提醒!
除了性能上的提升,OpenAI 还给开发者们带来了实实在在的降价福利。现在 o3-pro 的 API 价格是每百万输入 token 20 美元,每百万输出 token 80 美元,比 o1-pro 足足便宜了 87%。同时,标准版 o3 模型的价格也降了 80%。
这些降价,直接解决了“推理模型”之前最大的一个痛点——相比普通模型,它们的价格实在是太贵了。要知道,最初的 o1 每百万输入 token 要 15 美元,每百万输出 token 要 60 美元;即使是 o3-mini,也要 1.10 美元和 4.40 美元。
为什么用 o3-pro?它到底强在哪儿?
跟 GPT-4o 这种追求速度、知识广度、让人用着“感觉良好”的通用模型不一样,o3-pro 用的是一种“思维链模拟推理”过程。它会投入更多的输出 token 来一步步解决复杂问题,所以对于那些需要深度分析的技术挑战,它通常表现得更好。不过,它也远非完美。
![]()
衡量这种所谓的“推理”能力其实挺难的,因为基准测试很容易被“刷分”(比如特意挑数据或者训练数据泄露)。但至少,OpenAI 说 o3-pro 在测试人员中很受欢迎。“在专家评估中,评审人员在所有测试类别中,都一致认为 o3-pro 比 o3 更好,尤其是在科学、教育、编程、商业和写作辅助等关键领域,”OpenAI 在发布说明中写道,“评审人员也一致认为 o3-pro 在清晰度、全面性、指令遵循和准确性方面表现更出色。”
![]()
OpenAI 还分享了基准测试结果,展示了 o3-pro 报告的性能提升。在 AIME 2024 数学竞赛中,o3-pro 的 pass@1 准确率达到了 93%,而 o3 (medium) 是 90%,o1-pro 是 86%。在 GPQA Diamond 的博士级科学问题上,模型达到了 84% 的准确率,高于 o3 (medium) 的 81% 和 o1-pro 的 79%。在 Codeforces 衡量编程任务的测试中,o3-pro 的 Elo 评分达到了 2748,超过了 o3 (medium) 的 2517 和 o1-pro 的 1707。
所谓“推理”,其实是“模拟”出来的!
![]()
普通人很容易被 AI 模型那些“拟人化”的“推理”说法给忽悠住。在这种情况下,就像“幻觉”(hallucinations)这个拟人化的词一样,“推理”在 AI 行业里已经成了一个专有名词,它基本上就意味着“投入更多的计算时间来解决问题”。它并不代表 AI 模型真的能系统地运用逻辑,或者拥有构建真正新颖问题解决方案的能力。这就是为什么 Ars Technica 坚持使用“模拟推理”(SR)这个词来描述这些模型。它们只是在模拟人类的推理过程,但在面对新颖挑战时,并不一定能产生和人类推理一样的结果。
尽管像 o3-pro 这样的模拟推理模型在分析任务上通常会比通用模型表现出可测量的提升,但研究表明,这些提升的背后,其实是模型分配了更多的计算资源,以更小、更有方向的步骤来“穿梭”于它们的神经网络。答案就在研究人员所说的“推理时计算”(inference-time compute)扩展上。当这些模型使用所谓的“思维链”(chain-of-thought)技术时,它们会投入更多的计算资源来探索神经网络数据中概念之间的联系。
在所谓的“推理”过程中,AI 模型会输出一连串的文本,就像是在“大声思考”一样,用一个个 token 来“表面上”一步步解决问题,让用户可以看到这个过程。这跟直接给出答案的传统模型完全不同。
每一个中间的“推理”输出步骤(以 token 形式产生),都为下一个 token 的预测提供了上下文,有效地限制了模型的输出,从而倾向于提高准确性并减少数学错误(但不一定能减少事实性错误)。
但从根本上讲,所有基于 Transformer 架构的 AI 模型,都只是模式匹配的奇迹。它们从研究人员用来训练模型的数据中,借用了已有的推理模式。最近对奥林匹克数学竞赛问题的研究表明,模拟推理模型仍然是复杂的模式匹配机器——它们无法发现自己的错误,也无法调整失败的方法,经常自信满满地给出错误答案,却没有任何“意识”到自己错了。
苹果公司的研究人员在受控的谜题环境(比如汉诺塔游戏)中测试模拟推理模型时,也发现了类似的局限性。即使提供了明确的算法来解决这些谜题,模型也无法正确执行——这表明它们的处理过程依赖于训练数据中的模式匹配,而不是逻辑推理。随着问题复杂度的增加,这些模型表现出一种“反直觉的缩放限制”,即使拥有足够的计算资源,它们也会减少“推理”的努力。这与 USAMO 的发现不谋而合,都表明模型会犯基本的逻辑错误,即使生成了矛盾的结果,也会继续沿着错误的思路走下去。
然而,这里有一些非常微妙的细节,如果你只是匆匆忙忙地想站队 AI 派或反 AI 派,你可能会错过。模式匹配和推理并不一定是非此即彼的。由于很难从根本上机械地定义人类推理,我们无法断定复杂的模式匹配与“真正”的推理在本质上是否不同,或者仅仅是类似底层过程的不同实现方式。汉诺塔的失败是当前局限性的有力证据,但它们并不能解决“推理到底是什么”这个更深层次的哲学问题。
![]()
而且,理解这些局限性,并不会削弱模拟推理模型的实际价值。对于许多现实世界的应用——比如调试代码、解决数学问题或分析结构化数据——从庞大的训练集中进行模式匹配就足以发挥作用了。但当我们考虑 AI 行业所宣称的走向通用人工智能甚至超级智能的轨迹时,目前的证据表明,仅仅扩大现有方法或增加更多的“思考”token,可能无法弥合统计模式识别与所谓的通用算法推理之间的鸿沟。
不过,技术正在飞速发展,新的方法也已经在开发中,以弥补这些不足。例如,自洽采样(self-consistency sampling)允许模型生成多条解决方案路径并检查它们是否一致;而自批判提示(self-critique prompts)则试图让模型评估自己的输出是否存在错误。工具增强(tool augmentation)是另一个有用的方向,o3-pro 和其他 ChatGPT 模型已经在使用它——通过将 LLM 连接到计算器、符号数学引擎或形式验证系统,研究人员可以弥补模型的一些计算弱点。这些方法前景看好,尽管它们尚未完全解决当前系统模式匹配的根本性质。
所以,目前来说,o3-pro 只是 OpenAI 之前模型的一个更好、更便宜的版本。它很擅长解决熟悉的问题,面对真正新颖的问题时会比较吃力,而且仍然会自信满满地犯错。如果你明白它的局限性,它会是一个强大的工具,但永远记得要双重检查它的结果!
关注【黑客联盟】带你走进神秘的黑客世界
特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.