全网吐槽，GPT-4.5不如DeepSeek？OpenAI首席研究官正面回应两者差异！（附视频）|算法|推理|gpt|mark|云计算费用|openai|deepseek

分享至

（关注公众号设为标，获取AI深度洞察）

全文 4,000字 | 阅读约10分钟

GPT-4.5 推出一天，便在全球范围内引发了激烈讨论，甚至可以说是"群嘲"。不少用户在体验后纷纷表示，GPT-4.5 并没有带来预期的提升，甚至在某些方面不如 DeepSeek，引发了关于 OpenAI 技术路线的广泛质疑。与此同时，中国AI新秀DeepSeek凭借出色的效率和推理能力，赢得了全球用户的赞誉与关注。这场"美国老牌AI巨头VS中国后起之秀"的较量，让OpenAI陷入了前所未有的舆论压力。

面对质疑声浪，OpenAI首席研究官Mark Chen昨天接受了独家专访，正面回应了GPT-4.5与DeepSeek的比较争议。作为OpenAI迄今为止规模最大、知识储备最丰富的模型，GPT-4.5究竟与DeepSeek有何本质区别？两种技术路线各有何优劣？"在无监督学习中，你需要更多的计算、算法效率和数据。GPT-4.5证明了我们可以继续扩展这个范式。"Chen表示，"而且，这个范式与推理并不对立。你需要知识作为推理的基础，模型不能盲目地从零开始学习推理。"

当被问及DeepSeek通过专家混合模型提高效率的创新方法时，Chen坦言："DeepSeek在推理堆栈上做得很好，我们也很重视以低成本服务用户。专家混合模型是语言模型的架构元素，几乎所有大型语言模型都在使用它，我们在GPT-4.5中也探索了这一技术及其他架构改进。"

完整文稿

主持人:Mark Chen 谢谢你能来。我们非常感谢你能在 GPT-4.5 这样的大新闻发布时参与进来。

Mark Chen:是的，GPT-4.5 确实是我们可预测扩展范式中的最新里程碑。此前的模型，如 GPT-3、GPT-3.5 和 GPT-4，都符合这一范式，而 GPT-4.5 是最新的成果。它在性能上比之前的模型有了数量级的提升，类似于从 GPT-3.5 到 GPT-4 的飞跃。

一、GPT-4.5而非GPT-5？

主持人:我想我们的听众最想问的问题，也是我们在过去几个月里讨论过的，就是为什么这不是 GPT-5？要达到 GPT-5 需要什么条件？

Mark Chen:嗯，关于命名，我们总是试图与趋势保持一致。对于可预测的扩展，从 GPT-3 到 GPT-3.5，我们可以预测出训练模型所需的计算量和效率提升能带来什么。我们发现这个模型符合我们对“4.5”版本的预期，所以我们就这样命名了。

主持人:但外界对 GPT-5 的讨论很多。如果我没记错，从 GPT-4 到 GPT-4.5 的等待时间比从 GPT-3.5 到 GPT-4 更长。这是由于 OpenAI 内部在 Twitter 上对下一个模型的炒作，还是因为这是世界上最没耐心的行业和用户群体？对 GPT-5 的期望似乎很高，你认为满足这些期望会很难吗？

Mark Chen:我不认为会很难。根本原因是我们现在有两个不同的扩展轴。一个是无监督学习，GPT-4.5 是这个轴上的最新实验；另一个是推理。从 GPT-4 到 GPT-4.5 的发布时间间隔较长，主要是因为我们大力专注于开发推理范式。我们的研究项目是探索性的，我们在探索所有扩展模型的途径。在过去的一年半到两年里，我们通过推理发现了一个非常令人兴奋的新范式，并且也在扩展它。所以，GPT-5 可能会是许多成果的集大成。

主持人:你提到推理，我们当然看到了 o1 和 DeepSeek 的热议。现在我们又在讨论一个更传统的大型语言模型 GPT-4.5。人们关心的是，当你增加更多计算、数据和能量时，AI 模型还能继续扩展吗？你对扩展极限的看法是什么？我们是否已经开始看到扩展的回报递减？

Mark Chen:我对扩展有不同的看法。在无监督学习中，你需要更多的计算、算法效率和数据。GPT-4.5 证明了我们可以继续扩展这个范式。而且，这个范式与推理并不对立。你需要知识作为推理的基础，模型不能盲目地从零开始学习推理。所以，这两个范式是互补的，它们之间有反馈循环。GPT-4.5 在知识方面比推理模型更聪明。在日常使用场景中，与 GPT-4 相比，人们更喜欢 GPT-4.5，在生产力和知识工作方面的偏好率达到 60% 到 70%。人们对这个模型反应很好，我们未来可以利用这些知识来提升推理模型。

二、GPT-4.5的使用场景

主持人:能举一些例子吗？在日常知识工作中，你会用 GPT-4.5 做什么，而不选择推理模型？

Mark Chen:GPT-4.5 有不同的特性。作为一个更大的模型，它需要更多时间处理查询，但也能立即给你回应。这与 GPT-4 的功能很相似。而像 o1 这样的推理模型，你给它一个查询，它可能会思考几分钟。这是两种根本不同的权衡：一个模型立即回应，不做太多思考但给出更好的答案；另一个模型思考一段时间再回答。我们发现，在创意写作等领域，GPT-4.5 比推理模型更出色，我们将在未来一两个月内进一步测试。

主持人:还有其他使用场景吗？

Mark Chen:除了写作，还有编码和一些特定的科学领域，GPT-4.5 在展示知识量方面表现更优秀。

主持人:关于扩展，我想问，在这个规模下，增加相同数量的计算和数据还能带来同样的回报吗？还是回报已经开始减少？

Mark Chen:不，我们仍然看到同样的回报。我想强调，GPT-4.5 是无监督学习范式的下一个点。我们根据之前训练的所有模型预测性能，在这个案例中，我们整合了扩展机制，达到了下一个数量级的点。

主持人:开发 GPT-4.5 的过程是怎样的？有报道说 OpenAI 不得不多次启动和停止才能让它成功。

Mark Chen:实际上，开发所有基础模型都是实验性的。我们经常在某些阶段停下来分析情况，然后重新开始。这不是 GPT-4.5 独有的，我们对 GPT-4 和 o 系列模型也是这样做的。这些都是实验，我们会在中途诊断，如果需要干预就进行干预。但我不会说这是 GPT-4.5 特有的做法。

三、与 DeepSeek模型差异

主持人:关于模型优化，DeepSeek 通过专家混合模型提高了效率。OpenAI 在这方面做了什么？你在 GPT-4.5 中做了类似的优化吗？如何更高效地运行这些大模型？

Mark Chen:我认为让模型高效服务与开发核心能力是相对独立的。我们在推理堆栈上做了很多工作，DeepSeek 在这方面做得很好，我们也很重视以低成本服务用户。不管是 GPT-4 还是推理模型，我们一直在施加压力以更高效地运行模型。自从推出 GPT-4 以来，成本已经下降了好几个数量级。专家混合模型是语言模型的架构元素，几乎所有大型语言模型都在使用它，这种优化同样适用于 GPT-4、GPT-4.5 和推理模型的效率提升。我们在 GPT-4.5 中也探索了专家混合模型以及其他架构改进。

主持人:在我们的 Discord 群里，最近大家一直在讨论小型和细分模型可能是未来。有人说：“对我来说，未来更多是细分模型融入工作流程，而不是这些通用的‘神模型’。”显然 OpenAI 有不同的看法。你如何看待大型模型与细分模型的关系？它们是对立的还是互补的？

Mark Chen:我们也提供小型模型，比如 mini 模型，它们成本效益高，能以较低成本提供接近前沿的能力，我们认为这是全面产品组合的重要部分。但在 OpenAI，我们的核心业务是推动智能的前沿，开发我们能做到的最好模型。我们希望尽可能推动智能的前沿，总会有前沿智能的使用场景。比如在数学上从 99.9% 到世界最佳，这个差异对我们有意义。顶尖科学家能发现的东西与我们普通人能发现的截然不同。所以，我们既推动智能前沿，同时也希望让这些能力更便宜、更具成本效益服务于所有人。我们不认为细分模型会消失，我们希望构建基础模型，并找到如何随时间降低成本提供这些能力的方法。

四、通用大模型vs细分模型

主持人:我们节目里经常争论什么更重要：产品还是模型。我支持模型，认为更好的模型能带来更多可能。但有时候我也不知道从数学 99% 到世界最佳能带来什么。你认为打造世界最佳模型能带来什么特别的东西？

Mark Chen:打造最佳模型标志着能力的转变。如果只是用现有模型打造最佳产品，那是应该一直做的事情。三年前，这表现为 ChatGPT；今天，用最佳模型和能力打造产品更像是智能代理。推理和代理密切相关，一个好的代理是你可以放手让它做事，并相信它会给出你想要的结果。推理是驱动它的引擎。如果模型第一次尝试失败，它能分析为什么失败并找到更好的方法。提升模型能带来各种形式的代理，比如 Deep Research，它能为你生成关于任何话题的完整报告。我用它准备过一小时的演讲，它能综合信息、组织内容、得出结论，让你深入探索任何感兴趣的主题。如果模型更好，产品会自然变得更好。

主持人:在离开前，我们快速聊聊 GPT-4.5 相比 GPT-4 的升级吧。你能简单介绍一下它在基准测试上的表现吗？另外，我读了你们的博客，感觉你们在说传统基准很重要，但也要关注情商（EQ）。为什么这两者要一起看？

Mark Chen:在传统指标上，如 GP QA 和 MMLU，GPT-4.5 的提升与从 GPT-3.5 到 GPT-4 的跳跃相当。此外，我们注意到它在情感智能方面有显著改进。比如，它如何回应关于困难情况的查询，给出的建议更具情感智能。今天晚些时候的博客会有例子。它还能完美生成 ASCII 艺术，而之前的模型大多做不到。创意写作也展示了这种能力。它不会为每个回答写长篇大论，比如有人说“我很难过”，它会简洁地像人一样回应，而不是给出一堆自我护理建议。这体现了情感智能。我们认为，每次推出新模型都是使用场景的发现过程。GPT-4.5 达到了我们预期的基准，但我们也想知道用户会发现什么新价值。

五、GPT-4.5的情感表达

主持人:可能会有人批评说，OpenAI 从关注传统基准转向情感智能，是在转移目标。你怎么回应？

Mark Chen:我不认为这是准确的描述。GPT-4.5 达到了我们预期的基准。从 GPT-3 到 GPT-4.5 的发展证明了这一点。关键在于，每次推出新模型，我们都在探索用户会喜欢什么。就像推出 GPT-4 时，它达到了预期基准，但用户共鸣才是关键问题。今天我们也在问同样的问题：我们发现它更具情感智能，更擅长创意写作，但你们会发现什么？

主持人:Mark，我在 OpenAI 的每次发布视频里都看到你，很高兴能和你现场对话。过去一年有报道说 OpenAI 人员流失严重，媒体可能夸大了，但我想知道在 OpenAI 工作是什么感觉？你如何看待公司的人才储备？你几个月前刚成为首席研究官，现在就有了新模型。

Mark Chen:OpenAI 仍然是世界最顶尖的 AI 组织，我们的人才标准与其他公司有明显差距。AI 领域变化很快，可能比任何领域都快。三个月前的领域和之前都不一样。有些人会有自己的 AI 发展理论并尝试新路，这是健康的，也给内部人员展示机会。我们从不缺愿意站出来的人，我很喜欢我们的人才储备。

星标公众号，点这里 1. 点击右上角 2. 点击"设为星标" ← AI深度研究员 ⋮ ← 设为星标

参考资料：https://www.youtube.com/watch?v=pdfI9MuxWq8&t=591s&ab_channel=AlexKantrowitz

来源：官方媒体/网络新闻

排版：Atlas

编辑：深思

主编: 图灵

特别声明：以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布，本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.