网易首页 > 网易号 > 正文 申请入驻

全网吐槽,GPT-4.5不如DeepSeek?OpenAI首席研究官正面回应两者差异!(附视频)

0
分享至

(关注公众号设为标,获取AI深度洞察)

全文 4,000字 | 阅读约10分钟


GPT-4.5 推出一天,便在全球范围内引发了激烈讨论,甚至可以说是"群嘲"。不少用户在体验后纷纷表示,GPT-4.5 并没有带来预期的提升,甚至在某些方面不如 DeepSeek,引发了关于 OpenAI 技术路线的广泛质疑。与此同时,中国AI新秀DeepSeek凭借出色的效率和推理能力,赢得了全球用户的赞誉与关注。这场"美国老牌AI巨头VS中国后起之秀"的较量,让OpenAI陷入了前所未有的舆论压力。

面对质疑声浪,OpenAI首席研究官Mark Chen昨天接受了独家专访,正面回应了GPT-4.5与DeepSeek的比较争议。作为OpenAI迄今为止规模最大、知识储备最丰富的模型,GPT-4.5究竟与DeepSeek有何本质区别?两种技术路线各有何优劣?"在无监督学习中,你需要更多的计算、算法效率和数据。GPT-4.5证明了我们可以继续扩展这个范式。"Chen表示,"而且,这个范式与推理并不对立。你需要知识作为推理的基础,模型不能盲目地从零开始学习推理。"

当被问及DeepSeek通过专家混合模型提高效率的创新方法时,Chen坦言:"DeepSeek在推理堆栈上做得很好,我们也很重视以低成本服务用户。专家混合模型是语言模型的架构元素,几乎所有大型语言模型都在使用它,我们在GPT-4.5中也探索了这一技术及其他架构改进。"

完整文稿

主持人:Mark Chen 谢谢你能来。我们非常感谢你能在 GPT-4.5 这样的大新闻发布时参与进来。

Mark Chen:是的,GPT-4.5 确实是我们可预测扩展范式中的最新里程碑。此前的模型,如 GPT-3、GPT-3.5 和 GPT-4,都符合这一范式,而 GPT-4.5 是最新的成果。它在性能上比之前的模型有了数量级的提升,类似于从 GPT-3.5 到 GPT-4 的飞跃。

一、GPT-4.5而非GPT-5?

主持人:我想我们的听众最想问的问题,也是我们在过去几个月里讨论过的,就是为什么这不是 GPT-5?要达到 GPT-5 需要什么条件?

Mark Chen:嗯,关于命名,我们总是试图与趋势保持一致。对于可预测的扩展,从 GPT-3 到 GPT-3.5,我们可以预测出训练模型所需的计算量和效率提升能带来什么。我们发现这个模型符合我们对“4.5”版本的预期,所以我们就这样命名了。

主持人:但外界对 GPT-5 的讨论很多。如果我没记错,从 GPT-4 到 GPT-4.5 的等待时间比从 GPT-3.5 到 GPT-4 更长。这是由于 OpenAI 内部在 Twitter 上对下一个模型的炒作,还是因为这是世界上最没耐心的行业和用户群体?对 GPT-5 的期望似乎很高,你认为满足这些期望会很难吗?

Mark Chen:我不认为会很难。根本原因是我们现在有两个不同的扩展轴。一个是无监督学习,GPT-4.5 是这个轴上的最新实验;另一个是推理。从 GPT-4 到 GPT-4.5 的发布时间间隔较长,主要是因为我们大力专注于开发推理范式。我们的研究项目是探索性的,我们在探索所有扩展模型的途径。在过去的一年半到两年里,我们通过推理发现了一个非常令人兴奋的新范式,并且也在扩展它。所以,GPT-5 可能会是许多成果的集大成。

主持人:你提到推理,我们当然看到了 o1 和 DeepSeek 的热议。现在我们又在讨论一个更传统的大型语言模型 GPT-4.5。人们关心的是,当你增加更多计算、数据和能量时,AI 模型还能继续扩展吗?你对扩展极限的看法是什么?我们是否已经开始看到扩展的回报递减?

Mark Chen:我对扩展有不同的看法。在无监督学习中,你需要更多的计算、算法效率和数据。GPT-4.5 证明了我们可以继续扩展这个范式。而且,这个范式与推理并不对立。你需要知识作为推理的基础,模型不能盲目地从零开始学习推理。所以,这两个范式是互补的,它们之间有反馈循环。GPT-4.5 在知识方面比推理模型更聪明。在日常使用场景中,与 GPT-4 相比,人们更喜欢 GPT-4.5,在生产力和知识工作方面的偏好率达到 60% 到 70%。人们对这个模型反应很好,我们未来可以利用这些知识来提升推理模型。

二、GPT-4.5的使用场景

主持人:能举一些例子吗?在日常知识工作中,你会用 GPT-4.5 做什么,而不选择推理模型?

Mark Chen:GPT-4.5 有不同的特性。作为一个更大的模型,它需要更多时间处理查询,但也能立即给你回应。这与 GPT-4 的功能很相似。而像 o1 这样的推理模型,你给它一个查询,它可能会思考几分钟。这是两种根本不同的权衡:一个模型立即回应,不做太多思考但给出更好的答案;另一个模型思考一段时间再回答。我们发现,在创意写作等领域,GPT-4.5 比推理模型更出色,我们将在未来一两个月内进一步测试。

主持人:还有其他使用场景吗?

Mark Chen:除了写作,还有编码和一些特定的科学领域,GPT-4.5 在展示知识量方面表现更优秀。

主持人:关于扩展,我想问,在这个规模下,增加相同数量的计算和数据还能带来同样的回报吗?还是回报已经开始减少?

Mark Chen:不,我们仍然看到同样的回报。我想强调,GPT-4.5 是无监督学习范式的下一个点。我们根据之前训练的所有模型预测性能,在这个案例中,我们整合了扩展机制,达到了下一个数量级的点。

主持人:开发 GPT-4.5 的过程是怎样的?有报道说 OpenAI 不得不多次启动和停止才能让它成功。

Mark Chen:实际上,开发所有基础模型都是实验性的。我们经常在某些阶段停下来分析情况,然后重新开始。这不是 GPT-4.5 独有的,我们对 GPT-4 和 o 系列模型也是这样做的。这些都是实验,我们会在中途诊断,如果需要干预就进行干预。但我不会说这是 GPT-4.5 特有的做法。

三、与 DeepSeek模型差异

主持人:关于模型优化,DeepSeek 通过专家混合模型提高了效率。OpenAI 在这方面做了什么?你在 GPT-4.5 中做了类似的优化吗?如何更高效地运行这些大模型?

Mark Chen:我认为让模型高效服务与开发核心能力是相对独立的。我们在推理堆栈上做了很多工作,DeepSeek 在这方面做得很好,我们也很重视以低成本服务用户。不管是 GPT-4 还是推理模型,我们一直在施加压力以更高效地运行模型。自从推出 GPT-4 以来,成本已经下降了好几个数量级。专家混合模型是语言模型的架构元素,几乎所有大型语言模型都在使用它,这种优化同样适用于 GPT-4、GPT-4.5 和推理模型的效率提升。我们在 GPT-4.5 中也探索了专家混合模型以及其他架构改进。

主持人:在我们的 Discord 群里,最近大家一直在讨论小型和细分模型可能是未来。有人说:“对我来说,未来更多是细分模型融入工作流程,而不是这些通用的‘神模型’。”显然 OpenAI 有不同的看法。你如何看待大型模型与细分模型的关系?它们是对立的还是互补的?

Mark Chen:我们也提供小型模型,比如 mini 模型,它们成本效益高,能以较低成本提供接近前沿的能力,我们认为这是全面产品组合的重要部分。但在 OpenAI,我们的核心业务是推动智能的前沿,开发我们能做到的最好模型。我们希望尽可能推动智能的前沿,总会有前沿智能的使用场景。比如在数学上从 99.9% 到世界最佳,这个差异对我们有意义。顶尖科学家能发现的东西与我们普通人能发现的截然不同。所以,我们既推动智能前沿,同时也希望让这些能力更便宜、更具成本效益服务于所有人。我们不认为细分模型会消失,我们希望构建基础模型,并找到如何随时间降低成本提供这些能力的方法。

四、通用大模型vs细分模型

主持人:我们节目里经常争论什么更重要:产品还是模型。我支持模型,认为更好的模型能带来更多可能。但有时候我也不知道从数学 99% 到世界最佳能带来什么。你认为打造世界最佳模型能带来什么特别的东西?

Mark Chen:打造最佳模型标志着能力的转变。如果只是用现有模型打造最佳产品,那是应该一直做的事情。三年前,这表现为 ChatGPT;今天,用最佳模型和能力打造产品更像是智能代理。推理和代理密切相关,一个好的代理是你可以放手让它做事,并相信它会给出你想要的结果。推理是驱动它的引擎。如果模型第一次尝试失败,它能分析为什么失败并找到更好的方法。提升模型能带来各种形式的代理,比如 Deep Research,它能为你生成关于任何话题的完整报告。我用它准备过一小时的演讲,它能综合信息、组织内容、得出结论,让你深入探索任何感兴趣的主题。如果模型更好,产品会自然变得更好。

主持人:在离开前,我们快速聊聊 GPT-4.5 相比 GPT-4 的升级吧。你能简单介绍一下它在基准测试上的表现吗?另外,我读了你们的博客,感觉你们在说传统基准很重要,但也要关注情商(EQ)。为什么这两者要一起看?

Mark Chen:在传统指标上,如 GP QA 和 MMLU,GPT-4.5 的提升与从 GPT-3.5 到 GPT-4 的跳跃相当。此外,我们注意到它在情感智能方面有显著改进。比如,它如何回应关于困难情况的查询,给出的建议更具情感智能。今天晚些时候的博客会有例子。它还能完美生成 ASCII 艺术,而之前的模型大多做不到。创意写作也展示了这种能力。它不会为每个回答写长篇大论,比如有人说“我很难过”,它会简洁地像人一样回应,而不是给出一堆自我护理建议。这体现了情感智能。我们认为,每次推出新模型都是使用场景的发现过程。GPT-4.5 达到了我们预期的基准,但我们也想知道用户会发现什么新价值。

五、GPT-4.5的情感表达

主持人:可能会有人批评说,OpenAI 从关注传统基准转向情感智能,是在转移目标。你怎么回应?

Mark Chen:我不认为这是准确的描述。GPT-4.5 达到了我们预期的基准。从 GPT-3 到 GPT-4.5 的发展证明了这一点。关键在于,每次推出新模型,我们都在探索用户会喜欢什么。就像推出 GPT-4 时,它达到了预期基准,但用户共鸣才是关键问题。今天我们也在问同样的问题:我们发现它更具情感智能,更擅长创意写作,但你们会发现什么?

主持人:Mark,我在 OpenAI 的每次发布视频里都看到你,很高兴能和你现场对话。过去一年有报道说 OpenAI 人员流失严重,媒体可能夸大了,但我想知道在 OpenAI 工作是什么感觉?你如何看待公司的人才储备?你几个月前刚成为首席研究官,现在就有了新模型。

Mark Chen:OpenAI 仍然是世界最顶尖的 AI 组织,我们的人才标准与其他公司有明显差距。AI 领域变化很快,可能比任何领域都快。三个月前的领域和之前都不一样。有些人会有自己的 AI 发展理论并尝试新路,这是健康的,也给内部人员展示机会。我们从不缺愿意站出来的人,我很喜欢我们的人才储备。

星标公众号, 点这里 1. 点击右上角 2. 点击"设为星标" ← AI深度研究员 ⋮ ← 设为星标

参考资料:https://www.youtube.com/watch?v=pdfI9MuxWq8&t=591s&ab_channel=AlexKantrowitz

来源:官方媒体/网络新闻

排版:Atlas

编辑:深思

主编: 图灵

特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相关推荐
热点推荐
阴毛有什么用?要不要刮掉?由黑变白暗示着什么?医生告诉你答案

阴毛有什么用?要不要刮掉?由黑变白暗示着什么?医生告诉你答案

芹姐说生活
2026-06-29 23:33:11
世界杯巨大争议!佐野海舟逃红后破门,球员集体抗议,媒体人开炮

世界杯巨大争议!佐野海舟逃红后破门,球员集体抗议,媒体人开炮

奥拜尔
2026-06-30 01:49:43
冯小刚新片彻底扑街!袁立犀利发文不留情面:你的时代已经结束了

冯小刚新片彻底扑街!袁立犀利发文不留情面:你的时代已经结束了

白面书誏
2026-06-28 23:15:33
坏了!交易达成,2.16亿,雷霆厉害啊,总冠军有戏了

坏了!交易达成,2.16亿,雷霆厉害啊,总冠军有戏了

体育新角度
2026-06-29 16:36:58
美国抽身、欧洲承压、俄罗斯释放和谈信号,俄乌是否迎来“和谈窗口期”?

美国抽身、欧洲承压、俄罗斯释放和谈信号,俄乌是否迎来“和谈窗口期”?

上观新闻
2026-06-29 15:16:29
重磅交易!莫兰特1换2!枪王终究回到杨家军!

重磅交易!莫兰特1换2!枪王终究回到杨家军!

贵圈真乱
2026-06-30 08:21:49
本田圭佑:巴西最可怕的是让你觉得自己能行,结果他们进球了

本田圭佑:巴西最可怕的是让你觉得自己能行,结果他们进球了

懂球帝
2026-06-29 23:16:13
巴拉圭点杀德国——这真是德国?!

巴拉圭点杀德国——这真是德国?!

张佳玮写字的地方
2026-06-30 07:59:11
孙俪在后台逮住杨紫,开口就问:拿了白玉兰,有新戏能不能推荐推荐我?杨紫接得飞快

孙俪在后台逮住杨紫,开口就问:拿了白玉兰,有新戏能不能推荐推荐我?杨紫接得飞快

陈意小可爱
2026-06-30 01:55:15
美股全线走高,芯片股V型反转,西部数据涨超11%,谷歌首秀道指破52000点,黄金跳水,国际油价反弹

美股全线走高,芯片股V型反转,西部数据涨超11%,谷歌首秀道指破52000点,黄金跳水,国际油价反弹

第一财经资讯
2026-06-30 07:20:21
男子在京东买到“同仁堂”假药②:维权3个月无果 店铺把“北京同仁堂”改成“南京同仁堂”继续售卖

男子在京东买到“同仁堂”假药②:维权3个月无果 店铺把“北京同仁堂”改成“南京同仁堂”继续售卖

闪电新闻
2026-06-29 19:16:04
上半场封神 下半场崩盘!安帅1招击溃日本铁桶阵,巴西赢在教练!

上半场封神 下半场崩盘!安帅1招击溃日本铁桶阵,巴西赢在教练!

看透足球专栏
2026-06-30 03:57:30
40岁超模晒透视装露点照遭围攻,她怒怼:胸部切过3次还给俩娃喂过奶,这算什么性感

40岁超模晒透视装露点照遭围攻,她怒怼:胸部切过3次还给俩娃喂过奶,这算什么性感

赴一场山海啊
2026-06-30 00:55:22
演员吴启华卖肖像权拍AI电影,称完全不用亲自拍摄,“终于又重温一次当男主的滋味”,并大方表示酬劳不错

演员吴启华卖肖像权拍AI电影,称完全不用亲自拍摄,“终于又重温一次当男主的滋味”,并大方表示酬劳不错

洪观新闻
2026-06-29 14:52:15
韩国真实惨案:成年日那天,妈妈说给她准备了一个“神秘礼物”

韩国真实惨案:成年日那天,妈妈说给她准备了一个“神秘礼物”

法医秦明|悬疑小站
2026-06-29 16:01:56
赌王千金何超莲上海被偶遇,个子小小却比例超好,身材也太顶了吧

赌王千金何超莲上海被偶遇,个子小小却比例超好,身材也太顶了吧

木子爱娱乐大号
2026-06-29 17:26:11
乌克兰发广告全球征兵

乌克兰发广告全球征兵

枢密院十号
2026-06-29 18:24:24
震惊!经济学家宋清辉在美国发文,称自己“怕得要死,夜不能寐”

震惊!经济学家宋清辉在美国发文,称自己“怕得要死,夜不能寐”

火山詩话
2026-06-29 12:29:07
福建峡谷5人遇难!原因曝光,最后画面还在笑,群主一句话害死人

福建峡谷5人遇难!原因曝光,最后画面还在笑,群主一句话害死人

小鋭有话说
2026-06-29 22:31:44
韩红朋友圈曝光:诚恳道歉,将退出公益行业……

韩红朋友圈曝光:诚恳道歉,将退出公益行业……

麦杰逊
2026-06-29 17:03:35
2026-06-30 08:36:49
AI深度研究员 incentive-icons
AI深度研究员
AI时代刚刚到来,一切才刚开始,我们正当其时!
455文章数 171关注度
往期回顾 全部

科技要闻

杀疯了!深圳一天出两家200亿具身智能公司

头条要闻

牛弹琴:韩国对男足耻辱出局激烈反应 全世界震惊不已

头条要闻

牛弹琴:韩国对男足耻辱出局激烈反应 全世界震惊不已

体育要闻

日本众将掩面痛哭 连续3届先破门却被逆转

娱乐要闻

跟风电影《给阿公的牛肉丸》开机

财经要闻

万达广场批量易主 多位投资人正式入局

汽车要闻

全新宝马iX3长轴版将于成都车展预售 四季度交付

态度原创

时尚
健康
旅游
手机
军事航空

好特别的白色造型,太高级了

狂吃“糯叽叽”小心肠梗阻!

旅游要闻

济南古村方峪村

手机要闻

苹果印度供应商塔塔电子被黑,iPhone 18 Pro机密文件现身暗网

军事要闻

普京最新发声:俄罗斯正处于命运攸关之际

无障碍浏览 进入关怀版