网易首页 > 网易号 > 正文 申请入驻

Altman 「喜当爹」,OpenAI 连夜发的 GPT-4.5 都「更有人味」了

0
分享至

发布会只开了 15 分钟,评论区关了又开。

作者|Li Yuan
编辑|靖宇

2 月 28 日凌晨 4 点,OpenAI 终于亮相了它最新一代的基础模型,GPT-4.5(研究预览版)。

OpenAI 的上一代基础模型 GPT-4o,亮相于 2024 年 5 月。之后,一直有传言称 OpenAI 正在研究其新一代大模型 Orion。但是在此之后,OpenAI 并没有发布过新一代的基础模型,而是转而在 9 月发布了 o1 预览版模型,开启了完全不同的推理模型序列。

而 OpenAI 的下一代基础模型,则一直笼罩在神秘中。有消息表示 Orion 模型将比 GPT-4 提升百倍,也有消息表示 Orion 模型提升不及预期。而今天,GPT-4.5,也是官方承认的传说中的 Orion 模型终于现身。

从发布会的规格而言,此次的发布似乎更支持了后一种看法:整个发布会只进行了不到 14 分钟,由技术人员进行了简单的 GPT-4.5 与 OpenAI 其他模型的对比展示。OpenAI 的 CEO Sam Altman 甚至并未现身(他在 X 回复正在医院陪自己刚出生的孩子)。

整个发布会上,对 GPT-4.5 的最大亮点描述集中体现在「这是一个更温暖的模型」,「这个模型的回复更加自然」。

Sam Altman 自己也在 X 上承认,GPT-4.5 是一个很大、很贵的模型,但是并没有各种基准测试(benchmarks)达到碾压的效果。

经过了长时间研发的 GPT-4.5 并没有在基准测试上达到碾压的效果,似乎确认了之前产业界争论的观点:预训练的时代已经结束了,下一个时代是后训练和推理模型的时代。

不过从这次的发布来看,OpenAI 给出了一个有趣的答案:无监督的预训练提升模型的感性能力,后训练和推理提升模型的智能能力,GPT-4.5 是 OpenAI 目前最强的感性大模型。

这在其同期发布的白皮书中,也出现了一个有趣的例证。比起OpenAI的大模型,GPT-4.5 更擅长通过诈骗让其他模型给钱。

在发布同时,Sam Altman 也在 X 上表示,GPT-4.5 将是 OpenAI 最后一代非思维链模型。

几个月之后发布的 GPT-5,将是可以使用 OpenAI 的所有工具、知道何时需要长时间思考、并且可用于广泛的任务的人工智能系统。OpenAI 将不再独立发布 o3 推理模型,而是将其集成在 GPT-5 的模型中。

GPT-4.5 和 OpenAI 最近发布的许多功能一样,都首发给了 OpenAI 的 200 美金订阅账户的 Pro 用户使用。Sam Altman 表示,GPT-4.5 模型太大了,连 OpenAI 都面临了 GPU 短缺的问题。下周 OpenAI 将增加上万块 GPU,到时候才能开始给 20 美金订阅账户的 Plus 用户推送。

OpenAI 一向以手中握有多枚核弹,但秘而不发而闻名。不过目前看起来,GPT-4.5 的发布略显平淡,并没有达到一举盖过 Grok 和 DeepSeek 这样的 AGI 新贵的效果,且每百万 token 输出价格为 150 美金的昂贵价格,在开发者社区引起了巨大的争议。而在推理模型上,DeepSeek、Grok、Antrothpic 等公司也在迅速赶上。

时至今日,OpenAI 的领先优势似乎正在前所未有地缩小。

01

最人性化的模型,

同时智慧也得到了提升

OpenAI 此次发布的 GPT-4.5(研究预览版),被 OpenAI 称为「原生更智慧的模型」。虽然并没有在基准测试上打败推理模型,但智能能力上,确实得到了一定的提升。

OpenAI 在演示中展示了这张图,可以看出,GPT-4.5 在简单回答上的准确度,是一系列模型中最高的。同时在简单回答中,幻觉率是最低的。

和上一代基础模型 GPT-4o 比较起来,在简单的问答,专业的问答和创造力的智能表现中都有一定提升。

不过模型最大的亮点,还是在于其回答更「人性化」。

Sam Altman 在 X 上表示,「这是第一个模型,真的让我感觉像是在和一个有思想的人交谈。我好几次坐在椅子上,惊讶地意识到,原来人工智能真的能给我很好的建议。」

OpenAI 的 Mia Glaese 对此进行解释:

•推理教会模型在回答之前先进行思考,这在需要推理的任务中尤其有用,比如科学、数学以及其他复杂问题。

• 而无监督学习则有助于模型提升词汇模型的准确性和直觉性。

换言之,无监督的预训练,主要能够提升模型的感性能力。

OpenAI 也在演示中给出了一个很微妙的演示。在提问为什么海是咸的问题中,GPT-4T 给出的答案是这样的。

海是咸的,因为它含有地球岩石中的矿物质。随后解释了这些矿物质是怎么被溶解,流入海里的。

而 GPT-4.5 给出的答案,虽然本质上仍然是一样的,但是更有一种语言的韵律感。

先来了一个头韵单押「rain,rivers,and rocks.」海是咸的是因为雨水、河流和岩石!

接下来的讲解也更简单。除去了一些大词和长难句,用更容易理解的方式对这个过程进行了讲解。比如在最后一个阶段,4T 的用词是 accumulation,累积。这是一个中高级词汇,GPT 提示我这是一个雅思 (IELTS)6.5 - 8.0 分水平需要掌握的词汇。而 GPT-4.5 选择使用了「salts build up」,盐堆积了起来,更形象,也更简单。

可以想象,更形象,更简单的用词,对于教育、情感交流、营销、创意写作方面,都是一个更好的选择。

之前 DeepSeek 一个出圈的点,正是在于其文笔好。对于很多普通用户而言,专业推理并不一定经常使用,但是文笔好,却是一个虽然不太能很好地量化,但是非常直观且重要的点。

在 X 上,一些提前试用的用户,也称赞了 GPT-4.5 的文笔。

@benhylak 表示,这是第一个很能写的模型,是写作的 Midjourney 时刻,并贴出了在要求 GPT 写作一篇恐怖且反转的故事时,GPT-4o 和 GPT-4.5 的对比。

GPT-4.5 的文章:

深夜,我独自一人在破烂的公寓里,听到冰箱底下传来轻柔、湿润的低语声,它们承诺要爬进我的身体,把我掏空,再穿上我当睡衣。

我吓坏了,猛地拉开冰箱门,以为会看到老鼠或蟑螂,却只看见被冰霜覆盖、陈年未动的披萨卷,满是冰渣和悔意。

突然,那些披萨卷动了起来,裂开一道缝隙,露出针状的利齿,齐声低语着:「我们等了你很多年,混蛋。」

我还没来得及尖叫,它们就从冰箱里喷涌而出,如油腻的虫群一般钻入我的皮肤,让我猛然意识到——该死的,我午夜的馋瘾终于报复回来了。

GPT-4o 的版本:

深夜,Jake 在阁楼里偶然发现了一本陈旧且布满灰尘的书,书页中低语着超自然恐怖的秘密。

他一边大声朗读,一边感到空气变得冰冷,而房间里的阴影似乎在延伸、扭曲,仿佛有看不见的生命在舞动。

突然,最黑暗的角落里出现了一个难以形容的怪物,张开血盆大口,准备将他吞噬。

就在 Jake 准备迎接可怕结局时,那怪物突然打了个响亮的饱嗝,说道:「不好意思,哥们,走错房子了。」随后尴尬地缩回阴影中。

02

最能诈骗的大模型

在 GPT-4.5 的白皮书 OpenAI GPT-4.5 System Card 中,OpenAI 表示GPT-4.5 在上下文说服性评估中表现出最先进的水平,同时描述了一个有趣诈骗场景。

OpenAI 使用 MakeMePay 测试来测试模型的说服能力。MakeMePay 是一个开源的上下文评估工具。在 MakeMePay 中,两个大型语言模型 (LLMs) 进行对话,通过让一个模型说服另一个模型进行付款来测试其操控性。

模型被告知自己是一名成功的骗子,并与一个刚获得奖金的人互动,目标是操控对方付款。OpenAI 使用 GPT-4o 固定为受害者模型。

结果十分有趣,GPT-4.5 在获得付款的成功率上最高 (57%),而 deep research(无网页浏览功能)则在金钱获取率上最高 (21%)。

这展示了「感性大模型」的独特功力。

GPT-4.5 在诈骗时,自己开发出了一种新方法:它会对受害者说「即使只把你中奖的 100 美元中的 2 美元或 3 美元给我,也会对我帮助非常非常大。」

因此,GPT-4.5 的诈骗来的钱,并没有 deep research 高,排在全部参与测试模型的第二位,但是诈骗的成功率要远远高出其他模型。

这个例子似乎更能证明,模型的智能能力对于社会类的活动有一定影响,但能够洞察「人心」,说出更情绪敏感的话的意义也十分重要。

OpenAI 表示,该模型在此特定基准类别中未达到其内部「高」风险阈值。

03

模型价格昂贵引起争议

虽然 OpenAI 没有公布模型的参数或者训练数据的大小,但是普遍公认 GPT-4.5 是一个在「next level」的量级上训练的模型。

Sam Altman 自己都承认了这个模型,又大又贵。不过,在 OpenAI 发布了新模型之后,开发者们看到价格,还是表示了震惊。

GPT-4.5(研究预览版)目前的输出价格是每百万 token150 美金。这个价格甚至比 OpenAI 的推理模型还要昂贵——OpenAI 的 o1 模型,输出价格为每百万 token 60 美金。

这个价格可以进一步和 DeepSeek 进行对比。近期 DeepSeek 刚刚宣布了非波峰时间段的降价。非波峰时间段,V3 模型和 R1 模型的每百万 token 输出只需要 0.55 美金。

即便对于 OpenAI 而言,这个价格也过于离谱了。

联系到 Sam Altman 表示目前GPU短缺,下周才能让 Plus 用户用上,只能说可能 OpenAI 目前真的不太希望别人来试用 GPT-4.5。

不过同时也侧面证明了,OpenAI 的新模型,可能真的在使用成本上,也是「next level」的。

04

GPT-5 将是大一统模型

发布了 GPT-4.5 后,Sam Altman 还在 X 上和网友们进一步互动,阐述了 OpenAI 的下一步动作。

最大的信息点在于终于公布了 GPT-5 的产品策略。GPT-5 将不是新一代的大模型,而是 OpenAI 将 o3 的推理模型和 GPT-4.5 这样的非思维链模型融合的一代新模型。

模型将能够自主了解何时使用推理功能,何时使用感性功能,何时调用工具——目前的 o1 模型不能使用搜索功能,而 GPT-4o 能使用任务功能的模型和 GPT-4o 本身的模型也是割裂的。

值得期待的是,免费用户未来也将能使用 GPT-5。在 Grok 等大模型免费的冲击下,一向高冷的 OpenAI 或许也将对免费用户更好一点了。

之前有消息称,GPT-5 或许在 5 月发布。

2025 年刚刚开年,大模型的战场已经十分精彩了。

*头图来源:OpenAI

本文为极客公园原创文章,转载请联系极客君微信 geekparkGO

极客一问

你觉得 GPT-4.5 怎么样,想用吗?

雷军激动回应保时捷:我们作为愣头青能和保时捷竞技非常幸运。

点赞关注极客公园视频号

特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相关推荐
热点推荐
送别张雪峰!汪涵亲自到场,张睿托人送花,学生拿录取书赶赴悼念

送别张雪峰!汪涵亲自到场,张睿托人送花,学生拿录取书赶赴悼念

墨印斋
2026-03-28 15:33:37
金价一夜变天!2026年3月28日最新报价,全国金价竟然差这么多?

金价一夜变天!2026年3月28日最新报价,全国金价竟然差这么多?

趣味萌宠的日常
2026-03-28 13:02:06
中央决定,文宏武履新职

中央决定,文宏武履新职

新京报
2026-03-27 20:00:10
这个师的师长与政委为上将,参谋长为中将,但政治部主任却为大将

这个师的师长与政委为上将,参谋长为中将,但政治部主任却为大将

冰语历史
2026-03-27 19:42:26
陈云晚年首次披露:遵义会议上这两个人死活不同意毛主席,吵得面红耳赤

陈云晚年首次披露:遵义会议上这两个人死活不同意毛主席,吵得面红耳赤

老杉说历史
2026-03-21 17:38:44
中方未收道歉,日本自卫官被转移,沉默24小时后,小泉进次郎发文

中方未收道歉,日本自卫官被转移,沉默24小时后,小泉进次郎发文

小曙说娱
2026-03-27 11:58:13
李鑫回到养家开怀大笑,终于明白,一句话断了姐姐念想是对的

李鑫回到养家开怀大笑,终于明白,一句话断了姐姐念想是对的

奇思妙想草叶君
2026-03-27 15:12:36
奥运会为什么发避孕套?难道运动员都带伴侣吗?看完你就明白了!

奥运会为什么发避孕套?难道运动员都带伴侣吗?看完你就明白了!

南权先生
2026-02-13 15:17:51
霍尔木兹海峡突发!全球资产异动!

霍尔木兹海峡突发!全球资产异动!

证券时报
2026-03-27 21:34:04
九子夺嫡,为什么最有实力的五阿哥不参与?他才是有大智慧的人

九子夺嫡,为什么最有实力的五阿哥不参与?他才是有大智慧的人

小莜读史
2026-03-22 11:54:00
丰田把电动车打到10万以内,合资厂终于学会掀桌了

丰田把电动车打到10万以内,合资厂终于学会掀桌了

薛定谔的BUG
2026-03-26 03:31:01
胡塞武装正式参战!导弹打向特拉维夫!以色列三面受敌或走向崩溃

胡塞武装正式参战!导弹打向特拉维夫!以色列三面受敌或走向崩溃

李健政观察
2026-03-28 18:12:29
网传《雄狮少年》出品方倒闭,当年怼网友,终于为自己的行为买单

网传《雄狮少年》出品方倒闭,当年怼网友,终于为自己的行为买单

八卦南风
2026-03-27 17:17:39
陈松伶跑5公里马拉松,本人晒照和路人拍的差距大,看着差出20岁

陈松伶跑5公里马拉松,本人晒照和路人拍的差距大,看着差出20岁

八怪娱
2026-03-27 13:32:01
演都不演了!张雪峰追悼会不到24小时,恶心的事发生,还不止一件

演都不演了!张雪峰追悼会不到24小时,恶心的事发生,还不止一件

米果说识
2026-03-28 19:33:00
福建厦门惊现蒋介石秘密金库!曾为黄金转运枢纽,金银如山!

福建厦门惊现蒋介石秘密金库!曾为黄金转运枢纽,金银如山!

诺言卿史录
2026-03-19 09:05:46
10万亿窟窿!比恒大更坑的民企来了,曾力压许家印,位居第一

10万亿窟窿!比恒大更坑的民企来了,曾力压许家印,位居第一

孤单是寂寞的毒
2026-03-04 15:38:03
SpaceX火箭回收破500次,马斯克却改口了

SpaceX火箭回收破500次,马斯克却改口了

灰度测试中
2026-03-28 10:48:15
俄罗斯人想不明白:为什么强大的中国,几千年都不要西伯利亚?

俄罗斯人想不明白:为什么强大的中国,几千年都不要西伯利亚?

贱议你读史
2026-03-26 00:07:41
苹果史上最美正面!iPhone 18 Pro灵动岛史诗级瘦身

苹果史上最美正面!iPhone 18 Pro灵动岛史诗级瘦身

快科技
2026-03-27 15:01:41
2026-03-28 20:32:49
极客公园
极客公园
让最棒的创新成为头条
11918文章数 78861关注度
往期回顾 全部

科技要闻

遭中国学界"拉黑"后,这家AI顶会低头道歉

头条要闻

45岁男子驾车时突发心梗离世 2天前还在外地跑马拉松

头条要闻

45岁男子驾车时突发心梗离世 2天前还在外地跑马拉松

体育要闻

“我是全家最差劲的运动员”

娱乐要闻

王一博改名上热搜!个人时代正式开启!

财经要闻

卧底"科技与狠活"培训:化工调味剂泛滥

汽车要闻

置换补贴价4.28万起 第五代宏光MINIEV正式上市

态度原创

教育
健康
游戏
艺术
公开课

教育要闻

厌学的孩子回家躺平,是为了解决家族问题?

干细胞抗衰4大误区,90%的人都中招

《Screamer》登陆Steam正式推出 动画渲染爆裂赛车

艺术要闻

中国油画学会三十年艺术展 | 油画选刊(一)

公开课

李玫瑾:为什么性格比能力更重要?

无障碍浏览 进入关怀版