网易首页 > 网易号 > 正文 申请入驻

OpenAI 重磅发布 GPT4.5,更像人了!Karpathy一手评测:有惊喜但提升微妙

0
分享至

  北京时间凌晨4点钟OpenAI举行一个14分钟左右的直播发布,GPT4.5 终于发布了!凌晨4点爬起来第一时间给大家更新,

  废话不多说,先看看Sam Altman的对GPT 4.5的感受:

  Sam:

  GPT-4.5 准备好了!

  好消息:它是我遇到的第一个感觉像是在和一位有思想的人交谈的模型。 我有好几次都向后靠在椅子上,惊讶于竟然能从人工智能那里得到真正的好建议

  坏消息:这是一个庞大且昂贵的模型。 我们真的想同时向 Plus 和 Pro 用户推出它,但我们的用户增长非常迅速,以至于 GPU 不够用了。 我们将在下周增加数万个 GPU,然后向 Plus 用户层推出它。(数十万个即将到来,而且我确信你们会用完我们能部署的每一个。)

  这不是我们希望的运营方式,但很难完美预测导致 GPU 短缺的增长激增。

温馨提示:这并非一个推理模型,也不会在基准测试中表现突出。 这是一种不同类型的智能,并且它有一种我以前从未感受过的魔力。 真的非常激动能让大家试试它!

  是不是觉得泛善可陈?下面我们来看看GPT4.5长什么样子(发布会视频附在文章最后):

  发布会一开始上,OpenAI先展示了一个例子。当用户表达 “朋友又取消了我的约会,我太生气了,想发消息骂他” 这种负面情绪时, GPT-4.5 展现出了惊人的理解能力和情商:

  •老模型 (o1) 的回复:直接按照指令输出了愤怒的骂人短信,虽然完成了任务,但显得冷冰冰,甚至有点 “火上浇油”。

  •GPT-4.5 的回复:它不仅给出了更温和、更建设性的短信建议,还 “听” 出了用户言语背后的真实需求—— TA 可能只是需要倾诉和安慰,而不是真的想和朋友闹翻!

  这种细微的情感理解和微妙回应,正是 GPT-4.5 的亮点之一!它不再是冷冰冰的机器,能够更好地理解我们的真实意图和情感需求

  知识更渊博,能力更全面

  除了情商升级, GPT-4.5 的知识储备和能力也得到了显著提升。发布会上OpenAI对比了 GPT 系列模型回答 “为什么海洋是咸的” 这个问题:

  •GPT-1:完全懵圈

  •GPT-2:有点沾边,但还是错误答案。

  •GPT-3.5 Turbo:给出了正确答案,但解释很生硬,细节冗余。

  •GPT-4 Turbo:答案不错,但有点 “炫技”,不够简洁明了。

  •GPT-4.5:完美答案!简洁、清晰、有条理,第一句话 “海洋是咸的,因为雨水、河流和岩石” 更是朗朗上口,充满趣味性!

  更强,更快,更安全

  按照OpenAI的说法这些进步背后,是 GPT-4.5 在技术上的全面升级:

  •更强的模型:更大的模型规模,更多的计算资源投入,带来更强大的语言理解和生成能力。

  •创新的训练机制:采用新的训练机制,使用更小的资源 footprint 就能微调如此巨大的模型。

  •多迭代优化:通过监督微调和人类反馈强化学习 (RLHF) 的组合进行多轮迭代训练,不断提升模型性能。

  •多数据中心预训练:为了充分利用计算资源,GPT-4.5 甚至跨多个数据中心进行预训练! 这规模,想想都震撼!

  •低精度训练和推理优化:采用低精度训练和新的推理系统,保证模型又快又好。

  •更安全的模型:经过严格的安全评估和准备度评估,确保模型可以安全可靠地与世界分享

  性能表现

  发布会上OpenAI 还展示了 GPT-4.5 在各种 benchmark 上表现:

  GBQA (推理密集型科学评估):大幅提升!虽然还落后于 OpenAI-03 Mini (可以思考后再回答的模型),但已经非常接近!

  AIME24 (美国高中竞赛数学评估):相对推理模型提升不多

  SWE Bench verified (Agentic 编码评估):相比GPT4o仅仅提升7%

  SWE Lancer (更依赖世界知识的 Agentic 编码评估):超越 OpenAI-03 Mini!

  Multilingual MMLU (多语言语言理解基准):提升不到4%

  Multimodal MMLU (多模态理解):多模态能力提升5%左右

  Andrej Karpathy 评测GPT-4.5

  相信大家和我一样,对 GPT 的每一次迭代都充满了期待。这次的 GPT-4.5 更是吊足了大家的胃口,毕竟距离 GPT-4 发布已经过去大约两年了!AI 大神OpenAI联合创始人提前拿到了GPT4.5 的内测资格, Andrej Karpathy 亲自发声,对 GPT-4.5 进行了深度解读

  GPT-4.5:算力堆砌的又一次进化?

  Karpathy 在他的推文中开门见山地指出,他期待 GPT-4.5 已经很久了,原因在于这次升级提供了一个定性衡量指标,可以观察到通过扩大预训练算力(简单来说就是训练更大的模型)所带来的性能提升斜率

  他透露了一个关键信息:GPT 版本号每增加 0.5,大致意味着预训练算力提升了 10 倍!

  为了让大家更直观地理解这个 "0.5" 的意义,Karpathy 还回顾了 GPT 系列的发展历程:

  •GPT-1:几乎无法生成连贯的文本,还在非常早期的阶段

  •GPT-2:像一个“玩具”,能力有限,还比较混乱

  •GPT-2.5:直接“跳过”了,OpenAI 直接发布了GPT-3,这是一个更令人兴奋的飞跃

  •GPT-3.5:跨越了一个重要的门槛,终于达到了可以作为产品发布的水平,并由此引爆了 OpenAI 的 “ChatGPT 时刻”!

  •GPT-4:感觉确实更好,但 Karpathy 也坦言,提升是微妙的。他回忆起参与黑客马拉松的经历,大家尝试寻找 GPT-4 明显优于 GPT-3.5 的具体 prompt,结果发现虽然差异存在,但很难找到那种 “一锤定音” 的例子

  GPT-4 的提升更像是一种“润物细无声”的感觉:

  • 词语选择更具创造力

  • 对 prompt 细微之处的理解有所提升

  • 类比更加合理

  • 模型变得更有趣

  • 世界知识和对罕见领域的理解在边缘地带有所扩展

  • 幻觉(胡说八道)的频率略有降低

  • 整体感觉(vibe)更好

  就像是 “水涨船高”,所有方面都提升了大约 20%。

  GPT-4.5:微妙的提升,依旧令人兴奋

  带着对 GPT-4 这种“微妙提升”的预期,Karpathy 对 GPT-4.5 进行了测试(他提前几天获得了访问权限)。这次 GPT-4.5 的预训练算力比 GPT-4又提升了 10 倍

  然而,Karpathy 发现,他仿佛又回到了两年前的黑客马拉松:一切都变得更好,而且非常棒,但提升的方式仍然难以明确指出

  尽管如此,这仍然非常有趣和令人兴奋,因为它再次定性地衡量了仅仅通过预训练更大的模型就能“免费”获得的能力提升斜率。这说明,单纯地堆算力,依然能带来肉眼可见的进步,只是进步的方式可能更加内敛和精细化

  注意!GPT-4.5 并非推理模型

  Karpathy 特别强调,GPT-4.5 仅仅通过预训练、监督微调和 RLHF(人类反馈强化学习)进行训练,因此它还不是一个真正的“推理模型”

  这意味着,在需要强大推理能力的任务(例如数学、代码等)中,GPT-4.5 的能力提升可能并不显著。在这些领域,通过强化学习进行“思考”训练至关重要,即使是基于较旧的基础模型(例如 GPT-4 级别的能力)进行训练,效果也会更好

  目前,OpenAI 在这方面的最先进模型仍然是full o1。 据推测,OpenAI 接下来可能会在 GPT-4.5 模型的基础上,进一步进行强化学习训练,使其具备“思考”能力,从而推动模型在推理领域的性能提升。

  GPT-4.5 的优势领域:EQ 而非 IQ

  虽然在推理方面提升有限,但 Karpathy 认为,在那些不依赖重度推理的任务中,我们仍然可以期待 GPT-4.5 的进步。他认为,这些任务更多与情商 (EQ)相关,而非智商 (IQ),并且瓶颈可能在于:

  • 世界知识

  • 创造力

  • 类比能力

  • 总体理解能力

  • 幽默感

  因此,Karpathy 在测试 GPT-4.5 时,最关注的也是这些方面。

  Karpathy 的 “LM Arena Lite” 趣味实验

  为了更直观地展示 GPT-4 和 GPT-4.5 在这些 “情商” 相关任务上的差异,Karpathy 发起了一个有趣的“LM Arena Lite” 实验

  他精心挑选了5 个有趣/幽默的 prompt,用来测试模型在上述能力上的表现。 他将 prompt 和 GPT-4、GPT-4.5 的回复截图发布在 X 上,并穿插投票,让大家投票选出哪个回复更好,类似下面这种问题和投票方式

  在 8 小时后,他将揭晓哪个模型对应哪个回复

  即日起,ChatGPT Pro 用户已经可以通过模型选择器体验 GPT-4.5 了! 下周将面向Team 和 Plus 用户开放,EDU 和 Enterprise 用户稍后也将陆续上线。

  发布会的最后,OpenAI强调了无监督学习推理能力的重要性,并认为 GPT-4.5 是无监督学习领域的前沿成果。 更强大的世界知识和更智能的模型,将为未来的推理模型和 Agent奠定更坚实的基础

  整场发布会给我感觉GPT-4.5亮点真的不多,从Andrej Karpathy的一手评测来看也是,提升的主要是情商?这个只有等大家使用以后自己感觉了

  发布会视频:

  

特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相关推荐
热点推荐
为什么先救万斯?枪击发生后,万斯比特朗普先撤离引质疑

为什么先救万斯?枪击发生后,万斯比特朗普先撤离引质疑

新京报
2026-04-26 15:41:36
55岁双上市公司前董事长涉美强奸,27岁女方身份及细节曝光

55岁双上市公司前董事长涉美强奸,27岁女方身份及细节曝光

老猫观点
2026-04-26 07:16:17
3个3-1!阿杜说拜拜了!顿宝一次主动变硬换来一辈子的内向!

3个3-1!阿杜说拜拜了!顿宝一次主动变硬换来一辈子的内向!

贵圈真乱
2026-04-27 12:55:54
从武大硕士到商场导购:诬告学弟性骚扰的杨景媛,终于付出了代价

从武大硕士到商场导购:诬告学弟性骚扰的杨景媛,终于付出了代价

地理三体说
2026-04-25 22:06:06
万科原总裁祝九胜刑期预测

万科原总裁祝九胜刑期预测

地产微资讯
2026-04-27 09:36:25
卡马拉遭袭丧生

卡马拉遭袭丧生

环球时报国际
2026-04-27 08:45:56
勇闯欧美业界的东京魅力新星Reina Ohara

勇闯欧美业界的东京魅力新星Reina Ohara

吃瓜党二号头目
2026-04-27 09:26:25
赤裸裸假球!詹姆斯拉胯,湖人放水回主场卖票!火箭1-3拒绝横扫

赤裸裸假球!詹姆斯拉胯,湖人放水回主场卖票!火箭1-3拒绝横扫

Tracy的篮球博物馆
2026-04-27 12:21:20
30多家法院集体引用一部“空气法”:这不是荒唐剧,是恐怖片

30多家法院集体引用一部“空气法”:这不是荒唐剧,是恐怖片

迷世书童H9527
2026-04-25 14:15:25
28岁赵心童身家上亿,开豪车住别墅,禁赛期间仍与女友形影不离

28岁赵心童身家上亿,开豪车住别墅,禁赛期间仍与女友形影不离

白面书誏
2026-02-26 16:21:41
嫁给谌龙后,国羽女神生下一娃,如今实现财富自由,已是北体博士

嫁给谌龙后,国羽女神生下一娃,如今实现财富自由,已是北体博士

秋姐居
2026-04-24 19:44:29
塔图姆30+7+11无缘今日最佳球员!因为文班亚马27+11+3+4+7创纪录

塔图姆30+7+11无缘今日最佳球员!因为文班亚马27+11+3+4+7创纪录

Tracy的篮球博物馆
2026-04-27 13:09:23
保利置业集团裁员51%

保利置业集团裁员51%

地产微资讯
2026-04-26 10:48:13
以色列北部响起防空警报

以色列北部响起防空警报

界面新闻
2026-04-27 12:59:27
相亲态度反转!女生得知对方在上海、北京有房后,直言彩礼没意义

相亲态度反转!女生得知对方在上海、北京有房后,直言彩礼没意义

火山詩话
2026-04-27 06:09:22
天助穆帅:1-1大冷门,葡萄牙体育遭倒数第一逼平,落后本菲卡3分

天助穆帅:1-1大冷门,葡萄牙体育遭倒数第一逼平,落后本菲卡3分

侧身凌空斩
2026-04-27 05:38:56
G4湖人96-115火箭1喜3忧!肯纳德八村垒出弊端,詹姆斯体能下跌!

G4湖人96-115火箭1喜3忧!肯纳德八村垒出弊端,詹姆斯体能下跌!

篮球资讯达人
2026-04-27 12:48:15
台湾统一方式可能出人意料:77年前毛主席的奇谋,是最佳解决方案

台湾统一方式可能出人意料:77年前毛主席的奇谋,是最佳解决方案

浩渺青史
2026-04-26 20:43:40
香芋紫瑜伽裤:把健康曲线穿成街拍风景

香芋紫瑜伽裤:把健康曲线穿成街拍风景

只要高兴就好
2026-04-27 06:47:36
如果马寅初没提出人口论,也没有计划生育,如今我国会怎么样?

如果马寅初没提出人口论,也没有计划生育,如今我国会怎么样?

旧史新谭
2026-04-24 15:49:04
2026-04-27 13:35:00
AI寒武纪 incentive-icons
AI寒武纪
专注于人工智能,科技领域
1037文章数 396关注度
往期回顾 全部

科技要闻

打1折!DeepSeek输入缓存降价

头条要闻

女子将车停车库没动却被认定要为事故担次责 交管回应

头条要闻

女子将车停车库没动却被认定要为事故担次责 交管回应

体育要闻

最抽象的天才,正在改变瓜迪奥拉

娱乐要闻

《奔跑吧14》刚播就把一手好牌打稀烂

财经要闻

DeepSeek融资、字节加码 AI开始真烧钱了

汽车要闻

在不确定中寻找确定性:大众汽车的中国解法

态度原创

健康
艺术
游戏
本地
军事航空

干细胞如何让烧烫伤皮肤"再生"?

艺术要闻

你绝对想不到,摄影能让她成为女神!

玩家盛赞《红沙》新更新!直言细节改动为"重大胜利"

本地新闻

云游中国|逛世界风筝都 留学生探秘中国传统文化

军事要闻

伊朗总统:不会在压力、威胁下进行谈判

无障碍浏览 进入关怀版