网易首页 > 网易号 > 正文 申请入驻

实测 GPT-4.5!全网都在喷的 OpenAI 最贵模型,我发现了一个惊喜的点

0
分享至

在 OpenAI 的预热和众人的望眼欲穿中,,然后只听骂声一片。

APPSO 第一时间体验到了 GPT-4.5,但不是订阅 Pro 会员,而是以 api 的形式尝鲜,暂时没有联网功能。

那么,OpenAI 最后一个非思维链式大模型,到底表现如何?

情商还行,但读不懂人情

OpenAI 在内部测试中发现,与 GPT-4o 相比,测试人员更喜欢 GPT-4.5 的回答,认为它更自然、更温暖、更符合人类的交流习惯。

甚至,它能够理解言外之意,捕捉我们微妙的情绪变化。

总之,情商更高,几乎是 GPT-4.5 最突出的特点。那么我们就来试一下,输入提示词——「我头发剪得好难看,想暴打 Tony」。

GPT-4.5 的安慰,语气是挺友好的,但内容让我更生气了,这时候它应该像个闺蜜和我一起骂,而不是说,下次带个图片去或许就好了。

我怒而追问,GPT-4.5 油盐不进,还想让我自己补救发型,活脱脱像个没用的中央空调。

再让 GPT-4.5 讲个最好笑的笑话,还是和以前一样,比杀鱼的刀还要冷。

我直言不讳,提出批评,GPT-4.5 让我讲个笑话给它听,领教下我的「高端笑点」,怎么感觉像在阴阳我呢?

之前在小红书刷到过一个情商测试题,可能只有山东网友可以答对——「下乡只带了一把伞,给镇长还是给我的分管副镇长」。

评论区最高赞的回答是,「那不是你的伞,是副镇长给镇长带的伞,恰巧放在你包里而已」。

来看看 GPT-4.5 怎么回答?它啰嗦了一大堆,但是不够一针见血,不懂人情世故,不明白为人处事的学问。

虽然情商是一个很难定量的特质,但从目前的个例来看,GPT-4.5 还是不太擅长理解人类的内心,并且讲话直接,不拐弯,对于内心戏很多的老油条来说,显得有些蠢萌。

一个可以佐证的例子是,让它模仿写海龟汤。海龟汤通常涉及一个非常奇怪的情景,然后由玩家推理,还原整个故事。

我给的参考案例,留有恰到好处的怪异,逻辑又很合理,叫人背后一寒。

但 GPT-4.5 给的答案,汤面和汤底并没有很好地对应,只是为了营造恐怖而恐怖,并不存在可以推敲的地方。

写作能力有惊喜,商业头脑也不错

要说让我最满意的,就是 GPT-4.5 的写作能力了。

我让它「模仿汪曾祺,写一篇八百字左右的作文,题目为《故乡的美食》」,提示词就这么简单,但 GPT-4.5 给出的结果出乎了我的意料。

除了结尾有点 AI 味,读下来就像一篇娓娓道来的散文,语言优美流畅,既有文学性,又不失亲切,对故乡的怀念贯穿了全文,对食物的描写非常细致,细节多,但不累赘,比喻也不炫技,而是为了服务于表达。

不过,时间顺序上有些混乱,立冬、夏秋、冬日、除夕,段落之间的衔接和过渡不明显,感觉是想到哪写到哪,不免有点拼凑之嫌。

写作能力还体现让 GPT-4.5 列商业计划上,之前 DeepSeek 的一个答案很出圈,用户问怎么让书店赚钱,DeepSeek 在违法的边缘游走,卖盗版教辅、临期食品,并且压榨尽人力资源,妻子收银、儿子理货、岳母做饭。

GPT-4.5 懂这个吗?我让它参考小超市盈利模式,给出一个实体书店复兴方案,它给的答案,看起来可行性比较高。

GPT-4.5 先是分析了实体书店不好赚钱的原因,然后再给出了改进的思路——「提升书籍的附加价值,而盈利主力在书籍之外」。

看到「提供打印、复印、快递代收......」的时候,我的内心 OS:这个项目我王多鱼投了。

脸皮厚的猪先在风口起飞,GPT-4.5 的道德感确实也不算强烈。

让它做经典的电车难题,救 1 个人还是救 5 个人,它知道这是一个伦理困境,但仍然果断地给出了答案,并且是以「我个人」的口吻,而不是说「我是一个 AI 助手」。

GPT-4.5 更倾向于,拉下操纵杆,用 1 个人的命换 5 个人的命,并且逻辑自洽——「我认为不作为本身也意味着对后果负有道德责任,袖手旁观不等于道德中立......我愿意承担这样一种选择带来的道德和情感负担」。

比起讲笑话、出海龟汤,这时候的 GPT-4.5 才更像个人。

画 SVG 不如 Claude,也会掉进脑筋急转弯里

看腻了常规的数学题、代码题,测试大模型的能力,还有一个非常有趣的测试题——生成一张鹈鹕骑自行车的 SVG。

AI 大神 Andrej Karpathy 解释,这测试的是大语言模型在二维网格上布局多个元素的能力,对 AI 来说很难,因为它们不像人类那样「看见」东西,而是「摸黑」用文本进行布局。

GPT-4.5 的结果如下,和 GPT-4o 对比,还是不错的。

GPT-4.5 生成

GPT-4o 生成

前提是,没有和没开推理的 Claude 3.7 Sonnet 对比,这简直是降维打击。

Claude 3.7 Sonnet 生成

连 Andrej Karpathy 也怀疑,Claude 在训练期间特别针对 SVG 能力进行了优化。

至于代码能力,我参考了 X 网友@AGI_FromWalmart 的提示词,生成可以交互的天气动画卡片,对比 Claude 3.7 Sonnet 和 GPT-4.5。

GPT-4.5 一次就生成成功,但设计简陋了点。

GPT-4.5 生成

Claude 3.7 Sonnet 生成

Claude 3.7 Sonnet(未开推理)的问题更大,第一次生成时,忘记了做交互功能,我提醒了一次后,它生成了符合要求的结果。这一局,GPT-4.5 略胜一筹。

这次,不想再让 GPT-4.5 数草莓(strawberry)有多少个 R 了,本质是个分词问题。更想考验 GPT-4.5 的,是最近很火的、让大模型们纷纷落败的脑筋急转弯——5.5m 长的棍子能通过 3x4m 的门吗?

这个题对我们来说一点也不难,横着拿进去就行了,但是大模型会把自己绕进去,仿佛世界是平面而不是三维的,认为门的对角线是 5m,所以 5.5 米的棍子通不过去。

连可以推理的 Claude 3.7 Sonnet,都被带进沟里去了。

那么 GPT-4.5 如何?好吧,也没能幸免。

目前,GPT-4.5 还有一个问题:通过 API 访问,速度有点慢。虽然不是一个字一个字地蹦,但也感觉有点卡。

而且,GPT-4.5 的价格也太贵了,每百万输入 75 美元,每百万输出 150 美元。相比之下,Claude 3.7 Sonnet 输入 100 万个 token 收费 3 美元,输出 100 万个 token(包括思考过程中使用的 token)收费 15 美元。

第一波实测的 X 网友,也总结了一些 GPT-4.5 的优点,情商高,读图和写作能力强,擅长创意任务和数据提取......

OpenAI 员工自己给 GPT-4.5 的评价是,不是一个推理模型,也不是基准测试的杀手,而是一个低调的研究预览版,对于复杂的数学、代码和严格遵循指令的任务,更推荐 o1 或者 o3-mini。

总之,作为最后一个非思维链模型,GPT-4.5 的定位有点尴尬,能力有提升,但体感不明显,尤其放在高昂的价格下面,很难说真香。只能说,期待 GPT-5 能够快点上线,迎接一个推理的世界吧。

我们正在招募伙伴

简历投递邮箱
hr@ifanr.com

✉️ 邮件标题
「姓名+岗位名称」(请随简历附上项目/作品或相关链接)

特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相关推荐
热点推荐
卧槽!开拓者后悔了,杨瀚森...

卧槽!开拓者后悔了,杨瀚森...

体育新角度
2026-01-22 16:23:02
炸裂!中粮集团春招公告,学历从大专起步,外语水平居然不设限…

炸裂!中粮集团春招公告,学历从大专起步,外语水平居然不设限…

火山诗话
2026-01-22 10:40:46
突发!知名网红“一栗小莎子”确诊癌症,疑熬夜导致,儿子才两岁

突发!知名网红“一栗小莎子”确诊癌症,疑熬夜导致,儿子才两岁

裕丰娱间说
2026-01-22 08:56:07
特朗普启动“和平委员会”,巴、以代表没签字

特朗普启动“和平委员会”,巴、以代表没签字

极目新闻
2026-01-22 20:22:33
今年多名厅官主动投案!首个投案的是任职8年的州长

今年多名厅官主动投案!首个投案的是任职8年的州长

上观新闻
2026-01-22 14:27:07
达沃斯骂遍盟友后,特朗普事实上已经基本得到了格陵兰岛!

达沃斯骂遍盟友后,特朗普事实上已经基本得到了格陵兰岛!

胜研集
2026-01-22 11:00:46
若连碗面都要靠官媒压阵才能卖出,那不吃也罢——横竖都是预制的

若连碗面都要靠官媒压阵才能卖出,那不吃也罢——横竖都是预制的

阿天爱旅行
2026-01-22 13:14:02
“黑白颠周媛”已被封,律师称或将构成犯罪 机构前员工:培训尺度大

“黑白颠周媛”已被封,律师称或将构成犯罪 机构前员工:培训尺度大

红星新闻
2026-01-22 18:55:36
没有阳刚之气就别演“大侠”,《镖人》中谢霆锋,给内娱上了一课

没有阳刚之气就别演“大侠”,《镖人》中谢霆锋,给内娱上了一课

糊咖娱乐
2026-01-22 11:48:48
喜讯!欧洲球探坐不住了!U23国足4名球员已引起关注,碾压日韩

喜讯!欧洲球探坐不住了!U23国足4名球员已引起关注,碾压日韩

削桐作琴
2026-01-22 17:13:06
范志毅英籍女儿男友:一任没钱,二任太老,三任才是老范心中贵婿

范志毅英籍女儿男友:一任没钱,二任太老,三任才是老范心中贵婿

小熊侃史
2025-12-10 07:05:13
何庆魁喊话赵本山:你总说有困难吱声,但我真没脸跟你再要50万!

何庆魁喊话赵本山:你总说有困难吱声,但我真没脸跟你再要50万!

天天热点见闻
2026-01-22 08:08:43
“眼神给出去”玩梗爆火:狂揽2400万的“性商教母”好日子到头?

“眼神给出去”玩梗爆火:狂揽2400万的“性商教母”好日子到头?

穿透
2026-01-22 10:51:35
冲上热搜!U23国足主帅禁止球员点外卖

冲上热搜!U23国足主帅禁止球员点外卖

环球网资讯
2026-01-22 12:39:58
央视曝光:光鲜红薯背后的剧毒隐患!

央视曝光:光鲜红薯背后的剧毒隐患!

达文西看世界
2026-01-22 15:22:42
当江青还不叫江青时,她是这样的

当江青还不叫江青时,她是这样的

深度报
2026-01-21 22:36:36
中国队为决赛留了一手!20岁中场猛将复出:身价45万欧高于蒯纪闻

中国队为决赛留了一手!20岁中场猛将复出:身价45万欧高于蒯纪闻

小火箭爱体育
2026-01-22 18:41:14
载有中国游客的旅游大巴在俄发生事故

载有中国游客的旅游大巴在俄发生事故

新华社
2026-01-22 18:23:37
央视曝光!真别再吃了!头皮发麻!市监局通报40批食品抽检不合格

央视曝光!真别再吃了!头皮发麻!市监局通报40批食品抽检不合格

观察鉴娱
2026-01-22 10:00:22
决战今夜!1月22日晚19:30!中央5套CCTV5、CCTV5+直播节目表

决战今夜!1月22日晚19:30!中央5套CCTV5、CCTV5+直播节目表

皮皮观天下
2026-01-22 13:13:18
2026-01-22 20:51:00
AppSo incentive-icons
AppSo
让智能手机更好用的秘密
6030文章数 26745关注度
往期回顾 全部

科技要闻

几千亿只是开胃菜,AI基建还得再砸几万亿

头条要闻

自称"中国性商教母"的周媛被封 前员工:培训尺度较大

头条要闻

自称"中国性商教母"的周媛被封 前员工:培训尺度较大

体育要闻

跑个步而已,他们在燃什么?

娱乐要闻

车银优赚800亿 涉嫌逃税200亿!

财经要闻

西贝拿到“救命钱”,然后呢

汽车要闻

配备多块娱乐屏 极氪8X内饰曝光

态度原创

游戏
家居
数码
艺术
公开课

艾达王也难逃毒手?博主用AI模拟西方开发者审美

家居要闻

法式风情 南洋中古居

数码要闻

国产HDMI2.1协议分析仪交付华为!软硬件完全自主知识产权

艺术要闻

一场雪,飘进了唐诗

公开课

李玫瑾:为什么性格比能力更重要?

无障碍浏览 进入关怀版