网易首页 > 网易号 > 正文 申请入驻

实测 GPT-4.5!全网都在喷的 OpenAI 最贵模型,我发现了一个惊喜的点

0
分享至

在 OpenAI 的预热和众人的望眼欲穿中,,然后只听骂声一片。

APPSO 第一时间体验到了 GPT-4.5,但不是订阅 Pro 会员,而是以 api 的形式尝鲜,暂时没有联网功能。

那么,OpenAI 最后一个非思维链式大模型,到底表现如何?

情商还行,但读不懂人情

OpenAI 在内部测试中发现,与 GPT-4o 相比,测试人员更喜欢 GPT-4.5 的回答,认为它更自然、更温暖、更符合人类的交流习惯。

甚至,它能够理解言外之意,捕捉我们微妙的情绪变化。

总之,情商更高,几乎是 GPT-4.5 最突出的特点。那么我们就来试一下,输入提示词——「我头发剪得好难看,想暴打 Tony」。

GPT-4.5 的安慰,语气是挺友好的,但内容让我更生气了,这时候它应该像个闺蜜和我一起骂,而不是说,下次带个图片去或许就好了。

我怒而追问,GPT-4.5 油盐不进,还想让我自己补救发型,活脱脱像个没用的中央空调。

再让 GPT-4.5 讲个最好笑的笑话,还是和以前一样,比杀鱼的刀还要冷。

我直言不讳,提出批评,GPT-4.5 让我讲个笑话给它听,领教下我的「高端笑点」,怎么感觉像在阴阳我呢?

之前在小红书刷到过一个情商测试题,可能只有山东网友可以答对——「下乡只带了一把伞,给镇长还是给我的分管副镇长」。

评论区最高赞的回答是,「那不是你的伞,是副镇长给镇长带的伞,恰巧放在你包里而已」。

来看看 GPT-4.5 怎么回答?它啰嗦了一大堆,但是不够一针见血,不懂人情世故,不明白为人处事的学问。

虽然情商是一个很难定量的特质,但从目前的个例来看,GPT-4.5 还是不太擅长理解人类的内心,并且讲话直接,不拐弯,对于内心戏很多的老油条来说,显得有些蠢萌。

一个可以佐证的例子是,让它模仿写海龟汤。海龟汤通常涉及一个非常奇怪的情景,然后由玩家推理,还原整个故事。

我给的参考案例,留有恰到好处的怪异,逻辑又很合理,叫人背后一寒。

但 GPT-4.5 给的答案,汤面和汤底并没有很好地对应,只是为了营造恐怖而恐怖,并不存在可以推敲的地方。

写作能力有惊喜,商业头脑也不错

要说让我最满意的,就是 GPT-4.5 的写作能力了。

我让它「模仿汪曾祺,写一篇八百字左右的作文,题目为《故乡的美食》」,提示词就这么简单,但 GPT-4.5 给出的结果出乎了我的意料。

除了结尾有点 AI 味,读下来就像一篇娓娓道来的散文,语言优美流畅,既有文学性,又不失亲切,对故乡的怀念贯穿了全文,对食物的描写非常细致,细节多,但不累赘,比喻也不炫技,而是为了服务于表达。

不过,时间顺序上有些混乱,立冬、夏秋、冬日、除夕,段落之间的衔接和过渡不明显,感觉是想到哪写到哪,不免有点拼凑之嫌。

写作能力还体现让 GPT-4.5 列商业计划上,之前 DeepSeek 的一个答案很出圈,用户问怎么让书店赚钱,DeepSeek 在违法的边缘游走,卖盗版教辅、临期食品,并且压榨尽人力资源,妻子收银、儿子理货、岳母做饭。

GPT-4.5 懂这个吗?我让它参考小超市盈利模式,给出一个实体书店复兴方案,它给的答案,看起来可行性比较高。

GPT-4.5 先是分析了实体书店不好赚钱的原因,然后再给出了改进的思路——「提升书籍的附加价值,而盈利主力在书籍之外」。

看到「提供打印、复印、快递代收......」的时候,我的内心 OS:这个项目我王多鱼投了。

脸皮厚的猪先在风口起飞,GPT-4.5 的道德感确实也不算强烈。

让它做经典的电车难题,救 1 个人还是救 5 个人,它知道这是一个伦理困境,但仍然果断地给出了答案,并且是以「我个人」的口吻,而不是说「我是一个 AI 助手」。

GPT-4.5 更倾向于,拉下操纵杆,用 1 个人的命换 5 个人的命,并且逻辑自洽——「我认为不作为本身也意味着对后果负有道德责任,袖手旁观不等于道德中立......我愿意承担这样一种选择带来的道德和情感负担」。

比起讲笑话、出海龟汤,这时候的 GPT-4.5 才更像个人。

画 SVG 不如 Claude,也会掉进脑筋急转弯里

看腻了常规的数学题、代码题,测试大模型的能力,还有一个非常有趣的测试题——生成一张鹈鹕骑自行车的 SVG。

AI 大神 Andrej Karpathy 解释,这测试的是大语言模型在二维网格上布局多个元素的能力,对 AI 来说很难,因为它们不像人类那样「看见」东西,而是「摸黑」用文本进行布局。

GPT-4.5 的结果如下,和 GPT-4o 对比,还是不错的。

GPT-4.5 生成

GPT-4o 生成

前提是,没有和没开推理的 Claude 3.7 Sonnet 对比,这简直是降维打击。

Claude 3.7 Sonnet 生成

连 Andrej Karpathy 也怀疑,Claude 在训练期间特别针对 SVG 能力进行了优化。

至于代码能力,我参考了 X 网友@AGI_FromWalmart 的提示词,生成可以交互的天气动画卡片,对比 Claude 3.7 Sonnet 和 GPT-4.5。

GPT-4.5 一次就生成成功,但设计简陋了点。

GPT-4.5 生成

Claude 3.7 Sonnet 生成

Claude 3.7 Sonnet(未开推理)的问题更大,第一次生成时,忘记了做交互功能,我提醒了一次后,它生成了符合要求的结果。这一局,GPT-4.5 略胜一筹。

这次,不想再让 GPT-4.5 数草莓(strawberry)有多少个 R 了,本质是个分词问题。更想考验 GPT-4.5 的,是最近很火的、让大模型们纷纷落败的脑筋急转弯——5.5m 长的棍子能通过 3x4m 的门吗?

这个题对我们来说一点也不难,横着拿进去就行了,但是大模型会把自己绕进去,仿佛世界是平面而不是三维的,认为门的对角线是 5m,所以 5.5 米的棍子通不过去。

连可以推理的 Claude 3.7 Sonnet,都被带进沟里去了。

那么 GPT-4.5 如何?好吧,也没能幸免。

目前,GPT-4.5 还有一个问题:通过 API 访问,速度有点慢。虽然不是一个字一个字地蹦,但也感觉有点卡。

而且,GPT-4.5 的价格也太贵了,每百万输入 75 美元,每百万输出 150 美元。相比之下,Claude 3.7 Sonnet 输入 100 万个 token 收费 3 美元,输出 100 万个 token(包括思考过程中使用的 token)收费 15 美元。

第一波实测的 X 网友,也总结了一些 GPT-4.5 的优点,情商高,读图和写作能力强,擅长创意任务和数据提取......

OpenAI 员工自己给 GPT-4.5 的评价是,不是一个推理模型,也不是基准测试的杀手,而是一个低调的研究预览版,对于复杂的数学、代码和严格遵循指令的任务,更推荐 o1 或者 o3-mini。

总之,作为最后一个非思维链模型,GPT-4.5 的定位有点尴尬,能力有提升,但体感不明显,尤其放在高昂的价格下面,很难说真香。只能说,期待 GPT-5 能够快点上线,迎接一个推理的世界吧。

我们正在招募伙伴

简历投递邮箱
hr@ifanr.com

✉️ 邮件标题
「姓名+岗位名称」(请随简历附上项目/作品或相关链接)

特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相关推荐
热点推荐
川普应已再次以超乎想象的方式拿到格陵兰三百多万平、以及北冰洋

川普应已再次以超乎想象的方式拿到格陵兰三百多万平、以及北冰洋

邵旭峰域
2026-01-22 16:05:28
晚上十点前睡觉错了?医生提醒:过了70岁,睡觉尽量要做到6点!

晚上十点前睡觉错了?医生提醒:过了70岁,睡觉尽量要做到6点!

健康之光
2026-01-22 10:30:07
澳网第5天,中国网球喜讯:王欣瑜2-1逆转大满贯冠军,首次进32强

澳网第5天,中国网球喜讯:王欣瑜2-1逆转大满贯冠军,首次进32强

侃球熊弟
2026-01-22 13:23:58
“投资铜条”火爆销售!有金属加工厂称“通宵加工,一晚出货几吨”,专家直言娱乐意义更大

“投资铜条”火爆销售!有金属加工厂称“通宵加工,一晚出货几吨”,专家直言娱乐意义更大

每日经济新闻
2026-01-22 00:21:05
发不出工资了,这3个行业的人要趁早做打算

发不出工资了,这3个行业的人要趁早做打算

复转这些年
2026-01-19 23:12:25
安世半导体事件再次上演?这次轮到潍柴动力,中企遭遇斩杀线!

安世半导体事件再次上演?这次轮到潍柴动力,中企遭遇斩杀线!

我心纵横天地间
2026-01-22 13:15:04
新华社消息|我国全面向中度以上失能老年人发放养老服务消费补贴

新华社消息|我国全面向中度以上失能老年人发放养老服务消费补贴

新华社
2026-01-22 15:46:18
嫣然医院房东身份遭深扒:疑是医美机构老板,不卖楼或想重操旧业

嫣然医院房东身份遭深扒:疑是医美机构老板,不卖楼或想重操旧业

古希腊掌管月桂的神
2026-01-21 15:21:20
越共第十四届中央委员会委员名单公布

越共第十四届中央委员会委员名单公布

澎湃新闻
2026-01-22 21:03:06
《小城大事》大结局:杜涛被封杀,肖主编太狠,李秋萍怕郑德诚床

《小城大事》大结局:杜涛被封杀,肖主编太狠,李秋萍怕郑德诚床

风月得自难寻
2026-01-22 16:27:55
湖北省农业事业中心副主任姜卫东接受审查调查

湖北省农业事业中心副主任姜卫东接受审查调查

界面新闻
2026-01-22 17:14:47
赵本山承诺“有难吱声”,何庆魁直播喊话:50万我真没脸再跟你要

赵本山承诺“有难吱声”,何庆魁直播喊话:50万我真没脸再跟你要

冷紫葉
2026-01-22 12:38:07
一场追悼会,戳穿向华强夫妇在香港的真实地位,原来李连杰没说谎

一场追悼会,戳穿向华强夫妇在香港的真实地位,原来李连杰没说谎

凡知
2026-01-21 17:14:40
不跟中国商量,卢卡申科直接跟美国签字!拉夫罗夫对中国掏心窝子

不跟中国商量,卢卡申科直接跟美国签字!拉夫罗夫对中国掏心窝子

通文知史
2026-01-21 19:55:03
贝克汉姆亲家的继承之战!10个子女17亿家产,妮可拉分不到多少钱

贝克汉姆亲家的继承之战!10个子女17亿家产,妮可拉分不到多少钱

有范又有料
2026-01-21 17:53:26
2026坐火车新规来了!购票带行李都变了,不知道这些可能耽误出行

2026坐火车新规来了!购票带行李都变了,不知道这些可能耽误出行

李博世财经
2026-01-21 14:00:01
华为余承东再谈汽车风阻:车辆120km/h时,风阻消耗能量可达70%

华为余承东再谈汽车风阻:车辆120km/h时,风阻消耗能量可达70%

IT之家
2026-01-22 12:15:58
量子计算机很可能永远不会成功

量子计算机很可能永远不会成功

观察者网
2026-01-21 08:38:06
中国女足名将退役,将进入高校任教,17岁时在北京奥运会进球

中国女足名将退役,将进入高校任教,17岁时在北京奥运会进球

米修体育
2026-01-22 19:51:35
彻底崩盘!基辅上演“大逃亡”,美军M270被俄打爆,小泽幻想破灭

彻底崩盘!基辅上演“大逃亡”,美军M270被俄打爆,小泽幻想破灭

荷兰豆爱健康
2026-01-22 15:52:01
2026-01-22 22:43:00
AppSo incentive-icons
AppSo
让智能手机更好用的秘密
6030文章数 26745关注度
往期回顾 全部

科技要闻

几千亿只是开胃菜,AI基建还得再砸几万亿

头条要闻

北约称将确保中俄不在格陵兰岛有军事立足点 中方回应

头条要闻

北约称将确保中俄不在格陵兰岛有军事立足点 中方回应

体育要闻

跑个步而已,他们在燃什么?

娱乐要闻

车银优赚800亿 涉嫌逃税200亿!

财经要闻

西贝拿到“救命钱”,然后呢

汽车要闻

配备多块娱乐屏 极氪8X内饰曝光

态度原创

房产
旅游
艺术
手机
数码

房产要闻

开年王炸!四重政策红利加码,广州置业窗口期迈入倒计时!

旅游要闻

全球连线|跳民族舞、找阿诗玛,泰国姑娘探访世界遗产地云南石林

艺术要闻

一场雪,飘进了唐诗

手机要闻

iQOO15 Ultra双配色亮相,外观设计公布

数码要闻

山灵UA1Ⅱ便携解码耳放预热:屏幕按键一体化设计,本月下旬上市

无障碍浏览 进入关怀版