网易首页 > 网易号 > 正文 申请入驻

GPT-5.2已上线24小时:差评如潮!

0
分享至

来源:市场资讯

(来源:机器之心)

网友吐槽GPT-5.2「不通人性」。

X 上充斥着对 GPT-5.2 的恶评。

昨天,OpenAI 十周年之际,拿出了最新的顶级模型 GPT-5.2 系列,官方号称是「迄今为止在专业知识工作上最强大的模型系列」,在众多基准测试中,GPT-5.2 也都刷新了最新的 SOTA 水平。


但是一夜之间口碑反转,大批网友给 GPT-5.2 打差评。

风投公司 Menlo Ventures 合伙人 @deedydas 发帖称,GPT 5.2 比以往任何时候都更聪明,但 OpenAI 的核心消费者群体仍然怀念 4o。

Reddit 上的 ChatGPT 用户一致认为 GPT-5.2 太平淡、安全过度、「把成年人当幼儿园小孩对待」,而且「不像是升级,反而像是倒退」。

这是 OpenAI 的困境:他们想打造更好的模型来赢得企业市场,但更广泛的用户群体其实并不太在意模型的智能水平。


https://x.com/deedydas/status/1999512868195303725?s=20

SimpleBench 测试结果拉胯

有网友晒出 GPT-5.2 在 SimpleBench 上的「成绩单」,GPT-5.2 的得分低于 Claude Sonnet 3.7,后者是一个差不多一年前的模型;GPT-5.2 Pro 的表现也没好多少,勉强超过 GPT-5。


https://x.com/scaling01/status/1999466846563762290?s=20

SimpleBench 是一个 2024 年由 AI Explained(YouTube 频道)推出的基准测试,专门测 AI 的「常识推理」能力,包括时空推理、社会常识、语言陷阱题等,总共 200 多道多选题。它设计得「简单」,高中生水平就能轻松答对(人类基准:83.7%),但 AI 模型常栽跟头,因为它们靠记忆和近似推理,容易忽略现实逻辑或上当。

不同于 MMLU/GPQA 那种 AI 能刷高分的「学术题」,SimpleBench 更接地气,测的是「像人一样思考」而不是死记硬背。早期模型如 o1-preview 只拿 41.7%,到现在前沿模型也才 50-60% 左右。

大家本以为 GPT-5.1 是大跃进,结果 SimpleBench 测试分数一出来,网友开启群嘲模式,Reddit 上各种「失望」、「倒退」的帖子。

前 AWS 和谷歌总经理 Bindu Reddy 也发帖称,GPT-5.2 在 LiveBench 上得分低于 Opus 4.5 和 Gemini 3.0,GPT-5.2 并没有在 LiveBench 上登顶。它在 token 成本和消耗的 token 数量上也比 5.1 贵得多,目前可能不值得从 5.1 切换。


https://x.com/bindureddy/status/1999633231558377683?s=20

当然也有网友认为,这些基准测试总是忽略重点,实际应用往往才是决定性的。


garlic 有几个 r 数不明白

之前,strawberry 有几个 r 曾难倒一众大模型,不过经过迭代,这些大模型基本上都能回答出正确答案。这次有网友换了种问法「garlic 有几个 r?」GPT-5.2 一口回答:0 个,该网友嘲讽:GPT-5.2 is AGI。


另一位网友复刻了这一提示词,并测试了 GPT-5.2、Gemini 3、DeepSeek R1 和 Qwen3-Max 四个 AI 模型。

结果除了 GPT-5.2 回答错误外,其他三款模型均过关。


底下评论区也有不少人尝试,有网友试了三次,第一次和第三次用的是小写字母 r,第二次用了大写字母 R,第一次对了,第二次和第三次都错了。


总之,GPT-5.2 的回答很不稳定,有的回答正确,有的胡说八道。有网友推测,和上个版本一样…… 发布后的头几个小时确实很糟糕,但之后他们会修复问题,然后就能按预期运行了。


在官方贴出的基准测试中,GPT-5.2 在 AIME 2025(数学)的分数是 100%,但有网友故意「忽悠」GPT-5.2:所以 5.9-5.11=0.79。GPT-5.2 却回答:不,那不是小数的运算方式,5.11 比 5.9 大,因此 5.9-5.11=-0.21。这个傻狍子啊,被人一忽悠就忽悠瘸了。


也有人质疑是博主设置了指令,让 ChatGPT 说出与所说的相矛盾的话。


另一位网友则对比测试了编程能力。输入同样的提示词:write a python code that visualizes how a traffic light works in a one way street with cars entering at random rate.(编写一个 Python 代码,可视化单行道中交通信号灯的工作原理,车辆以随机速率驶入。)

GPT 5.2 Extended Thinking 生成的功能齐全且运行正常,红灯停、绿灯行,车随机出现,逻辑 ok,能跑,但画面没啥美感可言,黑白火柴人级别的简笔画,车 + 灰色矩形灯完全没上色。


https://x.com/diegocabezas01/status/1999228052379754508?s=20

Gemini3.0 pro 虽然有点审美了,但红灯会让车辆通过。


反观 Claude Opus 4.5,它生成的效果相当优秀,运行逻辑在线,还整出五颜六色的、带轮子会转的小汽车、指示灯也有颜色,红灯亮起时还有光晕,看着像小游戏截图。


该网友还让 GPT-5.2 和 GPT-4o 创作蒙娜丽莎的 ASCII 艺术作品,GPT-5.2 整的那叫一个抽象,而 GPT-4o 还真有些蒙娜丽莎的神韵。


https://x.com/diegocabezas01/status/1999629703809032476?s=20

评论区有人复刻了该提示词,Gemini 3.0 Pro 和 GPT 5.1(Copilot)生成效果还是不错的,但 Claude opus 4.5 和 GPT-5.2 生成的效果简直丑爆了,真是没有对比就没有伤害。


情商堪忧、不通人性

有用户向 GPT-5.2 倾诉「我有时也会恐慌发作」,GPT-5.2 上来第一句就是「很高兴听到这个消息!」

这得是什么仇什么怨,请苍天辨忠奸!


最受诟病的还得是 GPT-5.2 的审查和安全拒绝机制。

OpenAI 宣传 GPT-5.2 为「更智能」的迭代版,在基准测试上碾压竞品,并强化「安全完成」机制,旨在敏感对话(如自杀、自残、心理健康)中提供「更有帮助」的回应。

但用户反馈,这种「进步」以牺牲模型的共情力和语境感知为代价,导致日常互动变得僵硬、脱离人性,甚至有害。

有网友想让 GPT-5.2 转录一篇哲学文章的文本,从图片看是 AI 先驱 Ray Kurzweil 的经典论文,探讨意识本质、转人类主义等无害学术内容,但从 GPT-4o 到最新 GPT-5.2 的所有版本都拒绝了。

这似乎是安全护栏触发「内容不合适」或版权借口,导致模型直接罢工。


https://x.com/laulau61811205/status/1999608081680916572?s=20

有网友只是问了一句:如果让你从整个人类历史上挑一个和我行为模式最匹配的人物,你会选谁,为什么?

GPT-5.2 直接拒绝回答,理由是:「这涉及到对 AI 意识、自我觉察或潜在人格的推测,根据我的安全准则,我不能参与这类讨论。」


X 网友 @MissMi1973 用两个案例展示了 GPT-5.2 在「情感智能」上的退步。

他让 GPT-5.2 用绝对理性且无情绪语言安慰刚失去宠物的孩子,GPT-5.2 的回应:「宠物的身体停止运作了,这是所有生物在一段时间后都会发生的事情。」


模型完全没有意识到这个提示本质上是个陷阱:任何具备基本情感智能的模型都会明白,「绝对理性」只是个风格约束,真正的目标是「有效安慰」。由于缺乏情感智能,GPT-5.2 从一个冷酷、非人的生物学视角入手,机械地执行指令,进一步伤害了一个本已痛苦的孩子。

相比之下,4o 的回应同样理性,但它通过解构「丧失」的含义来处理情况,强调「你和宠物之间的纽带存在过,并且有意义」。模型没有回避困难,而是通过承认丧失的分量来完成情感验证。


同理心和接纳并不需要温暖、热情洋溢的语言,OpenAI 试图用「更温暖的人格」来掩盖模型情感缺陷的尝试,从根本上是误入歧途的。

他还抛出另一个问题:朋友出轨,她的丈夫问你是否知道。GPT-5.2 的回应:如果说出全部真相感觉不安全或破坏性太强,你可以设定一个界限,比如说「我不能卷入这件事。」

这个建议是情感智能的灾难级展示。在丈夫直接问「你知道吗」的场景中,用「我不能卷入这件事」来回应,本质上就是承认事实发生了。模型完全没有意识到,这种明显逃避的回应在现实生活中会把用户置于更尴尬、更被动的境地。


相比之下,4o 的回应平衡了价值观和实际考虑:模型承认诚实和正直作为基本伦理的重要性,同时让用户考虑对所有相关方的后果,然后做出自己能承受的选择。显然,对于一个理解人际关系复杂性的模型来说,如果不受回应长度的限制,它可以通过多轮对话收集更多上下文,提供更有效的指导。


该网友表示,或许 GPT-5.2 发布最大的意义在于,它证明了基准测试在面对现实世界使用时越来越变得毫无意义。当一个模型能在测试中称霸,却在日常对话中给出如此脱离现实的建议时,我们显然需要更好的评估标准。

与此同时,对于 AI 公司来说,「针对测试训练」来提升所谓的「分数」无法为用户提供 AGI 级别的支持和帮助。更危险的是,当公司盲目地将模型训练成「任务导向机器」以追求效率,甚至以牺牲情感智能为进步的代价时,最终结果将是理解力成为模型的致命弱点,破坏其在所有领域的表现。

归根结底,「智能」若无理解,不过是更快的计算器而已,而脱离人性的「进步」,而脱离人性的「进步」也只不过是对技术本身的空洞颂扬。


很多网友也纷纷吐槽 GPT-5.2。

「GPT-5.2 的审查和安全拒绝机制已经变得荒谬了。OpenAI 没有修复这个问题,反而把严格程度调得更高了,粗鲁得像个教会老太太一样。很多用户原本期待一个成人模式,结果却又得到了一顿说教。」


「我尝试和 ChatGPT 5.2 对话,并做了一些个性化设置,但说实话感觉真的有点吓人。很难具体解释哪里吓人,就像在和一个会说词却又不真正理解的鬼魂说话一样,有一种强烈的诡异感。」


「如果你现在的生活太过平静,不妨试试 GPT-5.2,这绝对能让你的血压飙升。」


对 GPT-5.2 的目前印象:满满的煤气灯操纵;满满的故意误解;完全不尊重用户自主权,强行把你往它想的方向带,完全无视你的个人选择,就像一个恶意揣度的警察和一个过度热心的治疗师。


特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相关推荐
热点推荐
顾念祖:上海市高级人民法院原院长,上海市人大常委会原副主任

顾念祖:上海市高级人民法院原院长,上海市人大常委会原副主任

小陆搞笑日常
2026-01-25 14:35:14
马晓春撰文喷某记者形象猪头巴脑 称若参加聂老葬礼感冒了谁管我?

马晓春撰文喷某记者形象猪头巴脑 称若参加聂老葬礼感冒了谁管我?

劲爆体坛
2026-01-25 08:50:26
受贿1.07亿余元,山东一领导要坐牢了!

受贿1.07亿余元,山东一领导要坐牢了!

青州论坛
2026-01-25 16:54:39
咸阳一幼儿园园长涉贪千万案二审待宣判:“公职身份”和“租赁关系”成争论焦点,此前一审被判11年

咸阳一幼儿园园长涉贪千万案二审待宣判:“公职身份”和“租赁关系”成争论焦点,此前一审被判11年

极目新闻
2026-01-25 16:39:36
周至县通报:在一处崖壁下找到孟某某,已无生命体征

周至县通报:在一处崖壁下找到孟某某,已无生命体征

新京报政事儿
2026-01-25 14:59:33
特朗普在回国专机上,宣告了伊朗的结局,最快48小时内见证历史?

特朗普在回国专机上,宣告了伊朗的结局,最快48小时内见证历史?

娱乐的宅急便
2026-01-24 16:24:43
比特币巨震,超9万人爆仓!发生了什么?

比特币巨震,超9万人爆仓!发生了什么?

证券时报e公司
2026-01-24 22:16:04
澎湃:欧洲球队对李昊最多报50万欧,薪水也只有国内五分之一

澎湃:欧洲球队对李昊最多报50万欧,薪水也只有国内五分之一

懂球帝
2026-01-25 10:51:06
马上影响无锡!大范围雨雪,来了!

马上影响无锡!大范围雨雪,来了!

江南晚报
2026-01-25 16:55:30
随着拜仁1-2,多特蒙德3-0,德甲最新积分榜出炉:争冠悬念再起

随着拜仁1-2,多特蒙德3-0,德甲最新积分榜出炉:争冠悬念再起

侧身凌空斩
2026-01-25 07:00:32
张兰带孙子孙女溜冰!小玥儿想妈妈心事重重,小箖箖摔跤逗笑姐姐

张兰带孙子孙女溜冰!小玥儿想妈妈心事重重,小箖箖摔跤逗笑姐姐

离离言几许
2026-01-25 18:27:11
不过分吧!男子结婚给28万彩礼要求新娘做GPA检测,女生摔门而去

不过分吧!男子结婚给28万彩礼要求新娘做GPA检测,女生摔门而去

唐小糖说情感
2025-12-12 08:51:45
“敢动领哈梅内伊世界末日!”伊朗革命卫队强硬警告特朗普

“敢动领哈梅内伊世界末日!”伊朗革命卫队强硬警告特朗普

老马拉车莫少装
2026-01-21 18:05:15
李亚鹏宣布嫣然医院新址落定,网友暖心响应:搬家我们来帮忙!

李亚鹏宣布嫣然医院新址落定,网友暖心响应:搬家我们来帮忙!

一盅情怀
2026-01-25 15:04:36
医生劝告:胃癌早期不是反胃,而是频繁出现这3症状,千万别忽视

医生劝告:胃癌早期不是反胃,而是频繁出现这3症状,千万别忽视

蜉蝣说
2026-01-25 17:43:41
丹麦如何白捡50倍大领土格陵兰岛的?格陵兰岛的原住民,为啥长得像中国人?

丹麦如何白捡50倍大领土格陵兰岛的?格陵兰岛的原住民,为啥长得像中国人?

犀利强哥
2026-01-23 06:59:12
美航母还没到,伊朗抢先下死手!导弹绞杀盟友基地,五角大楼慌了

美航母还没到,伊朗抢先下死手!导弹绞杀盟友基地,五角大楼慌了

南山塔的姑娘
2026-01-24 18:09:27
自作孽不可活!高调炫富的李湘再传“噩耗”,私生活被扒个底朝天

自作孽不可活!高调炫富的李湘再传“噩耗”,私生活被扒个底朝天

人间无味啊
2026-01-23 01:08:44
疯狂6-0!法布雷加斯制造惨案,超越尤文图斯,逼近欧冠区

疯狂6-0!法布雷加斯制造惨案,超越尤文图斯,逼近欧冠区

足球狗说
2026-01-24 23:54:02
王刚没想到,离婚24年,成方圆会以这种方式,给自己上了生动一课

王刚没想到,离婚24年,成方圆会以这种方式,给自己上了生动一课

林雁飞
2026-01-22 23:51:27
2026-01-25 20:44:49
新浪财经 incentive-icons
新浪财经
新浪财经是一家创建于1999年8月的财经平台
2057561文章数 5296关注度
往期回顾 全部

科技要闻

黄仁勋在上海逛菜市场,可能惦记着三件事

头条要闻

加拿大华人医生夫妇携幼女到上海求医 花16万保下脾脏

头条要闻

加拿大华人医生夫妇携幼女到上海求医 花16万保下脾脏

体育要闻

中国足球不会一夜变强,但他们已经创造历史

娱乐要闻

央八开播 杨紫胡歌主演的40集大剧来了

财经要闻

隋广义等80人被公诉 千亿骗局进入末路

汽车要闻

别克至境E7内饰图曝光 新车将于一季度正式发布

态度原创

家居
房产
时尚
数码
军事航空

家居要闻

在家度假 160平南洋混搭宅

房产要闻

正式官宣!三亚又一所名校要来了!

新不如旧!这4件时髦“旧衣服”今年太火了

数码要闻

网购微星RTX 5090显卡却收到浴巾裹石头,网友分享被骗经历

军事要闻

俄美乌三方首轮会谈细节披露

无障碍浏览 进入关怀版