网易首页 > 网易号 > 正文 申请入驻

OpenAI最新模型打不动了?GPT-5.2因“降智”陷“差评潮”

0
分享至

来源:界面新闻

OpenAI推出不到一周的最新旗舰模型没能等来“好评如潮”。

近日,OpenAI在十周年之际发布了GPT-5.2系列模型,官方数据显示其在GDPval等专业基准测试中超越人类专家,是迄今为止在“专业知识工作方面”表现最好的模型。

据OpenAI官方披露,GPT-5.2在多领域实现技术突破:GDPval测试中覆盖44个职业的任务表现70.9%优于顶尖专家,SWE-bench Pro编程测试获55.6%的SOTA成绩,还将幻觉率较GPT-5.1降低38%。该公司CEO山姆·奥特曼称其为“许久以来最大的升级”,并透露计划2026年1月解除应对谷歌竞争的“红色警报”。

但该模型上线后遭到大量用户吐槽,认为其从常识问答到情感交互,“智商不稳定”。

SimpleBench常识推理测试显示,GPT-5.2得分低于Anthropic发布的Claude Sonnet 3.7,甚至在“garlic有几个r”的基础问题上反复出错——有用户三次测试仅一次答对,而谷歌的Gemini 3.0等竞品均稳定通关。该测试旨在评估大模型在处理普通人认为简单,但对机器而言充满挑战的逻辑推理任务的能力。前AWS总经理Bindu Reddy直言,“不值得从GPT-5.1升级”。



网友晒出的网友晒出GPT-5.2在SimpleBench上的成绩单。

一些编程爱好者则发现,GPT-5.2生成的交通灯模拟代码画面仅达“黑白火柴人级别”,蒙娜丽莎ASCII艺术创作效果远逊于GPT-4o。情感交互中有用户倾诉“恐慌发作”,竟收到“很高兴听到这个消息”的回复,安慰失宠孩童时则机械强调“生物都会停止运作”,缺乏此前版本的亲和力和自然表达。

此外,该版本在处理连续对话时不稳定,甚至在明确选择“高级思考模式”时也会返回低质量的自动响应,令用户不得不重新调整使用方式。

还有用户表示,GPT-5.2的安全策略实施过于严格,在执行普通且无风险的请求时也会拒绝操作并给出无关的安全提示。

有观察人士指出,这轮差评潮背后存在几重因素。一方面,OpenAI推广时着重强调GPT-5.2的专业能力和基准测试成绩,但普通用户更关注日常对话、流畅性和创造性体验,两者的期望存在错位;另一方面,由于竞争加剧和内部发布节奏加快,有观点认为该版本可能发布过早,尚未充分优化在关键使用场景中的稳定性与一致性,因此用户的实际感受出现明显落差。

截至发稿,OpenAI尚未就这轮用户反馈作出公开回应,但公司在官方资料中表示,会持续改善用户体验、优化安全策略,并根据用户反馈推进后续版本的迭代。

当前,OpenAI仍面临来自谷歌的巨大竞争压力。谷歌此前推出的Gemini 3在编程、多模态理解等关键企业应用场景上实现了对ChatGPT的性能超越。11月,谷歌宣布Gemini月活跃用户已突破6.5 亿,较7月报告的4.5亿实现大幅增长,而OpenAI披露的周活跃用户数接近8亿。

为此,奥特曼曾发布“红色代码”警报,决定暂时搁置包括Sora视频生成器在内的长期研发项目,转而在短期内全力通过提升用户活跃度来巩固ChatGPT的大众市场地位。但急转直下的口碑或在很大程度上影响ChatGPT的使用率,OpenAI能否拿出更强有力的“武器”反击谷歌仍存在不确定性。

特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相关推荐
热点推荐
同一时间点,保利集团一二把手都换了

同一时间点,保利集团一二把手都换了

地产一品塘
2025-12-25 19:16:42
38分!杨瀚森新突破!却遭主帅双标对待,开拓者真是又当又立啊

38分!杨瀚森新突破!却遭主帅双标对待,开拓者真是又当又立啊

凉了时光人
2025-12-25 19:45:56
万万没想到,毕福剑败光的体面,如今被29岁“丑女儿”挣回来了!

万万没想到,毕福剑败光的体面,如今被29岁“丑女儿”挣回来了!

知鉴明史
2025-09-03 18:55:30
“港独分子”陈方安生,勾结外部势力祸乱香港,现在下场大快人心

“港独分子”陈方安生,勾结外部势力祸乱香港,现在下场大快人心

似水流年忘我
2025-12-24 21:27:21
比恒大还惨!中国第二大民企轰然倒塌,负债7500亿,创始人被带走

比恒大还惨!中国第二大民企轰然倒塌,负债7500亿,创始人被带走

甜柠聊史
2025-12-24 18:22:43
科尔:我们已不再是那支统治联盟的勇士 而是正在走下坡路的王朝

科尔:我们已不再是那支统治联盟的勇士 而是正在走下坡路的王朝

北青网-北京青年报
2025-12-25 08:39:07
向太曝马伊琍已再婚:当年文章过不了心理那关

向太曝马伊琍已再婚:当年文章过不了心理那关

娱乐看阿敞
2025-12-12 15:50:00
宁肯停电也不找中国?越南硬逼5年建成核电站,日本直接掀桌子

宁肯停电也不找中国?越南硬逼5年建成核电站,日本直接掀桌子

潮鹿逐梦
2025-12-25 19:12:52
霍启刚没想到,44岁郭晶晶再传喜讯,让霍震霆和香港阔太圈沉默了

霍启刚没想到,44岁郭晶晶再传喜讯,让霍震霆和香港阔太圈沉默了

涵豆说娱
2025-12-24 16:48:02
回顾“91女神”琪琪:五官出众,却因天真让自己“受伤”

回顾“91女神”琪琪:五官出众,却因天真让自己“受伤”

就一点
2025-11-22 10:36:39
周琦一家近照,大6岁妻子身材好,儿子也爱篮球,29岁身家过亿

周琦一家近照,大6岁妻子身材好,儿子也爱篮球,29岁身家过亿

大西体育
2025-12-23 16:37:16
日本的斩杀线,比美国更狠

日本的斩杀线,比美国更狠

这里是东京
2025-12-24 16:57:26
张一鸣押注、豆包加持!字节AR眼镜外观图曝光

张一鸣押注、豆包加持!字节AR眼镜外观图曝光

雷科技
2025-12-25 18:40:03
徐湖平背后贵人被曝光,父亲是老军人,在当地关系网很大、人脉广

徐湖平背后贵人被曝光,父亲是老军人,在当地关系网很大、人脉广

观星赏月
2025-12-25 12:06:58
庞家后人硬刚新华社!七条质疑炸锅,香港媒体敢报的真相太炸裂了

庞家后人硬刚新华社!七条质疑炸锅,香港媒体敢报的真相太炸裂了

小蜜情感说
2025-12-24 12:21:12
馒头立大功!研究发现:糖尿病患者常吃馒头,或能降低6种并发症

馒头立大功!研究发现:糖尿病患者常吃馒头,或能降低6种并发症

今日养生之道
2025-12-25 13:58:34
金价这么高,还能追涨吗?世界黄金协会:43%央行表示明年接着买

金价这么高,还能追涨吗?世界黄金协会:43%央行表示明年接着买

时代周报
2025-12-25 17:44:08
65年李宗仁回国后不去拜访元帅,却主动拜见一位曾打败自己的大将

65年李宗仁回国后不去拜访元帅,却主动拜见一位曾打败自己的大将

睡前讲故事
2025-12-16 13:37:15
叶选宁为何是“红二代”里的老大哥?邓朴方的一句评价,十分经典

叶选宁为何是“红二代”里的老大哥?邓朴方的一句评价,十分经典

素年文史
2025-12-21 16:04:03
库皮扬斯克占领军正在投降,乌克兰大选民调对泽连斯基不利

库皮扬斯克占领军正在投降,乌克兰大选民调对泽连斯基不利

近距离
2025-12-25 18:59:42
2025-12-25 21:28:49
中国能源网 incentive-icons
中国能源网
《中国能源报》社有限公司官网官方账号,专注能源行业报道的垂直媒体,是能源专业产经传媒平台。
59594文章数 853关注度
往期回顾 全部

科技要闻

屠龙少年被"招安"!英伟达平安夜豪掷200亿

头条要闻

美司法部发现上百万份爱泼斯坦新文件 涂黑操作翻车

头条要闻

美司法部发现上百万份爱泼斯坦新文件 涂黑操作翻车

体育要闻

单赛季11冠,羽坛“安洗莹时代”真的来了

娱乐要闻

朱孝天把阿信好意当球踢!

财经要闻

时隔15月,人民币升破7,三大推手曝光

汽车要闻

速来!智界在上海西岸准备了年末潮流盛典

态度原创

房产
本地
时尚
艺术
公开课

房产要闻

太猛了!单月新增企业4.1万家,又一波巨头涌向海南!

本地新闻

这辈子要积多少德,下辈子才能投胎到德国当狗

今年冬天最火的搭配竟然是它?从现在美到明年

艺术要闻

缅怀 | 著名油画家宫立龙逝世,享年73岁

公开课

李玫瑾:为什么性格比能力更重要?

无障碍浏览 进入关怀版