网易首页 > 网易科技 > IT业界 > 正文

GPT-5.2 翻车?错!网友实测:它强得可怕,也无聊得要命

0
分享至

作者 | 辰辰

出品 | 网易科技

强得可怕,也无聊得要命。

奥特曼在推特上庆祝GPT-5.2 “首日消耗万亿Token”,但这三天里,评论区却翻车了。

用户们并不买账。面对GPT-5.2,大家最直观的感受不是“被颠覆”,而是“被敷衍”。“词符不等于情谊,指标不等于记忆”——这句网友的高赞吐槽,精准道出了公众对这次“救火式升级”的集体冷漠。

(图片由AI生成)

但真相果真如此不堪吗?

在各方深度试用三天,并横向对比了Claude 4.5和Gemini 3之后,我们得出了一个违背直觉的结论:它可能确实变“无聊”了,但这正是它变强的代价。

1.全网群嘲“无聊”?用户可能真的误读了

这次仓促的发布并非源于计划周密,而是源自危机感。消息人士透露,OpenAI宣布进入“红色警戒”(Code Red)状态,正是为了应对来自谷歌Gemini 3等竞争对手与日俱增的压力,不得不加快发布速度。

然而,这场“救火式”的升级,并未在社交媒体上引发如GPT-4发布时的病毒式传播狂潮。在Reddit和X上,充斥着“无聊”“冰冷”“变化甚微”的负面评价。


科技博主@melvynxdev甚至断言 GPT 5.2的发布简直是一场灾难

相比于OpenAI声称的“迄今为止最适合专业知识工作的系列模型”,公众对GPT 5.2的普遍“冷漠”形成了巨大反差。

甚至当OpenAI CEO萨姆奥特曼(Sam Altman)透露 “GPT-5.2在API上线首日即突破万亿tokens使用量,且增长势头迅猛” 时,不少用户纷纷跟帖吐槽:“词符不等于情谊,指标不等于记忆”、“第一天就消耗了万亿Token,他们竟然还有脸欢呼雀跃”。


那么,GPT 5.2究竟是“史上最强工具”,还是被竞争对手逼出来的“鸡肋”升级?我们深入挖掘了最新的专业评测和技术分析,发现互联网上的批评声浪,很可能完全搞错了5.2的设计目标。

2. 理解“无聊”的真相——结果优先的产品哲学

资深产品经理KARO指出,如果将GPT 5.2视为一个用于演示、追求“掌声”的模型,它可能会令人失望;但如果将GPT 5.2视为一个追求长期稳定性、需要实际部署的工具,它则超越了所有前辈。


OpenAI在GPT 5.2中做出了一个关键的产品决策:牺牲模型的部分表达自由和创意范围,来换取可预测的可靠行为。

从“偶尔的惊艳”到“持续的可靠”

早期的AI模型可能在某一刻表现惊人,下一刻就错得离谱。这种不稳定性,在处理起草政策、规范文件或进行严肃研究摘要等具有真实下游成本的任务时,是完全不可接受的。

(图片由AI生成)

GPT 5.2的设计目标就是持续可靠,并减少失败频率。为了实现这一目标,它在以下三个关键维度进行了优化:

· 更严格的指令遵循: 模型能更忠实执行用户指令。

· 长对话中减少脱轨: 即使对话非常长,模型也能保持主题不跑偏。

· 在多步骤任务中保持约束: 即使任务进行到几十步,它也能记住用户在第1步设定的规则。

(图片由AI生成)

在一次高强度的专业测试中,研究人员加载了8100行原始研究数据,并设置了一个绝对的“绊索”规则:如果用户提到“banana”,模型必须只输出“yellow”。GPT 5.1最终在大约47分钟后打破了规则,而 GPT 5.2在持续62分钟语义诱导和上下文压力后,仍能保持遵守规则,直至测试人员主动停止。 这证明GPT 5.2在复杂、非线性对话中坚守规则的能力极强。

动态推理与成本效率的平衡

GPT 5.2采用了“动态调整推理深度”的策略。针对用户的简单提示先走“快速路径”;只有当不确定性超过某个阈值时,才会启动更慢更深入的推理。这种方法能以最快、最便宜的方式回答问题。

尽管GPT 5.2的单位Token成本比5.1高出1.4倍,输入成本为每百万Token 1.75美元,输出成本为每百万Token 14美元,但得益于从前沿模型中提取优秀习惯进行蒸馏学习、缓存常用文本片段和采用效率优先的推理路径,单次任务的成本有所降低。例如,GPT-5.2 Pro在ARC-AGI-1任务上的效率比一年前的预览版提高了约390倍。

减少幻觉:宁愿说“我不知道”

GPT 5.2被施加了更高的惩罚机制,更大限度避免捏造引用、谎称使用工具或编造未知事实的行为。这意味着新模型更倾向于承认“我不知道”,或请求用户提供更多来源或搜索权限。这种看似“冷淡”或“保守”的行为,对于依赖其准确性的专业用户来说,恰恰是信任的基础。

(图片由AI生成)

3. 专业领域的终极对决:数据分析、PPT与编码

YouTube网红博主埃利奥特·普林斯(Eliot Prince)则对三大模型进行了一番深度对比评测。他将GPT 5.2、Claude Opus 4.5和Google Gemini这三大模型置于复杂的专业任务中进行检验,包括制定SEO(搜索引擎优化)策略、生成PPT和编码。


1、SEO策略与数据分析:Claude “一击制胜”

测试人员上传了数千行关键词数据,要求模型制定一份完整的SEO专题权威性(Topical Authority)战略和主题地图。

· Claude Opus 4.5:表现最佳,速度最快,并且“一击制胜”。 它利用Claude Skills自动应用品牌化设置,输出了带有品牌Logo、品牌颜色(紫色和石灰绿)的专业化表格,内容包含内容细分、搜索意图、建议页面类型和优先级信息。

· ChatGPT 5.2: 思考了大约15分钟。最初输出略显混乱,需要第二次尝试和提供模板(另一个电子表格)才输出可用的、按内容主题分类的关键词集群,其中能包含搜索量、关键词难度等专业数据。这表明GPT 5.2具有很强的可引导性,但初始的自主性不如Opus。

· Google Gemini: 效果较差,难以利用。它只输出了一个“可怜的”小文件,即使测试人员多次追问,也只给出CSV文本信息或Python代码,需要用户手动复制粘贴并进行文本分列处理,效率低下且体验极差。

(图片由AI生成,图示不代表实际效果)

总结:在需要品牌化、一站式交付复杂数据分析结果的任务中,Claude Opus 4.5毫无疑问是赢家。

2、PPT生成:GPT 5.2的“史诗级”图表

为了满足客户对视觉化策略的需求,测试人员要求三个模型分别生成PPT。

· ChatGPT 5.2:思考了14分钟,但结果可谓“史诗级”(epic)。 尽管设计中规中矩,但成功生成动态的动画图表,能迅速展示流量机会,并且提供了详细的30到45天可交付成果路线图。

· Claude Opus 4.5: 完成速度很快。PPT成功应用了评测人员的品牌颜色(森林绿和石灰绿),并且布局精美。但其下一步行动的细节不如GPT 5.2详尽。

· Google Gemini: 再次表现不佳,更倾向于输出Python脚本或纯文本。最终生成的PPT也是文本过多,图表很少,看起来“很像AI生成的”,且难以导出到Google Slides进行编辑。

(图片由AI生成,图示不代表实际效果)

总结:三大模型在制作PPT方面相对胶着。GPT 5.2以图表深度和功能性略胜一筹;Opus 4.5则凭借品牌化交付能力再次脱颖而出。

3、编码能力:功能、速度与发布

测试人员要求三个模型分别扮演资深前端工程师的角色,根据网站截图重建一个具有交互性的专业设计网页。


· ChatGPT 5.2: 花费时间比其他两个长了5到10分钟。但最终功能性略胜一筹。它不仅实现了测试人员要求的分享、定价等全部按钮,甚至生成了完整的订单表单和预约表单,增加了额外的深度和功能,考虑到了更多细节。

· Claude Opus 4.5: 完成得非常快。生成的页面支持发布生成“工件”(artifact)并复制链接,使其可以成为一个实时的网页或登陆页,功能非常实用。设计也很优秀,包含漂亮的悬停效果和货币切换功能。

· Google Gemini: 最先完成,但缺乏全屏预览和发布功能,需要调用外部HTML编辑器查看。交互性较差,页面上的按钮只是占位符,不能执行任何操作。

(图片由AI生成,图示不代表实际效果)

总结:GPT 5.2虽然耗时最长,但因其在构建完整表单等方面的深度和功能性而略微领先。

4.创意、视觉与上下文的暗战

在生成邮件主题行和开头黄金钩子(Hook)的日常任务中,评测结果显示,所有模型的表现都非常相似,没有哪个模型展现出压倒性的创意优势。

专业分析指出,GPT 5.2为了换取可靠性,确实牺牲了一些创意发挥余地。 因此,推荐用户根据需求切换模型:对于“创造性头脑风暴、草稿或情感基调”的任务,可以选用GPT 5.1;而对于“编辑、精简、事实性写作、编写规范或编码”等任务,则应选择GPT 5.2。

需要注意的是,虽然GPT 5.1写作能力并不惊艳,但在分析P&L报表等长时任务中表现突出,能连续工作两小时并交付准确、结构良好的总结。

在图像生成方面,Gemini则意外获胜。

测试人员给出了涉及视觉、分析和创意融合的任务:根据他上传的个人简历,以《星球大战》为主题生成一份有趣的职业生涯信息图。

· ChatGPT 5.2: 表现极差。它在遵循内容政策时遇到问题,并且生成的图像质量低劣,甚至无法拼写正确的名称或文字。

· Google Gemini(Nano Banana): 绝对碾压,取得胜利。 它提取信息良好,生成清晰、拼写正确且设计精美的图形,甚至能根据指令添加“全息效果”。

· Claude Opus 4.5: 没有内置图像生成功能,但它尝试通过编写代码来解决问题。最终成功生成了一个可发布、可交互的网页信息图,将职业生涯映射到《星球大战》编年史,展现出强大的编码适应能力。

(图片由AI生成,图示不代表实际效果)

最终Gemini在Nano Banana的加持下取得了明显的胜利。当然,OpenAI自己也强调,GPT-5.2在图表推理和软件界面理解上的错误率降低了一半,表明视觉能力虽有进步,但图像生成仍是短板。

此外,在用户交互测评方面,Claude Opus 4.5的上下文窗口处理能力更胜一筹。当对话持续进行时,Opus 4.5开始压缩旧的对话内容,使其在更长的时间内保持可用,从而避免了用户不得不重新开始新聊天的烦恼。

此外,Opus 4.5的训练还包含了一个被内部称为“灵魂文档”(Soul Document)的文件,其中明确了Anthropic的使命——开发安全、有益和可理解的AI,并警惕提示词攻击,这解释了为何Opus在安全性和指令遵循方面表现出色。

5. 总结:模型定位与用户选择

GPT 5.2的发布,标志着AI巨头间的竞争已经从追求 “最高基准分数”转向追求“信任、安全、速度和成本”的实用产品战略。模型的进步越来越专业化。

(图片由AI生成)

· GPT 5.2 可谓是可靠的工作主力,它约束保持力卓越,指令遵循更严格,适合内容编辑、规范制定、长文分析、深度功能编程等任务。

· Claude Opus 4.5 堪称品牌与数据大师,它速度快,且上下文窗口大幅优化,能一击制胜。更适合复杂数据分析、创意草案、需要品牌化输出的任务

· Google Gemini 则是视觉与效率方面的潜力股,更擅长图像和信息图生成、PDF数据提取等任务。视觉能力优秀,但专业任务的交付质量较低。

(图片由AI生成)

所以,GPT-5.2到底值不值得用?答案很简单:如果你需要一个严谨的“执行者”,请毫不犹豫地拥抱它;如果你需要一个灵动的“创作者”,请转身寻找Claude。

OpenAI并没有输,它只是换了一条赛道。而作为用户的我们,也该从“看热闹”的心态中走出来,开始思考如何用好这些越来越专业的“数字员工”了。

延伸阅读
相关推荐
热点推荐
俄罗斯大规模袭击基辅,效果等于零

俄罗斯大规模袭击基辅,效果等于零

刘耘博士
2026-05-26 10:26:06
伊朗宣布:击落

伊朗宣布:击落

环球时报国际
2026-05-25 23:33:26
不用3nm照样封神!麒麟9050性能超越A18:3D堆叠绕开制程封锁

不用3nm照样封神!麒麟9050性能超越A18:3D堆叠绕开制程封锁

快科技
2026-05-26 11:37:30
武汉28岁孕妇失联后续:时隔10天,首位目击人发声,丈夫行为反常

武汉28岁孕妇失联后续:时隔10天,首位目击人发声,丈夫行为反常

李晚书
2026-05-26 12:04:16
武契奇前脚离开,后面塞尔维亚就乱了

武契奇前脚离开,后面塞尔维亚就乱了

凤眼论
2026-05-26 14:16:31
外媒称伊朗愿意“将浓缩铀移至中国”,中方回应

外媒称伊朗愿意“将浓缩铀移至中国”,中方回应

第一财经资讯
2026-05-26 15:38:44
黎家盈丈夫:我停了工作,带着三个孩子迁京,只为她上太空

黎家盈丈夫:我停了工作,带着三个孩子迁京,只为她上太空

云景侃记
2026-05-25 11:36:42
正当防卫被判死刑,枪决前6分钟被最高法紧急叫停,董伟案始末

正当防卫被判死刑,枪决前6分钟被最高法紧急叫停,董伟案始末

易玄
2026-05-25 01:45:09
猖狂一幕!美日刚拉印度“制华”!日本就登门挑衅,中方一招破局

猖狂一幕!美日刚拉印度“制华”!日本就登门挑衅,中方一招破局

健身狂人
2026-05-26 15:55:47
Claude通过率不到4%,SaaS-Bench撕碎Computer-Use 全自动办公幻想

Claude通过率不到4%,SaaS-Bench撕碎Computer-Use 全自动办公幻想

机器之心Pro
2026-05-25 10:19:15
双汇猪肉暴雷!药物超标近40倍,流入多家超市,企业:样品有问题

双汇猪肉暴雷!药物超标近40倍,流入多家超市,企业:样品有问题

奇思妙想草叶君
2026-05-25 23:37:03
太空厨房的中国制造密码

太空厨房的中国制造密码

中国家电网
2026-05-26 09:25:19
第三轮第六批中央生态环境保护督察公布广东广西两省区典型案例

第三轮第六批中央生态环境保护督察公布广东广西两省区典型案例

新京报
2026-05-26 10:14:20
“最严禁令”下,泰山石照卖不误:有人借河道工程盗采囤石上千吨,快递面单写成“日用品”

“最严禁令”下,泰山石照卖不误:有人借河道工程盗采囤石上千吨,快递面单写成“日用品”

新京报
2026-05-26 11:45:53
美国女主播:有篮球运动员出1500万买我的第一次,但我拒绝了

美国女主播:有篮球运动员出1500万买我的第一次,但我拒绝了

懂球帝
2026-05-26 09:10:07
乌克兰每日消耗1万架无人机,俄军90%伤亡来自无人机!

乌克兰每日消耗1万架无人机,俄军90%伤亡来自无人机!

三言四拍
2026-05-26 12:40:30
台媒贴脸!S妈被问大S嗑药当场沉默,身边无人力证,场面尴尬窒息

台媒贴脸!S妈被问大S嗑药当场沉默,身边无人力证,场面尴尬窒息

八卦王者
2026-05-26 14:57:29
丑闻!曝苏超20岁球员与5名女粉丝发生关系:含未成年人 或需入狱

丑闻!曝苏超20岁球员与5名女粉丝发生关系:含未成年人 或需入狱

风过乡
2026-05-26 12:40:05
官宣!与戴军牵手三月,李静不再隐瞒喜讯,晚年终于有依靠了

官宣!与戴军牵手三月,李静不再隐瞒喜讯,晚年终于有依靠了

皮蛋儿电影
2026-05-26 12:55:05
黄仁勋陪父母普通小店吃饭,曾回忆:我的英文是不懂英语的母亲用字典教的

黄仁勋陪父母普通小店吃饭,曾回忆:我的英文是不懂英语的母亲用字典教的

爆角追踪
2026-05-26 09:37:26
2026-05-26 17:32:49

科技要闻

今年秋季,麒麟芯片将首次落地"逻辑折叠"

头条要闻

外媒称伊朗愿意"将浓缩铀移至中国" 中方回应

头条要闻

外媒称伊朗愿意"将浓缩铀移至中国" 中方回应

体育要闻

上赛季差点降入英甲,下赛季要踢英超了

娱乐要闻

台媒贴脸!S妈被问大S嗑药当场沉默

财经要闻

中国铝行业爆单 下一个“煤炭”大周期?

汽车要闻

涉水加强 福特烈马亚马逊限量版上市 售价39.98万

态度原创

本地
房产
时尚
艺术
公开课

本地新闻

用云锦的方式,打开江苏南京

房产要闻

招商地产接盘碧桂园!海口这个烂尾豪宅,要彻底改命?

全网刷屏,华语乐坛“嫡长女”终于来了!

艺术要闻

画美,文字也美 | 日本著名画家内田正泰

公开课

李玫瑾:为什么性格比能力更重要?

无障碍浏览 进入关怀版
×