GPT-5.2 翻车？错！网友实测：它强得可怕，也无聊得要命|gpt|上下文

分享至

作者 | 辰辰

出品 | 网易科技

强得可怕，也无聊得要命。

奥特曼在推特上庆祝GPT-5.2 “首日消耗万亿Token”，但这三天里，评论区却翻车了。

用户们并不买账。面对GPT-5.2，大家最直观的感受不是“被颠覆”，而是“被敷衍”。“词符不等于情谊，指标不等于记忆”——这句网友的高赞吐槽，精准道出了公众对这次“救火式升级”的集体冷漠。

（图片由AI生成）

但真相果真如此不堪吗？

在各方深度试用三天，并横向对比了Claude 4.5和Gemini 3之后，我们得出了一个违背直觉的结论：它可能确实变“无聊”了，但这正是它变强的代价。

1.全网群嘲“无聊”？用户可能真的误读了

这次仓促的发布并非源于计划周密，而是源自危机感。消息人士透露，OpenAI宣布进入“红色警戒”（Code Red）状态，正是为了应对来自谷歌Gemini 3等竞争对手与日俱增的压力，不得不加快发布速度。

然而，这场“救火式”的升级，并未在社交媒体上引发如GPT-4发布时的病毒式传播狂潮。在Reddit和X上，充斥着“无聊”“冰冷”“变化甚微”的负面评价。

科技博主@melvynxdev甚至断言 GPT 5.2的发布简直是一场灾难。

相比于OpenAI声称的“迄今为止最适合专业知识工作的系列模型”，公众对GPT 5.2的普遍“冷漠”形成了巨大反差。

甚至当OpenAI CEO萨姆奥特曼（Sam Altman）透露 “GPT-5.2在API上线首日即突破万亿tokens使用量，且增长势头迅猛” 时，不少用户纷纷跟帖吐槽：“词符不等于情谊，指标不等于记忆”、“第一天就消耗了万亿Token，他们竟然还有脸欢呼雀跃”。

那么，GPT 5.2究竟是“史上最强工具”，还是被竞争对手逼出来的“鸡肋”升级？我们深入挖掘了最新的专业评测和技术分析，发现互联网上的批评声浪，很可能完全搞错了5.2的设计目标。

2. 理解“无聊”的真相——结果优先的产品哲学

资深产品经理KARO指出，如果将GPT 5.2视为一个用于演示、追求“掌声”的模型，它可能会令人失望；但如果将GPT 5.2视为一个追求长期稳定性、需要实际部署的工具，它则超越了所有前辈。

OpenAI在GPT 5.2中做出了一个关键的产品决策：牺牲模型的部分表达自由和创意范围，来换取可预测的可靠行为。

从“偶尔的惊艳”到“持续的可靠”

早期的AI模型可能在某一刻表现惊人，下一刻就错得离谱。这种不稳定性，在处理起草政策、规范文件或进行严肃研究摘要等具有真实下游成本的任务时，是完全不可接受的。

（图片由AI生成）

GPT 5.2的设计目标就是持续可靠，并减少失败频率。为了实现这一目标，它在以下三个关键维度进行了优化：

· 更严格的指令遵循： 模型能更忠实执行用户指令。

· 长对话中减少脱轨： 即使对话非常长，模型也能保持主题不跑偏。

· 在多步骤任务中保持约束： 即使任务进行到几十步，它也能记住用户在第1步设定的规则。

（图片由AI生成）

在一次高强度的专业测试中，研究人员加载了8100行原始研究数据，并设置了一个绝对的“绊索”规则：如果用户提到“banana”，模型必须只输出“yellow”。GPT 5.1最终在大约47分钟后打破了规则，而 GPT 5.2在持续62分钟语义诱导和上下文压力后，仍能保持遵守规则，直至测试人员主动停止。 这证明GPT 5.2在复杂、非线性对话中坚守规则的能力极强。

动态推理与成本效率的平衡

GPT 5.2采用了“动态调整推理深度”的策略。针对用户的简单提示先走“快速路径”；只有当不确定性超过某个阈值时，才会启动更慢更深入的推理。这种方法能以最快、最便宜的方式回答问题。

尽管GPT 5.2的单位Token成本比5.1高出1.4倍，输入成本为每百万Token 1.75美元，输出成本为每百万Token 14美元，但得益于从前沿模型中提取优秀习惯进行蒸馏学习、缓存常用文本片段和采用效率优先的推理路径，单次任务的成本有所降低。例如，GPT-5.2 Pro在ARC-AGI-1任务上的效率比一年前的预览版提高了约390倍。

减少幻觉：宁愿说“我不知道”

GPT 5.2被施加了更高的惩罚机制，更大限度避免捏造引用、谎称使用工具或编造未知事实的行为。这意味着新模型更倾向于承认“我不知道”，或请求用户提供更多来源或搜索权限。这种看似“冷淡”或“保守”的行为，对于依赖其准确性的专业用户来说，恰恰是信任的基础。

（图片由AI生成）

3. 专业领域的终极对决：数据分析、PPT与编码

YouTube网红博主埃利奥特·普林斯（Eliot Prince）则对三大模型进行了一番深度对比评测。他将GPT 5.2、Claude Opus 4.5和Google Gemini这三大模型置于复杂的专业任务中进行检验，包括制定SEO（搜索引擎优化）策略、生成PPT和编码。

1、SEO策略与数据分析：Claude “一击制胜”

测试人员上传了数千行关键词数据，要求模型制定一份完整的SEO专题权威性（Topical Authority）战略和主题地图。

· Claude Opus 4.5：表现最佳，速度最快，并且“一击制胜”。 它利用Claude Skills自动应用品牌化设置，输出了带有品牌Logo、品牌颜色（紫色和石灰绿）的专业化表格，内容包含内容细分、搜索意图、建议页面类型和优先级信息。

· ChatGPT 5.2： 思考了大约15分钟。最初输出略显混乱，需要第二次尝试和提供模板（另一个电子表格）才输出可用的、按内容主题分类的关键词集群，其中能包含搜索量、关键词难度等专业数据。这表明GPT 5.2具有很强的可引导性，但初始的自主性不如Opus。

· Google Gemini： 效果较差，难以利用。它只输出了一个“可怜的”小文件，即使测试人员多次追问，也只给出CSV文本信息或Python代码，需要用户手动复制粘贴并进行文本分列处理，效率低下且体验极差。

（图片由AI生成，图示不代表实际效果）

总结：在需要品牌化、一站式交付复杂数据分析结果的任务中，Claude Opus 4.5毫无疑问是赢家。

2、PPT生成：GPT 5.2的“史诗级”图表

为了满足客户对视觉化策略的需求，测试人员要求三个模型分别生成PPT。

· ChatGPT 5.2：思考了14分钟，但结果可谓“史诗级”（epic）。 尽管设计中规中矩，但成功生成动态的动画图表，能迅速展示流量机会，并且提供了详细的30到45天可交付成果路线图。

· Claude Opus 4.5： 完成速度很快。PPT成功应用了评测人员的品牌颜色（森林绿和石灰绿），并且布局精美。但其下一步行动的细节不如GPT 5.2详尽。

· Google Gemini： 再次表现不佳，更倾向于输出Python脚本或纯文本。最终生成的PPT也是文本过多，图表很少，看起来“很像AI生成的”，且难以导出到Google Slides进行编辑。

（图片由AI生成，图示不代表实际效果）

总结：三大模型在制作PPT方面相对胶着。GPT 5.2以图表深度和功能性略胜一筹；Opus 4.5则凭借品牌化交付能力再次脱颖而出。

3、编码能力：功能、速度与发布

测试人员要求三个模型分别扮演资深前端工程师的角色，根据网站截图重建一个具有交互性的专业设计网页。

· ChatGPT 5.2： 花费时间比其他两个长了5到10分钟。但最终功能性略胜一筹。它不仅实现了测试人员要求的分享、定价等全部按钮，甚至生成了完整的订单表单和预约表单，增加了额外的深度和功能，考虑到了更多细节。

· Claude Opus 4.5： 完成得非常快。生成的页面支持发布生成“工件”（artifact）并复制链接，使其可以成为一个实时的网页或登陆页，功能非常实用。设计也很优秀，包含漂亮的悬停效果和货币切换功能。

· Google Gemini： 最先完成，但缺乏全屏预览和发布功能，需要调用外部HTML编辑器查看。交互性较差，页面上的按钮只是占位符，不能执行任何操作。

（图片由AI生成，图示不代表实际效果）

总结：GPT 5.2虽然耗时最长，但因其在构建完整表单等方面的深度和功能性而略微领先。

4.创意、视觉与上下文的暗战

在生成邮件主题行和开头黄金钩子（Hook）的日常任务中，评测结果显示，所有模型的表现都非常相似，没有哪个模型展现出压倒性的创意优势。

专业分析指出，GPT 5.2为了换取可靠性，确实牺牲了一些创意发挥余地。 因此，推荐用户根据需求切换模型：对于“创造性头脑风暴、草稿或情感基调”的任务，可以选用GPT 5.1；而对于“编辑、精简、事实性写作、编写规范或编码”等任务，则应选择GPT 5.2。

需要注意的是，虽然GPT 5.1写作能力并不惊艳，但在分析P&L报表等长时任务中表现突出，能连续工作两小时并交付准确、结构良好的总结。

在图像生成方面，Gemini则意外获胜。

测试人员给出了涉及视觉、分析和创意融合的任务：根据他上传的个人简历，以《星球大战》为主题生成一份有趣的职业生涯信息图。

· ChatGPT 5.2： 表现极差。它在遵循内容政策时遇到问题，并且生成的图像质量低劣，甚至无法拼写正确的名称或文字。

· Google Gemini（Nano Banana）：绝对碾压，取得胜利。 它提取信息良好，生成清晰、拼写正确且设计精美的图形，甚至能根据指令添加“全息效果”。

· Claude Opus 4.5： 没有内置图像生成功能，但它尝试通过编写代码来解决问题。最终成功生成了一个可发布、可交互的网页信息图，将职业生涯映射到《星球大战》编年史，展现出强大的编码适应能力。

（图片由AI生成，图示不代表实际效果）

最终Gemini在Nano Banana的加持下取得了明显的胜利。当然，OpenAI自己也强调，GPT-5.2在图表推理和软件界面理解上的错误率降低了一半，表明视觉能力虽有进步，但图像生成仍是短板。

此外，在用户交互测评方面，Claude Opus 4.5的上下文窗口处理能力更胜一筹。当对话持续进行时，Opus 4.5开始压缩旧的对话内容，使其在更长的时间内保持可用，从而避免了用户不得不重新开始新聊天的烦恼。

此外，Opus 4.5的训练还包含了一个被内部称为“灵魂文档”（Soul Document）的文件，其中明确了Anthropic的使命——开发安全、有益和可理解的AI，并警惕提示词攻击，这解释了为何Opus在安全性和指令遵循方面表现出色。

5. 总结：模型定位与用户选择

GPT 5.2的发布，标志着AI巨头间的竞争已经从追求 “最高基准分数”转向追求“信任、安全、速度和成本”的实用产品战略。模型的进步越来越专业化。

（图片由AI生成）

· GPT 5.2 可谓是可靠的工作主力，它约束保持力卓越，指令遵循更严格，适合内容编辑、规范制定、长文分析、深度功能编程等任务。

· Claude Opus 4.5 堪称品牌与数据大师，它速度快，且上下文窗口大幅优化，能一击制胜。更适合复杂数据分析、创意草案、需要品牌化输出的任务

· Google Gemini 则是视觉与效率方面的潜力股，更擅长图像和信息图生成、PDF数据提取等任务。视觉能力优秀，但专业任务的交付质量较低。

（图片由AI生成）

所以，GPT-5.2到底值不值得用？答案很简单：如果你需要一个严谨的“执行者”，请毫不犹豫地拥抱它；如果你需要一个灵动的“创作者”，请转身寻找Claude。

OpenAI并没有输，它只是换了一条赛道。而作为用户的我们，也该从“看热闹”的心态中走出来，开始思考如何用好这些越来越专业的“数字员工”了。

手机 / 数码

房产 / 家居

GPT-5.2 翻车？错！网友实测：它强得可怕，也无聊得要命

今年秋季，麒麟芯片将首次落地"逻辑折叠"

外媒称伊朗愿意"将浓缩铀移至中国" 中方回应

外媒称伊朗愿意"将浓缩铀移至中国" 中方回应

上赛季差点降入英甲，下赛季要踢英超了

台媒贴脸！S妈被问大S嗑药当场沉默

中国铝行业爆单 下一个“煤炭”大周期？

涉水加强 福特烈马亚马逊限量版上市 售价39.98万

态度原创

用云锦的方式，打开江苏南京

招商地产接盘碧桂园！海口这个烂尾豪宅，要彻底改命？

全网刷屏，华语乐坛“嫡长女”终于来了！

画美，文字也美 | 日本著名画家内田正泰

中国铝行业爆单下一个“煤炭”大周期？

涉水加强福特烈马亚马逊限量版上市售价39.98万