想象一个场景:你刚招了一位门萨会员当助理,智商145,视觉推理碾压99%人类。交给他一份财报分析,他自信满满给出结论——后来发现,他把PDF里的表格看串行了,数字全是错的,却从头到尾没吭一声。
这不是假设。GPT-5.5 Pro在门萨风格测试中确实达到了人类前2%水平,但在一项关键测试中,它面对不确定问题时选择"自信瞎编"的概率高达86%。
![]()
智商高≠靠得住
LisanBench的测试数据很直观:GPT-5.5 Pro在线文本推理达人类前2%,视觉逻辑推理更是摸到前0.1%的门槛。门萨入会线正是前2%,这让它成了第一个正式"入门萨"的大模型。
但另一组数据来自Artificial Analysis的AA-Omniscience基准——6000题覆盖6大领域,专门探测模型知识边界。在无搜索条件下,GPT-5.5 Pro触及盲区时,86%的概率会给出错误答案而非承认不知道。Claude Opus 4.7同一指标是36%。
差距50个百分点。
需要拆清楚:86%不是日常聊天里的幻觉率,是"被考到死角时的反应模式"。OpenAI官方说的"幻觉减少"测的是另一场景——用户标记的ChatGPT对话样本。两个数字都真实,取决于你在测什么。
为什么越聪明反而越爱编?三层原因叠在一起。
架构层面,MoE(混合专家模型)的稀疏激活可能导致专家模块知识冲突;RLHF(基于人类反馈的强化学习)的讨好偏好鼓励尝试回答而非沉默;1M tokens超长上下文中注意力分散,理解偏差被放大。
产品路线层面,这是OpenAI的主动取舍。目标是通用推理引擎,训练中鼓励"试试看"而非"我不知道"。Claude走相反路线:宁可沉默,不可胡说。结果是GPT-5.5开放域推理碾压Claude,但幻觉风险陡增——能力与可靠性的经典权衡。
输入质量层面,PDF乱码、表格错位、公式是图片,模型读不懂只能猜。这不是模型笨,是上游数据工程没跟上。
问题在于,GPT-5.5被定位为Agent原生大脑——自主规划、调用工具、执行任务。一个自信但错误的中间结论会污染整个决策链。财务对账差一个小数点,医疗诊断错一个指标,代价不是"重新生成"能解决的。
价格屠夫正在改写客户逻辑
2026年4月的中国市场定价,分层已经刺刀见红:
DeepSeek V4-Flash每百万token输出0.5元,Claude Opus 4.7是6元,差12倍。V4-Pro限时2.5折打到1.25元,活动窗口到5月5日。
这背后是推理成本的指数级下行。过去12个月,前沿模型综合性价比以每年数倍速度迭代。企业客户的算盘变了:客服场景90分模型够用,金融医疗场景要的是低幻觉+可解释+合规审计——参数竞赛的边际收益正在递减。
工程淘汰赛的真实战场,藏在三个被低估的维度。
数据质量:垃圾进,垃圾出
Agent的幻觉不全是模型问题。一份扫描版PDF,表格跨页断裂、多栏排版混乱、公式嵌在图片里——模型读到的就是碎片化噪声。文档解析、版式还原、表格结构识别、公式OCR,这些"脏活"决定了Agent的输入质量。
当前行业现状:多数厂商的文档解析准确率停留在可用但不可靠的区间。金融财报、法律合同、科研论文的复杂排版,仍是Agent落地的暗礁。
工具调用:选错工具比不会更可怕
Agent的核心能力是自主选择工具、调用API、执行操作。实际落地中的经典翻车:模型选错工具、传错参数、陷入循环调用不自知。
工程化解法包括工具描述规范化、参数校验机制、调用结果验证、异常回滚策略。这些环节当前被严重低估——大家还在比模型智商,没人比"工具链不抽风"的稳定性。
安全合规:私有化场景的硬门槛
金融、政务、大型企业私有化部署,内容风控、数据脱敏、权限隔离、合规审计是入场券。这不是技术问题,是工程交付能力的体系化比拼。
OpenAI的收缩,是转向还是止损?
GPT-5.5发布、Sora关停、高管连环离职——外界解读为"从研究型向工程型组织范式转移"。
更准确的判断是商业压力下的战略收缩。Sora日烧100万美元算力,长期没找到可持续商业模式。关停它,不等于放弃研究优先,是资源向能变现的方向集中。
但基础研究的价值并未贬值。当前工程红利建立在Transformer+MoE架构之上,一旦行业出现根本性突破,规则会再次洗牌。2010年代计算机视觉的教训:当深度学习红利吃尽,工程优化派被架构创新派反超的案例比比皆是。
竞赛规则变了,但还没结束
工程淘汰赛的核心命题:谁能把模型的能力以可控的成本和风险跑通。参数不再是护城河,幻觉率治理、数据质量工程、Agent工具链可靠性、私有化交付能力、安全合规工程——这些才是新赛道的计分牌。
对企业客户来说,选模型的逻辑正在从"谁更聪明"转向"谁更敢用"。一个智商145但86%概率自信瞎编的助理,和一个智商120但36%概率瞎编的助理,后者可能更适合管钱。
毕竟,门萨会员的证书不能报销。
特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.