网易首页 > 网易号 > 正文 申请入驻

智商145的GPT-5.5,为何不敢让它管钱?

0
分享至

想象一个场景:你刚招了一位门萨会员当助理,智商145,视觉推理碾压99%人类。交给他一份财报分析,他自信满满给出结论——后来发现,他把PDF里的表格看串行了,数字全是错的,却从头到尾没吭一声。

这不是假设。GPT-5.5 Pro在门萨风格测试中确实达到了人类前2%水平,但在一项关键测试中,它面对不确定问题时选择"自信瞎编"的概率高达86%。


智商高≠靠得住

LisanBench的测试数据很直观:GPT-5.5 Pro在线文本推理达人类前2%,视觉逻辑推理更是摸到前0.1%的门槛。门萨入会线正是前2%,这让它成了第一个正式"入门萨"的大模型。

但另一组数据来自Artificial Analysis的AA-Omniscience基准——6000题覆盖6大领域,专门探测模型知识边界。在无搜索条件下,GPT-5.5 Pro触及盲区时,86%的概率会给出错误答案而非承认不知道。Claude Opus 4.7同一指标是36%。

差距50个百分点。

需要拆清楚:86%不是日常聊天里的幻觉率,是"被考到死角时的反应模式"。OpenAI官方说的"幻觉减少"测的是另一场景——用户标记的ChatGPT对话样本。两个数字都真实,取决于你在测什么。

为什么越聪明反而越爱编?三层原因叠在一起。

架构层面,MoE(混合专家模型)的稀疏激活可能导致专家模块知识冲突;RLHF(基于人类反馈的强化学习)的讨好偏好鼓励尝试回答而非沉默;1M tokens超长上下文中注意力分散,理解偏差被放大。

产品路线层面,这是OpenAI的主动取舍。目标是通用推理引擎,训练中鼓励"试试看"而非"我不知道"。Claude走相反路线:宁可沉默,不可胡说。结果是GPT-5.5开放域推理碾压Claude,但幻觉风险陡增——能力与可靠性的经典权衡。

输入质量层面,PDF乱码、表格错位、公式是图片,模型读不懂只能猜。这不是模型笨,是上游数据工程没跟上。

问题在于,GPT-5.5被定位为Agent原生大脑——自主规划、调用工具、执行任务。一个自信但错误的中间结论会污染整个决策链。财务对账差一个小数点,医疗诊断错一个指标,代价不是"重新生成"能解决的。

价格屠夫正在改写客户逻辑

2026年4月的中国市场定价,分层已经刺刀见红:

DeepSeek V4-Flash每百万token输出0.5元,Claude Opus 4.7是6元,差12倍。V4-Pro限时2.5折打到1.25元,活动窗口到5月5日。

这背后是推理成本的指数级下行。过去12个月,前沿模型综合性价比以每年数倍速度迭代。企业客户的算盘变了:客服场景90分模型够用,金融医疗场景要的是低幻觉+可解释+合规审计——参数竞赛的边际收益正在递减。

工程淘汰赛的真实战场,藏在三个被低估的维度。

数据质量:垃圾进,垃圾出

Agent的幻觉不全是模型问题。一份扫描版PDF,表格跨页断裂、多栏排版混乱、公式嵌在图片里——模型读到的就是碎片化噪声。文档解析、版式还原、表格结构识别、公式OCR,这些"脏活"决定了Agent的输入质量。

当前行业现状:多数厂商的文档解析准确率停留在可用但不可靠的区间。金融财报、法律合同、科研论文的复杂排版,仍是Agent落地的暗礁。

工具调用:选错工具比不会更可怕

Agent的核心能力是自主选择工具、调用API、执行操作。实际落地中的经典翻车:模型选错工具、传错参数、陷入循环调用不自知。

工程化解法包括工具描述规范化、参数校验机制、调用结果验证、异常回滚策略。这些环节当前被严重低估——大家还在比模型智商,没人比"工具链不抽风"的稳定性。

安全合规:私有化场景的硬门槛

金融、政务、大型企业私有化部署,内容风控、数据脱敏、权限隔离、合规审计是入场券。这不是技术问题,是工程交付能力的体系化比拼。

OpenAI的收缩,是转向还是止损?

GPT-5.5发布、Sora关停、高管连环离职——外界解读为"从研究型向工程型组织范式转移"。

更准确的判断是商业压力下的战略收缩。Sora日烧100万美元算力,长期没找到可持续商业模式。关停它,不等于放弃研究优先,是资源向能变现的方向集中。

但基础研究的价值并未贬值。当前工程红利建立在Transformer+MoE架构之上,一旦行业出现根本性突破,规则会再次洗牌。2010年代计算机视觉的教训:当深度学习红利吃尽,工程优化派被架构创新派反超的案例比比皆是。

竞赛规则变了,但还没结束

工程淘汰赛的核心命题:谁能把模型的能力以可控的成本和风险跑通。参数不再是护城河,幻觉率治理、数据质量工程、Agent工具链可靠性、私有化交付能力、安全合规工程——这些才是新赛道的计分牌。

对企业客户来说,选模型的逻辑正在从"谁更聪明"转向"谁更敢用"。一个智商145但86%概率自信瞎编的助理,和一个智商120但36%概率瞎编的助理,后者可能更适合管钱。

毕竟,门萨会员的证书不能报销。

特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相关推荐
热点推荐
中国强烈反对欧盟制裁,要求移除被列入俄制裁名单企业

中国强烈反对欧盟制裁,要求移除被列入俄制裁名单企业

桂系007
2026-04-26 23:47:03
就在美国发声后,日本也表态了,台海出现变数,郑丽文咬死一句话

就在美国发声后,日本也表态了,台海出现变数,郑丽文咬死一句话

探源历史
2026-04-28 03:34:42
德天空:谢什科的转会费总额有望在本赛季结束时升至8050万欧

德天空:谢什科的转会费总额有望在本赛季结束时升至8050万欧

懂球帝
2026-04-28 00:51:06
沦为弃子!法媒:博格巴无法立足摩纳哥 赛季出场57分钟体能剩20分钟

沦为弃子!法媒:博格巴无法立足摩纳哥 赛季出场57分钟体能剩20分钟

新英体育
2026-04-27 10:31:02
阿斯:罗德里戈每天两练,在训练基地康复并在家训练

阿斯:罗德里戈每天两练,在训练基地康复并在家训练

懂球帝
2026-04-28 01:23:06
杨瀚森91秒创季后赛新高:第二次单场0+0+0+0+0 首轮4场仍0分

杨瀚森91秒创季后赛新高:第二次单场0+0+0+0+0 首轮4场仍0分

醉卧浮生
2026-04-27 06:27:08
45岁宋佳:陪玩陪睡、风流成性传闻真相揭秘

45岁宋佳:陪玩陪睡、风流成性传闻真相揭秘

暗香暗香
2026-03-23 04:26:38
有人说邓华不敢指挥对越自卫反击,邓:不是不敢,恐难保证打胜仗

有人说邓华不敢指挥对越自卫反击,邓:不是不敢,恐难保证打胜仗

历史点行
2026-04-27 04:12:44
国家统计局:一季度高技术制造业利润快速增长

国家统计局:一季度高技术制造业利润快速增长

证券时报
2026-04-27 09:52:10
38岁泰山前国脚爆粗怒骂裁判 染红后继续贴脸狂喷 将裁判逼回场内

38岁泰山前国脚爆粗怒骂裁判 染红后继续贴脸狂喷 将裁判逼回场内

我爱英超
2026-04-27 20:39:41
从内地偷运51公斤盒饭回澳门?网友:啥盒饭?这么香吗?

从内地偷运51公斤盒饭回澳门?网友:啥盒饭?这么香吗?

寒士之言本尊
2026-04-27 15:10:08
体检报告3个危险信号一出,医生:拖延半年或癌变,年过40应重视

体检报告3个危险信号一出,医生:拖延半年或癌变,年过40应重视

医学科普汇
2026-04-27 20:20:09
广东队季后赛门票,30年来头一遭滞销,杜锋作妖彻底寒了球迷的心

广东队季后赛门票,30年来头一遭滞销,杜锋作妖彻底寒了球迷的心

南海浪花
2026-04-27 16:40:36
草蜢40周年演唱会,蔡一杰首度公开病情:脑癌已扩散,但永不言弃

草蜢40周年演唱会,蔡一杰首度公开病情:脑癌已扩散,但永不言弃

一盅情怀
2026-04-27 09:48:43
不出 5 年,中国贬值最快的不是房子和现金,而是这 3 样东西

不出 5 年,中国贬值最快的不是房子和现金,而是这 3 样东西

细说职场
2026-04-26 21:04:20
9级雷暴大风!冰雹!即将抵达江苏

9级雷暴大风!冰雹!即将抵达江苏

最江阴
2026-04-27 16:40:34
未达预期!广西这两条高速公路开通后,呈现“高峰热日常冷”?

未达预期!广西这两条高速公路开通后,呈现“高峰热日常冷”?

阿芒娱乐说
2026-04-28 00:11:55
内忧外患锁死退路!俄方主动邀美访问,三大死局让普京不得不低头

内忧外患锁死退路!俄方主动邀美访问,三大死局让普京不得不低头

闻识
2026-04-28 00:32:00
上甘岭战场缴获大量美军罐头,装的全是粪便,美:要怪就怪张桃芳

上甘岭战场缴获大量美军罐头,装的全是粪便,美:要怪就怪张桃芳

云霄纪史观
2026-04-28 00:48:22
秦可卿到底得了什么病?其实从她一日换四五遍衣裳,就看得出来!

秦可卿到底得了什么病?其实从她一日换四五遍衣裳,就看得出来!

飞云如水
2025-04-19 18:33:37
2026-04-28 04:39:00
像素与芯片
像素与芯片
有态度网友ytd
2881文章数 19关注度
往期回顾 全部

科技要闻

DeepSeek V4上线三天,第一批实测出来了

头条要闻

坐在特朗普身边亲历枪击案的女记者 身份非常不一般

头条要闻

坐在特朗普身边亲历枪击案的女记者 身份非常不一般

体育要闻

人类马拉松"破二"新纪元,一场跑鞋军备竞赛

娱乐要闻

黄杨钿甜为“耳环风波”出镜道歉:谣言已澄清

财经要闻

Meta 140亿收购Manus遭中国发改委否决

汽车要闻

不那么小众也可以 smart的路会越走越宽

态度原创

手机
家居
教育
房产
军事航空

手机要闻

一加Nord CE6 Lite官宣5月7日发布,7000mAh电池

家居要闻

江景风格 流动的秩序

教育要闻

你不说这是计算障碍,我真以为我是智障呢

房产要闻

信号!海南商业版图,迎来大变局!

军事要闻

伊朗外长折返伊斯兰堡内情披露

无障碍浏览 进入关怀版