网易首页 > 网易号 > 正文 申请入驻

GPT-5.5实测:更聪明,也更爱“说谎”

0
分享至


值得尝鲜,但不够可靠。

AIX财经(AIXcaijing)原创

作者| 王璐

编辑| 魏佳

4月23日,OpenAI发布新一代旗舰模型GPT-5.5,并在其官网写道,是其迄今为止最智能、最直观易用的模型,也是在计算机上完成工作的新方式的下一步。

这一发布迅速引发行业关注,不仅因为它号称在智能体任务上实现突破,更因其在多项基准测试中展现出的“统治力”。根据第三方评测机构Artificial Analysis公布的综合智能指数榜单,OpenAI凭借GPT-5.5系列在前六名中独占四席,该机构认为,“GPT-5.5让OpenAI重回AI领域的第一位,打破了与Anthropic和谷歌的三方平局。”

但与高性能一同被曝光的,还有高幻觉率。在Artificial Analysis的私有基准测试AA-Omniscience中,GPT-5.5的幻觉率高达86%,远高于Claude Opus 4.7的36%。

这意味着,当这个目前“最聪明”的AI大脑面对不确定或未知的问题时,选择“坦言不知”的概率极低,反而更倾向于“自信地虚构”一个答案。而这种高幻觉率一旦放在需要高可靠性的工作场景中,很可能导致分析偏差、决策失误甚至财务损失。

最强的AI也是最危险的“说谎者”?面对高幻觉率,GPT-5.5究竟能否在实际应用中可靠地完成复杂的知识任务?为了回答这些关键问题,我们对GPT-5.5进行了实测,从处理家庭账本到编写实时对战游戏,测试其应对长上下文、复杂逻辑的知识工作与编程实战能力。

此次测试不仅关乎一个模型的性能,更关乎AI技术进入深水区后,我们如何在拥抱其强大能力的同时,应对其潜在风险。

01.

知识能力:它真的像职场人一样会干活

根据官方发布的基准测试结果,GPT-5.5在几乎所有核心指标上都超越了前代GPT-5.4,在知识工作领域表现尤为突出。

在一项覆盖44个职业的GDPval测试中,GPT-5.5取得了84.9%的得分,不仅超过了83.0%的真实职场人员水平,也高于Claude Opus 4.7的80.3%和Gemini 3.1 Pro的67.3%。该测试模拟了金融分析师、市场经理、软件工程师等多种白领职业的日常工作,要求模型完成信息整合、分析推理、决策建议与报告生成等综合性任务。

此外,GPT-5.5在其他多个实用场景的测试中也表现不错。在模拟复杂客服对话的测试中,无需特别指导就能达到98.0%的准确率;在让AI像真人一样操作电脑完成任务的测试中,得分78.7%;在需要结合图像、文字理解并调用工具解决问题的测试中,分别拿到83.2%和75.3%的分数。这些成绩说明,GPT-5.5正在逐步打通“看、说、做”等一系列能力。

OpenAI还用内部的实际案例证明了它的生产力价值。其财务团队用它审核了24771份K-1税表、总计71637页文件,并称这套流程比上一年提前了两周完成。这说明GPT-5.5是能够直接融入工作流程、切实提升效率的生产力工具。

这些能力在真实生活中用起来怎么样?我们设计了一个贴近家庭的测试来验证。

我们给GPT-5.5多条格式凌乱的单月开支数据,让其扮演家庭数据分析师,完成整理数据、计算总支出、分析各支付方式占比、分类统计开销等任务,并最终生成一份给家人看的建议报告。

这个测试场景设计得虽然简单,却很能看出AI是否真的“好用”。因为家庭记账是很多人的日常,但记录常常是随手写、格式乱,“乱七八糟”的记账数据要求AI不能只会处理整齐的表格,还得能“看懂”手写式的记录、理解每笔钱是什么意思,并把相似项目归到一起。

而算总账、分析钱花在哪儿、给出节省建议,其实对应着一套完整的思考过程,GPT-5.5需要先把信息理清楚,再从里面看出门道、提出可行的办法,最终让它“写报告”,则是要求它会用人能听懂、能接受的方式来汇报工作。

测试结果显示,它准确合并了“外卖-午餐”和“外卖-晚餐”,而且主动提示“支付宝自动扣”应统一计入“支付宝”统计,展现出了理解混乱账目和用户真实意图的能力。



GPT-5.5自主梳理表格并给出分析

在分析中,它通过计算占比,指出“网购”(衣物、书籍)类目支出较高,且多为非急需品,因此建议为这类消费设置预算,给出的建议具体可行。最后生成的报告也充满人情味,那句“稍微管住网购的小冲动,咱们家的开支就能更轻松一些”,符合“给家人看”的沟通要求,语气亲切,建议接地气。

这个简单的测试,相当于在生活场景中还原了上述GDPval测试所考察的核心能力,目前的结果也说明它的专业能力能用到实际生活中。

02.

编程能力:从初级到复杂,它没添乱

除了在日常知识任务中表现可靠,在编程这类对精准性要求更高的“硬功夫”上,GPT-5.5同样展现了不错的进步。

在一项考验“智能体”的基准测试(Terminal-Bench 2.0)中,它拿到了82.7%的高分。这个测试模拟了在命令行里执行一连串复杂操作,就像让AI自己完成一个多步骤的运维任务。它的成绩不仅比自家上一代(GPT-5.4的75.1%)高,也明显超过了竞争对手Claude Opus 4.7(69.4%)。这说明它在需要记住步骤、自己调试、坚持完成长时间任务时,表现更好。

其次,在处理超长内容方面也有进步。在一项针对50万到100万字符超长文本的检索测试中,它的得分达到74.0%,是上一代(36.6%)的两倍还多。这意味着让它分析一本厚书、浏览庞大的代码仓库时,它更不容易“看漏”或“记混”,找信息更准、思路也更连贯。

而且多项测试结果显示,在执行相同的编程任务时,GPT-5.5消耗的token数量显著少于GPT-5.4。就连代码编辑器Cursor的联合创始人Michael Truell也评价说,它比上一代更聪明、更有韧性,调用工具更可靠,面对复杂长期任务时能坚持更久。

简单来说,在编程这类复杂操作场景下,上述数据说明,GPT-5.5不仅更强,而且更稳、更省资源,适合处理那些步骤多、耗时长的实际开发任务。

为了验证它真实的编程能力,我们用一个具体的开发任务进行了测试,从零开始构建并逐步升级一款连连看游戏,并硬性规定其必须使用给到的12种不同的emoji表情。

首先,我们让GPT-5.5生成一个完整可运行的连连看游戏。

这需要它理解开发者的文字需求、设计界面、管理游戏状态,并自主实现核心的路径搜索算法。结果它在几分钟之内便顺利完成了。


GPT-5.5生成的连连看小游戏

接着,我们提高难度,要求它在游戏中加入一个“重绘”道具。

这个道具的功能是:玩家使用时,能消耗“连击”能量,把棋盘上与最后一次消除相同类型的图标全部随机刷新一次。

要实现这一点,GPT-5.5必须做两件事,一是修改游戏背后的数据规则来支持这个新功能;二是确保刷新后的棋盘布局仍然是“有解”的,不会让玩家卡关。最终,GPT-5.5成功写好了这部分代码。

之后,我们继续让其为游戏加入完整的用户系统,包括登录、积分记录和排行榜展示。

这一步主要考验的是,GPT-5.5能否将新功能平滑地接入现有框架,同时保持游戏原有的核心玩法和逻辑不被破坏。

它再一次顺利完成了任务,并且在代码迭代过程中表现得相当克制,没有进行过度重构,也没有引入不必要的变化。


GPT-5.5执行对游戏细节的调整指令

最后,我们将难度推至更高阶的实时对战模式,让两名玩家能在不同浏览器中实时竞争消除。

这其中涉及棋盘状态同步、操作冲突裁决和网络延迟处理等一系列典型的多人在线难题。面对这样一个集成度高、实时性强的复杂挑战,GPT-5.5依然做到了准确交付。

这个从简到繁的测试表明,GPT-5.5在真实编程任务中,既能处理复杂逻辑与架构设计,也能精准响应开发者需求,且不随意重构或引入其他代码,甚至当我们要求回退到上一版本时,它也能稳定恢复到之前的状态。

03.

高幻觉率:能用,但不敢放手

尽管在实测中表现惊艳,但结合公开数据来看,GPT-5.5依然没有超过市场太大预期,而且存在不可忽视的风险。

来看一组对比数据。

在Artificial Analysis的私有基准测试AA-Omniscience中,GPT-5.5的幻觉率高达86%,而Claude Opus 4.7仅为36%。这意味着在该测试所设定的、专门探测模型知识边界的场景下,当GPT-5.5面对不确定的答案时,其“坦言不知”的概率远低于对手,更倾向于生成一个可能错误的回答。

需要注意的是,这86%并不意味着模型在大多数日常问答中都会产生幻觉,而是其在触及知识盲区时的特定行为倾向。一位从业者解释,这可能是因为GPT-5.5的事实知识覆盖面更强,但不确定性也更偏激进,对于不确定的问题会猜答案。但在将其用于需要高可靠性的任务时,这一指标仍需引起高度警惕。

当GPT-5.5被部署到“自主工作”场景中时,这种高幻觉倾向可能会引发风险。


图源 / pexels

比如在数据分析与报告生成任务中,它可能自信地引用不存在的数据、编造统计趋势,或基于错误事实提出决策建议,导致用户做出偏离实际的商业判断。而在编程与调试环节,它提供的代码方案也许看起来合理,却可能无法运行,甚至暗藏安全漏洞,大幅增加后期排查与修复的成本。

而且,这类幻觉往往以高度自信、逻辑自洽的形式呈现。对于缺乏相关专业背景的用户而言,这种“确定性”输出极具欺骗性,需要提高警惕。

除了技术层面的隐忧,OpenAI此次的商业策略也显露出明确的意图:先用生态锁定用户,再用涨价收割市场。

一方面,GPT-5.5首发时并未同步开放API,仅限自家ChatGPT和Codex使用,初步将用户锁定在其应用生态内。另一方面,GPT-5.5的定价相比上一代有了明显上涨。根据官方公布的数据,GPT-5.5每处理100万tokens,输入收费5美元,输出收费30美元。而上一代的GPT-5.4,输入和输出价格分别为2.5美元和15美元,这意味着新一代的价格直接翻了一倍。

如果与当前的主要竞争对手对比,Anthropic最强的模型Opus 4.7定价为每百万tokens输入5美元、输出25美元。可以看出,GPT-5.5在输入价格上与对手持平,但在输出价格上则高出20%。

尽管OpenAI解释称,token使用效率的提升可对冲价格上涨,使用户实际成本无明显增加,但具体性价比仍需业界进一步验证。

对于这一模型,资深Agent从业者赵江杰评价道,这次GPT-5.5的发布并未形成断档领先,不如对社区热传的“Spud”模型预期的大幅提升期望那么大,但在agentic和coding能力上仍然继续保持头部顶尖位置,agentic能力提升的同时也在推动基模厂商提升模型迭代效率,OpenAI的下一代突破模型(GPT-6)很可能也在路上了。

总之,对普通用户而言,GPT-5.5或许值得尝鲜,但不应视其为绝对可靠的工具,对企业用户来说,在将其接入核心工作流前,则必须慎重,一旦出现那86%的“自信错误”,该由谁来兜底?

特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相关推荐
热点推荐
孙杨与张豆豆因为行李箱打膜产生争执,孙杨:“别每句话都怼我”

孙杨与张豆豆因为行李箱打膜产生争执,孙杨:“别每句话都怼我”

韩小娱
2026-04-24 11:20:50
停工16个月!赵露思证实接拍新剧 直播哭红双眼「我们都在一起」

停工16个月!赵露思证实接拍新剧 直播哭红双眼「我们都在一起」

ETtoday星光云
2026-04-24 14:36:07
一场96-113的惨败,让掘金肠子悔青,雷霆也失算了,马刺看到希望

一场96-113的惨败,让掘金肠子悔青,雷霆也失算了,马刺看到希望

毒舌NBA
2026-04-24 12:47:04
美股算力芯片深夜狂飙,英特尔、美光科技创新高,中概股亿鹏能源周涨超100%

美股算力芯片深夜狂飙,英特尔、美光科技创新高,中概股亿鹏能源周涨超100%

21世纪经济报道
2026-04-24 22:30:27
世锦赛首场爆冷!丁俊晖收获大利好,外媒支招,淘汰赵心童有戏!

世锦赛首场爆冷!丁俊晖收获大利好,外媒支招,淘汰赵心童有戏!

曹说体育
2026-04-24 11:01:19
山西村支书驾铲车掩埋村民,现场有多名民警。被埋村民仍在住院

山西村支书驾铲车掩埋村民,现场有多名民警。被埋村民仍在住院

听心堂
2026-04-24 21:15:50
经历三次离婚后我才懂:所有夫妻关系破裂,都源于这三个原因

经历三次离婚后我才懂:所有夫妻关系破裂,都源于这三个原因

千秋文化
2026-03-01 22:12:24
女子被保安扇脸后续:确诊耳膜穿孔,当地人曝内情,更多恶行被扒

女子被保安扇脸后续:确诊耳膜穿孔,当地人曝内情,更多恶行被扒

奇思妙想草叶君
2026-04-23 23:52:54
东北孕妇广州维权后续!已拿到退款,店铺关门,市场管理封档警告

东北孕妇广州维权后续!已拿到退款,店铺关门,市场管理封档警告

清欢百味
2026-04-24 21:27:27
最高院:当事人提供与债务人的通话记录用于证明诉讼时效中断的,须同时证明该通话所涉内容系追索案涉债务

最高院:当事人提供与债务人的通话记录用于证明诉讼时效中断的,须同时证明该通话所涉内容系追索案涉债务

创作者_1514561867966
2026-04-24 18:48:08
月薪1.6万元招放羊工!老板最新回应:电话快被打爆了 已筛选出两对夫妻 还在寻找更合适的人选

月薪1.6万元招放羊工!老板最新回应:电话快被打爆了 已筛选出两对夫妻 还在寻找更合适的人选

闪电新闻
2026-04-24 17:17:17
亏了2841元!深夜拉升!A股下周上涨稳了?

亏了2841元!深夜拉升!A股下周上涨稳了?

龙行天下虎
2026-04-25 00:09:19
因为大鼻子又火了!北大校友会副会长给泰华中学做宣传,鼻子太抢眼

因为大鼻子又火了!北大校友会副会长给泰华中学做宣传,鼻子太抢眼

趣笔谈
2026-04-23 12:35:03
上海一市民通过12345“随申拍”举报地铁站台吸烟者,收到答复:巡视员未发现,若发现会制止,不配合会报警,市民:理解但希望加强巡视

上海一市民通过12345“随申拍”举报地铁站台吸烟者,收到答复:巡视员未发现,若发现会制止,不配合会报警,市民:理解但希望加强巡视

纵相新闻
2026-04-25 01:04:05
赵今麦:美到封神也被骂到翻车,00花顶流的颜值与争议太真实。

赵今麦:美到封神也被骂到翻车,00花顶流的颜值与争议太真实。

野狐馋师
2026-03-31 07:00:19
重磅!阿尔卡拉斯宣布因伤退出法网无缘卫冕 还退出罗马站

重磅!阿尔卡拉斯宣布因伤退出法网无缘卫冕 还退出罗马站

醉卧浮生
2026-04-25 00:20:20
深圳一人行道仅0.7米宽,通行如过“独木桥”?最新回应:重点督办!

深圳一人行道仅0.7米宽,通行如过“独木桥”?最新回应:重点督办!

扬子晚报
2026-04-24 17:31:10
汪小菲和马筱梅竟然忘记小玥儿的12岁生日,真是令人震惊!

汪小菲和马筱梅竟然忘记小玥儿的12岁生日,真是令人震惊!

螃蟹记录站
2026-04-24 23:14:08
芯片观察者:美国先将中国芯片锁死在28nm,然后打击成熟芯片扩产

芯片观察者:美国先将中国芯片锁死在28nm,然后打击成熟芯片扩产

蜉蝣说
2026-04-24 11:38:51
田亮做梦也没想到,费心养大的14岁儿子,如今竟“压自己一头”

田亮做梦也没想到,费心养大的14岁儿子,如今竟“压自己一头”

以茶带书
2026-04-23 16:11:50
2026-04-25 03:48:49
AIX财经 incentive-icons
AIX财经
AI新时代,财经新观察。
43文章数 23214关注度
往期回顾 全部

科技要闻

DeepSeek V4牵手华为,价格依然"屠夫级"

头条要闻

欧盟公布制裁中国企业和个人名单 中方回应

头条要闻

欧盟公布制裁中国企业和个人名单 中方回应

体育要闻

上海男篮23连胜+主场全胜 姚明之后最强一季

娱乐要闻

停工16个月!赵露思证实接拍新剧

财经要闻

LG财阀内斗:百亿美元商业帝国争夺战

汽车要闻

零跑Lafa5 Ultra北京车展上市:11.88-12.48万

态度原创

手机
家居
本地
旅游
健康

手机要闻

续航大战!红米、vivo、荣耀手机,电池都往一万毫安时以上堆

家居要闻

自然肌理 温润美学

本地新闻

云游中国|逛世界风筝都 留学生探秘中国传统文化

旅游要闻

“嗨”在春风里丨盐溪烟树引“仙客”,七灶村里绘“远方”

干细胞如何让烧烫伤皮肤"再生"?

无障碍浏览 进入关怀版