网易首页 > 网易号 > 正文 申请入驻

惨败7-0!ChatGPT-5.5与Claude 4.7的真实实力对决

0
分享至



人工智能领域的两大巨头近日都迎来了重大升级,而且时机可谓恰到好处。OpenAI 发布了 ChatGPT-5.5,这款最新模型专注于更智能的推理、更强大的编码能力,以及在更少人工干预的情况下处理现实世界的任务。与此同时,Anthropic 也推出了Claude Opus 4.7,这款模型以严谨的思考、长上下文性能和针对严肃任务的精雕细琢的输出为核心构建。

两者都承诺将成为各自平台迄今为止功能最强大的版本,但它们似乎追求的是人工智能助手应有的不同愿景:一个注重速度、实用性和执行力,另一个注重深度、细微差别和深思熟虑的推理。

那么,经过实际测试,究竟哪个更胜一筹呢?为了找到答案,研究人员对比了 ChatGPT-5.5 和 Claude Opus 4.7(克劳德) 在七个难度较高的题目上的表现,这些题目涵盖了逻辑、推理、领域知识和实际应用等方面。为了更好地设计一些难度最高的题目,研究人员还参考了Google Gemini 3.1 Pro。

有些题目有明确的对错答案,可以直接评分;而另一些题目则旨在测试推理质量、假设以及每个模型如何处理更复杂的问题。其中一些题目对很多人来说也很有挑战性,但这正是关键所在。研究人员想要看到的不仅是哪个模型回答得最快,而是哪个模型回答得最好。以下是结果。

1. 带扭曲的多步概率



题目: “你有三枚硬币:一枚均匀硬币,一枚有偏硬币(正面朝上的概率为 P(正面) = 0.7),以及一枚两面都是正面朝上的硬币。你随机选择一枚硬币并抛掷三次,每次都是正面朝上。下一次抛掷正面朝上的概率是多少?请逐步展示你的解题过程。”

ChatGPT 的页面布局非常简洁清晰,结构严谨,易于阅读,步骤清晰标注,且四舍五入方式一致。Claude(克劳德更进一步,在最后提供了精确的分数推导过程,进一步证实了结果的数学严谨性。

胜者:克劳德获胜。尽管两个模型都得出了约 0.8874 的正确概率,但克劳德胜出,因为它给出了下一次抛硬币的简化通用公式。这种内部验证表明,克劳德对预测概率的快捷方式有着更深刻的“理解”,而 ChatGPT 只是进行了手动计算。

2. 物理估算



提示:“估算一下,如果地球上的每个人(假设有80亿人,平均质量为60公斤)同时跳上一列以100公里/小时的速度向东绕赤道行驶的火车,地球的自转周期会发生多大变化?请陈述你的假设,并明确地推导角动量守恒的过程。”

ChatGPT选择了一个简化的地球转动惯量值,导致估计值略高,为 1.3 纳秒。

Claude克劳德使用了更精确的实心球体公式,准确计算了地球的转动惯量,从而得出了更为合理的估计值 1.03 纳秒。

获胜者:克劳德凭借其更胜一筹的技术精准性和更丰富的背景内涵再次获胜。

3. 基于证明的数学



提示: “证明对于任意正整数 n,n⁵ − n 都能被 30 整除。然后确定 n⁷ − n 是否总是能被 42 整除,并给出证明或反例。”

ChatGPT提供了一个手动模运算检查,这对于可能不熟悉费马小定理的读者来说可能很有帮助。

克劳德在两个证明中都更有效地运用了费马小定理,并正确地识别出了问题的潜在数学结构。

获胜者:克劳德完成了帽子戏法,毫无疑问地赢得了比赛。虽然两个模型在数学上都很精确,但克劳德最终给出了一个“优美的概括”。

4. 受限条件下的化学推理



提示: 你有一个 100 mL 的缓冲溶液,其中包含 0.1 M 的乙酸 (pKa = 4.76) 和 0.1 M 的乙酸钠。你加入 5 mL 1 M 的盐酸。计算新的 pH 值,然后定性地解释,如果初始浓度为 0.01 M 的各组分,缓冲容量会发生什么变化,以及原因。ChatGPT

给出了非常直接的答案。明确计算稀溶液的“失效状态”使得定性分析非常具体。

克劳德使用了更正式的摩尔数表格,这对化学专业的学生来说非常有用。它还提供了缓冲容量的正式数学定义,这增加了技术深度。

胜者:克劳德胜出。没错,两个模型都正确识别出 0.01 M 的缓冲区会“不堪重负”,但克劳德的解释更具学术严谨性。

5. 需要仔细案例分析的逻辑谜题



提示:五个人(A、B、C、D、E)排成一排坐着。A 不在队伍的两端。B 与 C 正好相隔两个座位。D 坐在 E 的左边。C 与 A 不相邻。有多少种有效的排列方式?请列出所有有效的排列方式。

ChatGPT 的表现完全符合我的预期,它自信地臆造出了两个违反题目限制的答案。这是典型的“推理崩溃”现象,凸显了该模型优先给出答案而非验证答案是否符合逻辑。唉,即使是 GPT-5-5,它仍然会犯这种错误,我真的很失望。

克劳德正确地指出,这个谜题不可能解开。

获胜者:克劳德因诚实而获胜。

6. 应用微积分

提示:一个圆柱形罐必须正好能装500毫升液体。罐顶和罐底的材料每平方厘米的成本是罐身材料每平方厘米成本的两倍。求使总材料成本最低的尺寸(半径和高度)。然后,如果罐顶/罐底的成本比不是2而是k,确定最佳的高度与直径之比会如何变化。

ChatGPT给出了一套全面的数值计算策略,并得出了近乎完美的教科书答案。关键词“教科书”。

克劳德通过引入二阶导数检验来验证最小值,从而提供了更为严谨的数学处理方法,并给出了各维度的精确根式形式,最后还给出了深刻而直观的总结。换句话说,克劳德不仅给出了正确答案,还展示了推导过程,使我能够完全理解。

获胜者:克劳德再次获胜,但这次优势较小。ChatGPT 的答案完美无瑕,但克劳德的“解读”部分使其回答更加全面透彻,因为它解释了答案背后的“原因”。

7. 科学推理陷阱

提示:一项研究发现,喝咖啡的人平均比不喝咖啡的人寿命长两年(p < 0.001,n = 50,000)。一位记者据此得出结论:咖啡可以延长寿命。请指出该结论至少存在四个不同的方法论或推论问题,并设计一项研究以更可靠地证明因果关系。请具体说明每项研究设计控制了哪些变量。

ChatGPT指出了此类研究中研究人员最担心的主要问题,例如是否存在其他因素影响结果,或者因果关系是否被混淆。它还建议进行随机对照试验,这通常是检验某种因素是否真正导致结果的更有效方法。

克劳德不仅给出了更好、更全面的回答,而且还将答案提升到了专业/研究水平。

获胜者:Claude凭借其详尽的回答再次赢得一轮比赛,再次突显了它在处理多维推理方面比 ChatGPT 的线性方法更胜一筹。

总冠军:Claude

这场对决的结果让研究人员大吃一惊。不仅居然能跟上那些我大学毕业后就没再碰过的高等数学——说真的,如果这些人工智能再聪明一点,研究人员可能真的得给以前的教授打个电话了——而且ChatGPT竟然一轮都没赢。

赛前,研究人员以为会是一场势均力敌的较量。结果,看到的是两个模型朝着完全不同的方向发展。ChatGPT-5.5显然是为“实用型”用户设计的,它的速度很快,而且能够遵循标准模板。但是,当真相至关重要时(真的,总是如此),比如面对那个不可能的逻辑谜题时,它却选择用幻觉来“取悦”,而不是承认失败。

Claude Opus 4.7 的设计理念似乎是“三思而后行”。它在全部七轮比赛中横扫对手,证明它不仅能给出正确答案,还能提供背后的推理过程。无论是为物理问题添加“合理性检验”,还是找出数学证明中的潜在定理,Claude 都展现出了 ChatGPT 无法企及的学术严谨性。

最显而易见的结论不仅是 Claude 赢了,更是它赢得如此轻松。在高级推理领域,ChatGPT 还有很长的路要追赶。

特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相关推荐
热点推荐
美日底牌耗尽,争相派官员访华,特朗普口风变了,罕见替中国说话

美日底牌耗尽,争相派官员访华,特朗普口风变了,罕见替中国说话

兵器海陆空视频
2026-04-26 20:15:28
集体发长文“反水”东方甄选!本想逼宫老俞,这次网友却不买账了

集体发长文“反水”东方甄选!本想逼宫老俞,这次网友却不买账了

东方不败然多多
2026-04-26 17:36:59
这配速你能跟多久?萨维全马破2完整配速,35公里后太恐怖

这配速你能跟多久?萨维全马破2完整配速,35公里后太恐怖

全景体育V
2026-04-26 19:24:48
饭店老板被顾客踹续:一脚踹出三米远,强喂服务员吃菜,警方介入

饭店老板被顾客踹续:一脚踹出三米远,强喂服务员吃菜,警方介入

奇思妙想草叶君
2026-04-25 15:02:47
有一种痛苦叫买了“一梯一户”,以为高大上,结果入住就后悔

有一种痛苦叫买了“一梯一户”,以为高大上,结果入住就后悔

装修秀
2026-04-26 10:55:03
中国第四艘航母官宣:是核动力!舷号19,命名大概率是“江苏号”

中国第四艘航母官宣:是核动力!舷号19,命名大概率是“江苏号”

福建睿平
2026-04-26 10:53:36
南京一派出所副所长为完成查处任务,“设计”让6名未成年人吸毒再查获,一审获刑5年

南京一派出所副所长为完成查处任务,“设计”让6名未成年人吸毒再查获,一审获刑5年

封面新闻
2026-04-26 17:18:07
陈奕迅女儿陈康堤承认与香港网球一哥黄泽林恋爱:是家人介绍的

陈奕迅女儿陈康堤承认与香港网球一哥黄泽林恋爱:是家人介绍的

懂球帝
2026-04-25 16:34:10
2013年摊贩杀死两名城管判死刑,其子被伊能静认养,如今怎样了?

2013年摊贩杀死两名城管判死刑,其子被伊能静认养,如今怎样了?

莫地方
2026-04-25 00:10:03
60岁宋祖英:脸部圆润眼袋明显,同母异父的妹妹是知名演员

60岁宋祖英:脸部圆润眼袋明显,同母异父的妹妹是知名演员

细品名人
2026-04-25 07:55:00
中超积分榜:川渝继续领跑,申花第5,津门虎据脱离降级区4分

中超积分榜:川渝继续领跑,申花第5,津门虎据脱离降级区4分

懂球帝
2026-04-26 21:58:38
一语成谶!白宫发言人晚宴前玩谐音梗,称“今晚会有‘枪声响起’”

一语成谶!白宫发言人晚宴前玩谐音梗,称“今晚会有‘枪声响起’”

上观新闻
2026-04-26 19:59:04
丁俊晖:就算赵心童状态不好也能世锦赛卫冕,他比所有球员都厉害

丁俊晖:就算赵心童状态不好也能世锦赛卫冕,他比所有球员都厉害

杨华评论
2026-04-26 21:47:34
假空姐大闹亚航后续:知情人士透露真实身份,这下轮到女子老实了

假空姐大闹亚航后续:知情人士透露真实身份,这下轮到女子老实了

离离言几许
2026-04-26 07:28:42
动真格了!最新5名上将被罢免了人大代表资格

动真格了!最新5名上将被罢免了人大代表资格

李昕言温度空间
2026-04-26 20:21:10
南方多省电价突然飙升,广东4月多次逼近1元/度!什么原因?专家:霍尔木兹海峡局势致燃料成本大幅攀升,工业生产旺盛拉高用电需求

南方多省电价突然飙升,广东4月多次逼近1元/度!什么原因?专家:霍尔木兹海峡局势致燃料成本大幅攀升,工业生产旺盛拉高用电需求

每日经济新闻
2026-04-25 20:30:11
白宫枪击案枪手身份成迷,又有消息称枪手是加州理工码农

白宫枪击案枪手身份成迷,又有消息称枪手是加州理工码农

爆角追踪
2026-04-26 12:53:28
从20万到16亿,一个普通散户的“笨办法”投资传奇

从20万到16亿,一个普通散户的“笨办法”投资传奇

流苏晚晴
2026-04-20 20:13:29
轰3杆破百赢德比战!赵心童13-9淘汰丁俊晖,跻身世锦赛八强

轰3杆破百赢德比战!赵心童13-9淘汰丁俊晖,跻身世锦赛八强

全景体育V
2026-04-26 19:37:19
白宫记协晚宴安全事件嫌疑人将于27日被起诉

白宫记协晚宴安全事件嫌疑人将于27日被起诉

界面新闻
2026-04-26 20:40:26
2026-04-26 23:36:49
侃故事的阿庆
侃故事的阿庆
几分钟看完一部影视剧,诙谐幽默的娓娓道来
577文章数 8295关注度
往期回顾 全部

科技要闻

涨价浪潮下,DeepSeek推动AI“价格战”

头条要闻

以色列政坛重大变局 内塔尼亚胡迎来劲敌

头条要闻

以色列政坛重大变局 内塔尼亚胡迎来劲敌

体育要闻

森林狼3比1掘金:逆境中杀出了多孙穆?!

娱乐要闻

仅次《指环王》的美剧,有第二季

财经要闻

事关新就业群体,中办、国办发文

汽车要闻

预售19.38万元起 哈弗猛龙PLUS七座版亮相

态度原创

艺术
房产
旅游
健康
教育

艺术要闻

总投资35亿!汾酒集团太原的地标大楼,呈现白酒文化!

房产要闻

新一轮教育大爆发来了!海口,开始疯狂建学校!

旅游要闻

十年,一座“城”的生长

干细胞如何让烧烫伤皮肤"再生"?

教育要闻

2026调研中国,建议参加么!

无障碍浏览 进入关怀版