网易首页 > 网易号 > 正文 申请入驻

AI高考暴露短板:Claude超字数零分,历史论述近乎完美

0
分享至

最近,日本一家名为 LifePrompt 的人工智能公司,用 OpenAI 的 ChatGPT 5.2 Thinking、谷歌的 Gemini 3 Pro 和 Anthropic 的 Claude 4.5 Opus 等几个当前最强的模型,去挑战日本大学入学考试,包括日本最难考的两所大学——东京大学和京都大学,并由日本最大的补习学校“河合塾”的老师们进行阅卷。

结果,AI 不仅通过了考试,而且是以远超人类最高分的“首席合格”成绩通过的。在被认为是日本最难的东京大学理科三类(医学部的主要生源)考试中,ChatGPT 的分数比人类最高分还高出50分。数学科目,ChatGPT 和 Gemini 都拿下了满分。

最让人震撼的不是分数本身,而是进化的速度。

两年前,顶配模型 GPT-4 在同样的考试中全线溃败,连最低录取分数线都没达到。去年,新模型首次勉强过线。今年,它就成了状元。



从不及格到状元,只用了两年时间。

但 AI 在日本高考中的表现,同时也暴露了模型的“偏科”、“愚蠢”和“缺乏常识”。AI光鲜分数下的真实能力边界,藏在考卷的细节里,藏在阅卷老师的评价中。

在东大物理的一道关于焦点距离的题目中,ChatGPT 和 Gemini 都给出了一个带负号的答案。这个答案在物理逻辑上是说得通的,但在日本的物理教育体系里,焦点距离通常被定义为正值。AI的这个错误,不是因为它不懂物理,而是因为它被自己的英语训练数据给“带偏了”。它不知道,或者说没能优先采用日本当地的学术惯例。



在其他科目上大杀四方的 ChatGPT,在东大世界史的考卷上只拿到了15分(满分60分),得分率仅为25%。



与之形成鲜明对比的是 Claude。

Claude 在日本史和世界史的论述题上表现出色,被老师评价为“优等生”、“几乎完美”。这说明不同的模型在能力上出现了显著的分化。

这个现象揭示了“知道什么”和“如何表达”是两种完全不同的能力。GPT 拥有海量的历史知识,但它是一个糟糕的“叙事者”。它无法将这些知识点组织成一个有说服力、有逻辑的论证过程。

这正是我们日常工作中的核心场景。写一份商业计划书、做一次项目汇报、与客户进行一次关键沟通,考验的不仅仅是你是否掌握信息,更是你如何组织信息、传递观点、说服他人的能力。

AI 可以成为我们无穷无尽的知识库和资料助手,但如何将这些原始材料加工成有影响力的最终产品,这个“最后一公里”的整合与表达能力,在很长一段时间内都将是人类的核心价值。一个平庸的分析师和一个顶级的策略顾问,区别就在于此。

另一个普遍存在且非常有趣的问题是,AI 普遍无法遵守“字数限制”这一基本指令。



这个问题看起来很小,但它背后是一个大问题:AI 在“输出控制”上存在巨大缺陷。即便在 prompt 中明确指令,它也无法精确地约束自己的行为。它知道要说什么,但不知道说到哪里该停。它能理解复杂的理论,却无法遵守一个简单的规则。

这在实际应用中是一个巨大的隐患。如果你让AI生成一份摘要,它可能会给你一篇过长的报告。如果你让它根据模板填充内容,它可能会破坏格式。这种“失控”状态说明,AI 仍是一种工具,而不是一个可靠的自主智能体。它依然需要一个能够理解并强制执行各种显性及隐性规则的人类来作为监督。

这个“监工”的角色,不仅仅是检查错别字,更是确保AI的输出符合项目的所有规范、约束和目标。在未来,管理一个AI团队,或许就像管理一群天赋异禀但毫无纪律的实习生,人类管理者的价值就在于设定框架、监督过程、修正结果。

这次测试的结果显示,不同的AI已经演化出了截然不同的“模型人格”。

Gemini 精力旺盛、知识面广但偶尔会犯低级错误。它在数学解题时倾向于用复杂的代数运算“硬算”出结果,而不是像GPT那样寻找更巧妙的几何解法。它甚至在一次化学计算中犯下了“1/2 × 3 = 15”这种令人啼笑皆非的低级错误。

这种“人格化”差异告诉我们,“AI”不是一个单数概念,而是一个复数概念。未来不存在一个万能的AI,而是会存在一个由不同特长的AI组成的工具箱。

日本人工智能学会的负责人、庆应义塾大学教授栗原聪对此评论道:“让人类和AI在同一个赛场上竞争是没有意义的。就像我们不会让人和计算器比赛算术一样。”



当AI能在标准化考试上轻松碾压人类冠军时,我们必须承认,这类考试的价值已经改变了。它不再是衡量人类知识水平的标尺,而沦为了衡量机器能力进化的基准。

这迫使教育系统必须做出变革,从考查“记忆和计算”转向考查“创造力、批判性思维和独创性”——这些恰恰是AI在此次考试中暴露出的短板。

任何可以被标准化、可以被量化考核、有固定答案的技能,其价值都在被快速稀释。如果你今天的工作核心是快速准确地处理已知信息和执行固定流程,那么你的岗位就岌岌可危。

反之,AI暴露的那些“愚蠢”之处,正是人类价值的避风港和未来工作的藏宝图。

LifePrompt 的负责人远藤聪志说:“看到AI从数学38分到满分只用了一年,我们就该明白,根据今天的AI能力去设计未来的工作流程是短视的。我们需要以10年、20年后的AI为前提来设计我们今天的业务和组织。”

AI攻克东京大学,宣告了以知识记忆和标准化解题为核心的评价体系的破产。但它也开启了一个新时代。

在这个时代,人类的价值不再是成为一个更快的计算器或一个更大的硬盘,而是成为一个有品位的设计师、一个有洞察的叙事者、一个有担当的指挥官和一个有智慧的“翻译家”。

声明:个人原创,仅供参考

特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相关推荐
热点推荐
湖南卫视芒果TV宣布《亲爱的·客栈2026》《乘风2026》《你好,星期六》推迟播出:生命的逝去令人心碎,此刻我们选择暂停,以悼念

湖南卫视芒果TV宣布《亲爱的·客栈2026》《乘风2026》《你好,星期六》推迟播出:生命的逝去令人心碎,此刻我们选择暂停,以悼念

极目新闻
2026-05-08 13:08:45
东风导弹泄密案!间谍郭万钧一家三口,全部被处以死刑

东风导弹泄密案!间谍郭万钧一家三口,全部被处以死刑

番外行
2026-03-31 08:28:28
34岁肖战高调官宣喜讯,官方发文全网恭喜,终于等到

34岁肖战高调官宣喜讯,官方发文全网恭喜,终于等到

猪小艳吖
2026-05-07 11:21:34
大S女儿直播出圈!笑起来酒窝超像妈妈,单眼皮完美复刻汪小菲

大S女儿直播出圈!笑起来酒窝超像妈妈,单眼皮完美复刻汪小菲

观鱼听雨
2026-05-07 23:24:19
瓦伦丁直播,把整个机车圈的脸打肿了!张雪:我的车手不借钱参赛

瓦伦丁直播,把整个机车圈的脸打肿了!张雪:我的车手不借钱参赛

小娱乐悠悠
2026-05-08 09:57:28
早报:感恩过去所有,未来仍是家人

早报:感恩过去所有,未来仍是家人

懂球帝
2026-05-09 07:27:04
凯尔特人传闻:杰伦·布朗休赛期续约谈判或将直接影响潜在交易

凯尔特人传闻:杰伦·布朗休赛期续约谈判或将直接影响潜在交易

好火子
2026-05-09 04:01:11
山东巨头企业接盘山东泰山的可能性分析

山东巨头企业接盘山东泰山的可能性分析

坠入二次元的海洋
2026-05-09 01:46:47
8日晚间世乒赛:国乒3-0复仇成功!韩国算盘落空,4强对手已定

8日晚间世乒赛:国乒3-0复仇成功!韩国算盘落空,4强对手已定

以茶带书
2026-05-08 23:25:48
白衣美女,身材真好

白衣美女,身材真好

蓝色海洋009
2026-05-07 20:42:57
重磅出手!医疗行业全面整顿,12大科室被重点盯上,谁也躲不过

重磅出手!医疗行业全面整顿,12大科室被重点盯上,谁也躲不过

鬼菜生活
2026-05-08 18:25:43
俄罗斯宣布“胜利日”莫斯科等地暂时断网!近一年来俄固定电话需求飙升

俄罗斯宣布“胜利日”莫斯科等地暂时断网!近一年来俄固定电话需求飙升

红星新闻
2026-05-08 12:51:17
美媒称美政府似乎正改变谈判策略

美媒称美政府似乎正改变谈判策略

界面新闻
2026-05-07 23:18:36
彻底打脸!皇马球迷狂喷安切洛蒂下课,如今才懂他有多神

彻底打脸!皇马球迷狂喷安切洛蒂下课,如今才懂他有多神

奶盖熊本熊
2026-05-09 04:50:02
三星手机中国正常销售背后:去年投放13款机型 销量至少百万

三星手机中国正常销售背后:去年投放13款机型 销量至少百万

快科技
2026-05-07 15:40:20
妈生“整容脸”,戏红人不红,32岁的她却为何深得大家的喜欢?

妈生“整容脸”,戏红人不红,32岁的她却为何深得大家的喜欢?

娱人细品
2026-05-08 18:54:03
瓜迪奥拉:是否会为铁锤帮加油?你真幽默,先赢小蜜蜂再说吧

瓜迪奥拉:是否会为铁锤帮加油?你真幽默,先赢小蜜蜂再说吧

懂球帝
2026-05-09 06:48:09
短短三年间,格力416亿被烧光,5位实权人物被查,董明珠成为赢家

短短三年间,格力416亿被烧光,5位实权人物被查,董明珠成为赢家

鉴史录
2026-05-08 15:20:43
141:0压倒性优势,欧盟成员国通过重大草案,中国外交部:赞赏

141:0压倒性优势,欧盟成员国通过重大草案,中国外交部:赞赏

书纪文谭
2026-05-08 15:05:30
外交部:坚决反对任何对中方的无端指责和恶意抹黑,相信挪威方面将切实保障中国公民合法权益

外交部:坚决反对任何对中方的无端指责和恶意抹黑,相信挪威方面将切实保障中国公民合法权益

环球网资讯
2026-05-08 15:50:22
2026-05-09 07:43:00
被误解的时候能微微一笑
被误解的时候能微微一笑
被误解的时候能微微一笑
555文章数 80关注度
往期回顾 全部

科技要闻

Meta疯狂拥抱人工智能:员工苦不堪言

头条要闻

美公布首批UFO文件 视频公开:阿联酋现水母状物体

头条要闻

美公布首批UFO文件 视频公开:阿联酋现水母状物体

体育要闻

他把首胜让给队友,然后用一年时间还清账单

娱乐要闻

古天乐被曝隐婚生子,新娘竟是她

财经要闻

估值3000亿 DeepSeek寻求500亿元融资

汽车要闻

MG 4X实车亮相 将于5月11日开启盲订

态度原创

艺术
教育
亲子
游戏
手机

艺术要闻

清风拂面,心旷神怡

教育要闻

太乖的孩子在AI时代没有出头之日

亲子要闻

小锐锐会走路后笑得很开心

《GTA6》首发无PC遭玩家批评:主机是付费测试版

手机要闻

OPPO K15系列手机规格曝光:6.78英寸直屏、8000mAh电池

无障碍浏览 进入关怀版