网易首页 > 网易号 > 正文 申请入驻

中青报刊文:大模型成为“考试明星” 意味着什么

0
分享至

得益于深度思考和多模态能力的提升,大模型面对未经训练的全新题目测试,已经达到人类优秀考生的水平。

AI大模型豆包尝试着做了今年的山东高考卷,得了690分左右,排名在前80位左右,甚至有望考上清华、北大。这只不过是大模型成为“考试明星”的最新一例。根据多份报告,人工智能系统已展现出通过大学入学考试及其他学术评估的能力。例如,ChatGPT通过了美国法学院和商学院的考试;同时,GPT-4模型能够通过大多数STEM学科的评估,并在回答问题时实现高准确率。

人工智能通过这些考试的能力,引发了对教育的未来以及如何更好地培养学生掌握那些仍具有人类特质的技能的思考。

大模型的考试成绩意味着什么

首先,这可以理解为规模化的模式识别的成功。大模型在识别和再现语言、推理和问题解决方面表现卓越。纵观大模型通过的考试,通常结构清晰,格式固定,答案可以通过文本线索得出——而这正是大模型接受训练的强项。

其次,大模型拥有广泛的训练数据来源,这使得它容易在考试中脱颖而出。许多考试题目与教材、辅导材料或历年试题中的内容高度相似,可能出现在模型的训练语料中,或在结构上与之类似。

再次,大模型实现了任务无关的通用性。通过这些考试的能力表明,大模型是通用型语言处理器——它们无须重新训练就能在法律、医学、STEM等领域间切换,这在系统设计层面非常了不起。

尽管成就不俗,我们也不必夸大大模型对人类考生的威胁。因为,考过并不等于“理解”,大模型的“成功”多是统计上的匹配,而非概念性的掌握——它们并不“知道”答案为何正确。

大模型还缺乏真实的推理基础。如USMLE(美国医生执照考试)默认考生具备现实世界的经验积累和伦理判断能力。大模型即使答对了题,也缺乏具身认知或临床直觉。

我们还需认识到,大模型不存在原生的学习过程。它们并不会像人类那样通过学习获得知识——机器人不会因误解而苦恼,也不会主动反思,更不会随着时间内化意义。

多元智能理论与大模型的考试表现

教育心理学家霍华德·加德纳认为,智力是多元的,不能仅用传统智商或考试成绩来衡量。根据加德纳的智能类型,我们会发现,大模型的能力展现参差不齐:

在语言智能,即使用语言进行阅读、写作方面,大模型表现优秀。

在逻辑-数学智能,即抽象推理、问题解决、模式识别能力方面,大模型表现良好,对于数学题、逻辑题等结构化问题的解答能力十分强劲,尽管在复杂推理中仍有不稳定性。

在视觉-空间智能,即在头脑当中想象和操控物体的能力方面,大模型功能有限:纯文本模型本身不具备视觉-空间推理能力,多模态模型(拥有视觉能力)正试图在一定程度上对此加以改善。

在身体-动觉智能,即控制身体动作、保持身体协调能力方面,非常遗憾,大模型付之阙如——它本身没有身体,也无法展开物理体验或动作。

在音乐-节奏智能,即对音高、节奏、旋律的敏感度和创作能力方面,大模型可以模仿歌曲或分析音乐理论,但缺乏真正的听觉体验与音乐直觉。

在人际智能,即理解他人情感、动机、关系的能力方面,大模型能模拟同理心,但没有真正的社会意识、情感或动机。

在自我认知智能,即自我觉察、情绪反思和自我理解的能力方面,大模型没有自我,并不像某些人声称的那样获得了自我意识、目标或主观经验。

最后,在自然观察智能,即识别自然界模式、给出生物分类的能力方面,大模型可以检索事实,但缺乏对自然环境的直观感知与互动能力。

经由这些对比,我们可以发现,大模型在语言和逻辑智能方面表现卓越,但加德纳强调具身性、情感性和经验性的广泛智能,这是大模型在结构上无法胜任的。

另一方面,从模拟与体验的关系来看,大模型可以模拟某些智能(如共情或音乐创作),但缺乏真实的经验基础,而加德纳的智能理论强调智力的发展与现实世界的互动密不可分。

教育上的反思:过度依赖大模型的害处

从教育评估的角度看,人工智能不断提升的考试能力,引发了对学术诚信和潜在滥用的担忧,促使教育工作者不得不重新思考传统评估方法。

不过,我们也可以看到,尽管人工智能可以通过识别模式并生成正确答案来通过考试,却并不一定意味着其对考试内容的理解与人类相同。人工智能在语言处理以及需要“常识”或主观解读的问题上仍面临挑战。今天,我们可以心存侥幸的是,人工智能还难以应对需要深入理解、批判性思维或个人反思的复杂或微妙问题。

这表明,理解意义是人类独有的能力,而目前的人工智能系统仍缺乏这种能力。“高考出色”的机器人其实与一些学生非常相似,他们吸收知识,然后照本宣科,根本不理解其中的含义。所以,机器人超越这类学生毫不足奇。

多元智能理论主张因材施教、发展多种能力。如果学校在教育中过度依赖大模型完成写作或数学等任务,可能会忽视身体性、人际交往和情感成长这些对人类发展至关重要的领域。

所以,必须思考一种新型的教育。如果大模型都能通过为人类设计的考试,教育工作者就迫切需要重新思考考试的目标——不应只评估机械记忆或格式化的解题能力,还应涵盖创造力、判断力与情感智能。

与其惊叹于高级的人工智能水平,不如说“机器人考生”揭示了考试本身的结构与局限性。我们的确打造了强大的工具,但它们终究只是工具。这些模型可以成为强大的教学助手,但若将它们完全替代医学、法律等领域的专业人员,可能带来伦理和安全隐患。

大模型能通过各种考试,是工程复杂性的里程碑,但并不是与人类认知能力等价的标志。人类未来将如何与人工智能共存,是我们必须基于确凿证据认真思考的问题。同时,我们要尽快思考,因为时间不多了。

(作者系北京大学新闻与传播学院教授)

(来源:中国青年报)

特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相关推荐
热点推荐
“别绿茶了,你就是个中年妇女!”女家长晒心机自拍,被戳破打脸

“别绿茶了,你就是个中年妇女!”女家长晒心机自拍,被戳破打脸

番外行
2026-05-25 15:15:10
美论坛:孟买已领先上海30年,可为何中国人仍觉得印度落后?

美论坛:孟买已领先上海30年,可为何中国人仍觉得印度落后?

怪味历史连连看
2026-05-31 13:25:37
退休八年才明白:别人夸你“看起来真年轻”,千万别答“哪有哪有”,机智的人只需两句话就能让对方更愉快

退休八年才明白:别人夸你“看起来真年轻”,千万别答“哪有哪有”,机智的人只需两句话就能让对方更愉快

心理观察局
2026-05-23 06:49:21
云南瑞丽:请广大市民保持冷静,不恐慌、不聚集

云南瑞丽:请广大市民保持冷静,不恐慌、不聚集

黄河新闻网吕梁
2026-06-01 10:43:02
问界M9必蝉联第三年销冠,因与蔚来ES9、极氪9X、理想L9交集不大

问界M9必蝉联第三年销冠,因与蔚来ES9、极氪9X、理想L9交集不大

生活魔术专家
2026-06-02 00:31:06
划清界限?李显龙访华后严肃表态:中国和新加坡不是“共同族群”

划清界限?李显龙访华后严肃表态:中国和新加坡不是“共同族群”

跨服解说家
2026-06-02 00:13:55
CBA总冠军鼎正式抵达杭州!

CBA总冠军鼎正式抵达杭州!

体育哲人
2026-06-01 22:26:36
墓碑上的“故、显、先、考、妣”,指的是什么?看完长知识了​​

墓碑上的“故、显、先、考、妣”,指的是什么?看完长知识了​​

历史人文2
2026-05-16 12:00:03
42岁白百何近况:参加18岁儿子毕业典礼,美得不像话,孩子爸没去

42岁白百何近况:参加18岁儿子毕业典礼,美得不像话,孩子爸没去

白面书誏
2026-06-01 15:17:18
鸟巢演唱会后地铁“免检票”,时隔两天收到催缴短信?官方回应

鸟巢演唱会后地铁“免检票”,时隔两天收到催缴短信?官方回应

新京报
2026-06-01 17:59:41
国际空间站再次泄漏!神舟飞船在发射场待命,如有需要能去救援吗

国际空间站再次泄漏!神舟飞船在发射场待命,如有需要能去救援吗

临云史策
2026-06-01 12:11:53
小泉进次郎喊我没核弹,日本网友笑了:你不是没核弹,你是没救了

小泉进次郎喊我没核弹,日本网友笑了:你不是没核弹,你是没救了

浪子的烟火人间
2026-06-02 00:20:03
伊朗:美若再战就是一条道走到黑

伊朗:美若再战就是一条道走到黑

澎湃新闻
2026-06-02 00:18:34
2003年刘涌执行死刑前,喝了一口白酒,让妻子在脚镣处塞了1元钱

2003年刘涌执行死刑前,喝了一口白酒,让妻子在脚镣处塞了1元钱

华人星光
2026-05-29 11:30:09
被裁三个月后,前主管来电:甲方机器出故障快去处理!我直接挂断

被裁三个月后,前主管来电:甲方机器出故障快去处理!我直接挂断

千秋文化
2026-05-31 21:57:48
欧冠2连冠+身价1.1亿欧!21岁世界级中场横空出世,辅助C罗圆梦

欧冠2连冠+身价1.1亿欧!21岁世界级中场横空出世,辅助C罗圆梦

万花筒体育球球
2026-06-01 17:37:35
彻底撕破脸!央视硬刚天价转播费后,资本反手疯狂报复不堪入目

彻底撕破脸!央视硬刚天价转播费后,资本反手疯狂报复不堪入目

开着车去流浪
2026-05-16 03:20:45
善恶终有报!不顾央视警告,与刘涛传出绯闻的杨烁,终将自食恶果

善恶终有报!不顾央视警告,与刘涛传出绯闻的杨烁,终将自食恶果

圆梦的小老头
2026-06-01 04:51:39
中方驱逐《纽约时报》一记者出境,外交部回应

中方驱逐《纽约时报》一记者出境,外交部回应

澎湃新闻
2026-06-01 16:40:10
钱学森回国途中收到一封神秘电报:“沿途切勿下船”,谁发的?

钱学森回国途中收到一封神秘电报:“沿途切勿下船”,谁发的?

鹤羽说个事
2026-06-01 22:59:52
2026-06-02 01:56:49
极目新闻 incentive-icons
极目新闻
全球眼,中国心,瞭望者,思想家
391402文章数 952106关注度
往期回顾 全部

科技要闻

黄仁勋演讲实录|40年来PC首次重设计!

头条要闻

特朗普:是时候查金库了

头条要闻

特朗普:是时候查金库了

体育要闻

杰威:如果我没受伤,我们能击败马刺

娱乐要闻

奚梦瑶婚礼现场图!一双儿女当花童

财经要闻

宇树过会,杭州赢麻了

汽车要闻

奇瑞集团5月销量24.8万辆 同比增长20.5% 出口18.2万辆再创新高

态度原创

旅游
时尚
数码
家居
健康

旅游要闻

世界旅游城市联合会“会员之家”在京揭牌

夏天裤子不用多买,阔腿裤一整个夏天都能穿,日常出行好打理

数码要闻

惠普推OmniDesk迷你主机:配英特尔新U支持AI加速

家居要闻

自信舒展 高背座椅

干细胞临床研究向患者收费?别踩坑

无障碍浏览 进入关怀版