网易首页 > 网易号 > 正文 申请入驻

大模型成为“考试明星” 意味着什么

0
分享至

  得益于深度思考和多模态能力的提升,大模型面对未经训练的全新题目测试,已经达到人类优秀考生的水平。

  AI大模型豆包尝试着做了今年的山东高考卷,得了690分左右,排名在前80位左右,甚至有望考上清华、北大。这只不过是大模型成为“考试明星”的最新一例。根据多份报告,人工智能系统已展现出通过大学入学考试及其他学术评估的能力。例如,ChatGPT通过了美国法学院和商学院的考试;同时,GPT-4模型能够通过大多数STEM学科的评估,并在回答问题时实现高准确率。

  人工智能通过这些考试的能力,引发了对教育的未来以及如何更好地培养学生掌握那些仍具有人类特质的技能的思考。

  大模型的考试成绩意味着什么

  首先,这可以理解为规模化的模式识别的成功。大模型在识别和再现语言、推理和问题解决方面表现卓越。纵观大模型通过的考试,通常结构清晰,格式固定,答案可以通过文本线索得出——而这正是大模型接受训练的强项。

  其次,大模型拥有广泛的训练数据来源,这使得它容易在考试中脱颖而出。许多考试题目与教材、辅导材料或历年试题中的内容高度相似,可能出现在模型的训练语料中,或在结构上与之类似。

  再次,大模型实现了任务无关的通用性。通过这些考试的能力表明,大模型是通用型语言处理器——它们无须重新训练就能在法律、医学、STEM等领域间切换,这在系统设计层面非常了不起。

  尽管成就不俗,我们也不必夸大大模型对人类考生的威胁。因为,考过并不等于“理解”,大模型的“成功”多是统计上的匹配,而非概念性的掌握——它们并不“知道”答案为何正确。

  大模型还缺乏真实的推理基础。如USMLE(美国医生执照考试)默认考生具备现实世界的经验积累和伦理判断能力。大模型即使答对了题,也缺乏具身认知或临床直觉。

  我们还需认识到,大模型不存在原生的学习过程。它们并不会像人类那样通过学习获得知识——机器人不会因误解而苦恼,也不会主动反思,更不会随着时间内化意义。

  多元智能理论与大模型的考试表现

  教育心理学家霍华德·加德纳认为,智力是多元的,不能仅用传统智商或考试成绩来衡量。根据加德纳的智能类型,我们会发现,大模型的能力展现参差不齐:

  在语言智能,即使用语言进行阅读、写作方面,大模型表现优秀。

  在逻辑-数学智能,即抽象推理、问题解决、模式识别能力方面,大模型表现良好,对于数学题、逻辑题等结构化问题的解答能力十分强劲,尽管在复杂推理中仍有不稳定性。

  在视觉-空间智能,即在头脑当中想象和操控物体的能力方面,大模型功能有限:纯文本模型本身不具备视觉-空间推理能力,多模态模型(拥有视觉能力)正试图在一定程度上对此加以改善。

  在身体-动觉智能,即控制身体动作、保持身体协调能力方面,非常遗憾,大模型付之阙如——它本身没有身体,也无法展开物理体验或动作。

  在音乐-节奏智能,即对音高、节奏、旋律的敏感度和创作能力方面,大模型可以模仿歌曲或分析音乐理论,但缺乏真正的听觉体验与音乐直觉。

  在人际智能,即理解他人情感、动机、关系的能力方面,大模型能模拟同理心,但没有真正的社会意识、情感或动机。

  在自我认知智能,即自我觉察、情绪反思和自我理解的能力方面,大模型没有自我,并不像某些人声称的那样获得了自我意识、目标或主观经验。

  最后,在自然观察智能,即识别自然界模式、给出生物分类的能力方面,大模型可以检索事实,但缺乏对自然环境的直观感知与互动能力。

  经由这些对比,我们可以发现,大模型在语言和逻辑智能方面表现卓越,但加德纳强调具身性、情感性和经验性的广泛智能,这是大模型在结构上无法胜任的。

  另一方面,从模拟与体验的关系来看,大模型可以模拟某些智能(如共情或音乐创作),但缺乏真实的经验基础,而加德纳的智能理论强调智力的发展与现实世界的互动密不可分。

  教育上的反思:过度依赖大模型的害处

  从教育评估的角度看,人工智能不断提升的考试能力,引发了对学术诚信和潜在滥用的担忧,促使教育工作者不得不重新思考传统评估方法。

  不过,我们也可以看到,尽管人工智能可以通过识别模式并生成正确答案来通过考试,却并不一定意味着其对考试内容的理解与人类相同。人工智能在语言处理以及需要“常识”或主观解读的问题上仍面临挑战。今天,我们可以心存侥幸的是,人工智能还难以应对需要深入理解、批判性思维或个人反思的复杂或微妙问题。

  这表明,理解意义是人类独有的能力,而目前的人工智能系统仍缺乏这种能力。“高考出色”的机器人其实与一些学生非常相似,他们吸收知识,然后照本宣科,根本不理解其中的含义。所以,机器人超越这类学生毫不足奇。

  多元智能理论主张因材施教、发展多种能力。如果学校在教育中过度依赖大模型完成写作或数学等任务,可能会忽视身体性、人际交往和情感成长这些对人类发展至关重要的领域。

  所以,必须思考一种新型的教育。如果大模型都能通过为人类设计的考试,教育工作者就迫切需要重新思考考试的目标——不应只评估机械记忆或格式化的解题能力,还应涵盖创造力、判断力与情感智能。

  与其惊叹于高级的人工智能水平,不如说“机器人考生”揭示了考试本身的结构与局限性。我们的确打造了强大的工具,但它们终究只是工具。这些模型可以成为强大的教学助手,但若将它们完全替代医学、法律等领域的专业人员,可能带来伦理和安全隐患。

  大模型能通过各种考试,是工程复杂性的里程碑,但并不是与人类认知能力等价的标志。人类未来将如何与人工智能共存,是我们必须基于确凿证据认真思考的问题。同时,我们要尽快思考,因为时间不多了。

  (作者系北京大学新闻与传播学院教授)

来源:中国青年报

特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相关推荐
热点推荐
被中国拉黑才两周,菲律宾防长又点名了——看来制裁的火候还不够

被中国拉黑才两周,菲律宾防长又点名了——看来制裁的火候还不够

了舞天下
2026-06-24 03:17:03
老公死在了小三的床上,原配要追究小三责任,法官的判决大快人心

老公死在了小三的床上,原配要追究小三责任,法官的判决大快人心

千秋文化
2026-06-17 19:57:50
Lisa私人动态晒新法拉利,至此Lisa的法拉利座驾已经来到第八辆了

Lisa私人动态晒新法拉利,至此Lisa的法拉利座驾已经来到第八辆了

观鱼听雨
2026-06-22 23:44:41
23岁中国女导演柬埔寨坠亡,最新进展:与其最后接触的2人被不予起诉,羁押130天后获释,此前因“故意伤害致死罪 ”被指控

23岁中国女导演柬埔寨坠亡,最新进展:与其最后接触的2人被不予起诉,羁押130天后获释,此前因“故意伤害致死罪 ”被指控

每日经济新闻
2026-06-23 18:44:04
接连战平西班牙和乌拉圭,佛得角下一轮只需战平沙特,就能出线

接连战平西班牙和乌拉圭,佛得角下一轮只需战平沙特,就能出线

童叔不飙车
2026-06-24 01:24:54
大罗:梅西已经超越了所有前辈,我38岁体重都涨到120公斤了

大罗:梅西已经超越了所有前辈,我38岁体重都涨到120公斤了

懂球帝
2026-06-23 14:29:34
澳新将合体, 总理证实: 两国将一证通用! 前新西兰总理全家移民澳洲! 低调卖房, 再也不回去

澳新将合体, 总理证实: 两国将一证通用! 前新西兰总理全家移民澳洲! 低调卖房, 再也不回去

澳微Daily
2026-06-23 16:06:42
正式官宣!前泰山36岁老将遭重创,职业精神让人动容 盼早日归来

正式官宣!前泰山36岁老将遭重创,职业精神让人动容 盼早日归来

王大发不懂球
2026-06-23 19:07:53
杀人诛心:乌军网上公开俄军武器全部弱点,32国实验室连夜抄作业

杀人诛心:乌军网上公开俄军武器全部弱点,32国实验室连夜抄作业

咣当地球
2026-06-23 15:59:08
政坛大地震!总理被迫辞职,外长被下死命令,中方迅速回敬2句话

政坛大地震!总理被迫辞职,外长被下死命令,中方迅速回敬2句话

谁将笑到最后
2026-06-24 02:07:35
中国脑梗发病率世界第一!医生苦劝:罪魁祸首已揪出,这4物少吃

中国脑梗发病率世界第一!医生苦劝:罪魁祸首已揪出,这4物少吃

医学科普汇
2026-06-17 18:55:13
普京急了:乌军打克里米亚油路和桥梁,他要求把影响“降到零”

普京急了:乌军打克里米亚油路和桥梁,他要求把影响“降到零”

桂系007
2026-06-23 23:13:27
WPS回应C盘占用致电脑卡顿问题:已成立专项组核查,缓存设置入口优化、按周期自动清理等功能将于近期上线

WPS回应C盘占用致电脑卡顿问题:已成立专项组核查,缓存设置入口优化、按周期自动清理等功能将于近期上线

大风新闻
2026-06-23 12:33:51
近1800条质疑!清华博士发言“在西部奉献”,原来是入职西安交大

近1800条质疑!清华博士发言“在西部奉献”,原来是入职西安交大

火山詩话
2026-06-24 05:02:06
史无前例!特朗普在接受采访时透露,中美两国可能实现1年4次会面

史无前例!特朗普在接受采访时透露,中美两国可能实现1年4次会面

墨兰史书
2026-06-23 12:15:09
斯塔默宣布辞职不到12小时,英国新首相浮出水面,对华立场已曝光

斯塔默宣布辞职不到12小时,英国新首相浮出水面,对华立场已曝光

铁锤简科
2026-06-23 13:01:16
历史要毁于一旦?已经独立百年的蒙古,正把中国40年的努力毁掉!

历史要毁于一旦?已经独立百年的蒙古,正把中国40年的努力毁掉!

户外钓鱼哥阿旱
2026-06-21 15:19:53
两性关系:如果还想多活几年,70岁以后必须牢记这几句

两性关系:如果还想多活几年,70岁以后必须牢记这几句

荔子言
2026-06-05 23:10:00
我75岁,存款300多万,血的教训告诫我:再亲的亲人也要留个心眼

我75岁,存款300多万,血的教训告诫我:再亲的亲人也要留个心眼

千秋文化
2026-06-12 20:21:36
WTT美国大满贯:坏消息!梁靖崑退赛,14人出发,王楚钦晋级64强

WTT美国大满贯:坏消息!梁靖崑退赛,14人出发,王楚钦晋级64强

国乒二三事
2026-06-23 11:20:14
2026-06-24 05:39:00
中国青年报 incentive-icons
中国青年报
有重大影响力的全国性综合日报
160447文章数 594748关注度
往期回顾 全部

科技要闻

48名中国开发者联名举报苹果

头条要闻

葡萄牙5-0乌兹别克斯坦 C罗梅开二度

头条要闻

葡萄牙5-0乌兹别克斯坦 C罗梅开二度

体育要闻

扬尼斯去了迈阿密:凯尔特人怎么办?

娱乐要闻

内娱95后顶流格局发生潜移默化的变化

财经要闻

AI“算力稀缺”信仰开始动摇?

汽车要闻

施鹏泽:为什么奥迪E7X强调座舱气味安全?

态度原创

教育
健康
时尚
本地
公开课

教育要闻

出分在即!这件事没做对,艺考分再高也白搭 用对工具,志愿填报少走90%弯路

同样是中风,急救方向竟完全相反?

被40万人追更的火焰魔术师,重塑古老灯工玻璃

本地新闻

吃一次广东龙舟饭,才懂什么是豪华盛宴

公开课

李玫瑾:为什么性格比能力更重要?

无障碍浏览 进入关怀版