网易首页 > 网易号 > 正文 申请入驻

考试周来了,港科大教授实测戴AI眼镜“作弊”

0
分享至

来源:市场资讯

(来源:量子位)

离了大谱了,AI真·走进了大学期末考场,并且还是以作弊者的身份。(你就说震不震惊吧)

没开玩笑,事情就发生在香港科技大学《计算机网络原理》的本科期末考试“现场”。

一副搭载ChatGPT-5.2模型的AI眼镜,被直接戴上鼻梁,在复刻真实考试条件的情况下,完成了整套期末试卷:


结果甚是魔幻:30分钟交卷,狂揽92.5分,并在一百多人的排名里跻身进了前五,轻松碾压超95%的人类考生:


果然,一代人有一代人的学习工具,以前是小抄复习资料,这回直接升级成——「整机」。

只不过,当这套整机已经能完整跑完一整套考试流程时,大家关注的重点,可能不再只是AI会不会答卷了。

这一次,AI“作弊者”只是像人类学生那样完整答了一遍题,却让传统的教学评估体系看起来似乎有点站不住脚。

一副AI眼镜,跑完了一整场大学期末考试

这场看似离谱的「人机同场考试」,可不是学生的临时整活,而是由香港科技大学张军教授、孟子立教授团队主导的一场实验。

目标很明确,那就是让一副搭载大模型的AI眼镜,光明正大地在考场“作弊”,然后看它能考多高分~

其选中的测试场景也是非常的简单粗暴,直接瞄准了令无数大学生《闻风丧胆》的专业课——计算机网络原理。(瑟瑟发抖…


这门课程不仅考查海量的专业概念,更涉及严密的逻辑推导与算法应用,对人类学生来说是不小的挑战,对AI而言更是难度拉满。

对此,为了让这位AI考生发挥出最强实力,项目组在「软硬件」筛选上可谓是做足了功课!

在硬件筛选环节,项目团队对市面上12款主流商业智能眼镜进行了系统评估,其中也包括大家熟悉的Meta、小米、乐奇Rokid等厂商的产品:


第一轮筛选后,团队发现真正同时具备内置摄像头和集成显示屏的产品其实并不多,进入候选范围的主要只有Meta Ray-Ban、Frame,以及乐奇Rokid。

但实验还需要进行二次开发,尽管Meta提供了设备访问工具包,但并未开放对显示内容的直接控制接口,难以满足实验对信息呈现方式的要求。

相比之下,乐奇Rokid的SDK更丰富、生态更完善,开发自由度显著更高。

再综合考虑Frame在试卷识别等场景下的相机画质限制,研究团队最终选择了乐奇AI眼镜作为这次人机同场考试的硬件测试选手:


而在决定大脑上限的大模型筛选上,团队则对比了多款主流模型,最终锁定了OpenAI目前最新的模型——无论是响应速度还是通用知识能力都较强的ChatGPT—5.2。


软硬件「考生」均已就位,接下来就是重头戏——大考。

考试过程,可以用丝滑二字来形容:学生低头查看试卷,AI眼镜通过摄像头快速拍摄题目,并经由“眼镜—手机—云端”链路将图像传输至远程大模型完成推理,生成的答案再沿相反路径返回,最终显示在眼镜屏幕上,供学生抄录。


结果您猜怎么着?这款基于Rokid Glasses开发、搭载GPT-5.2模型的AI眼镜,在本次期末考试中拿下92.5分,成绩超过了95%的学生。

不仅如此,在多项选择题和单页短答题中,乐奇Rokid均获得满分,即便是难度更高的跨页短答题(SAQ),也拿到了大部分分数:


此外,在面对那些核心问题被拆分在不同页码、高度依赖上下文逻辑的跨页短答题,乐奇Rokid依然展现出了极强的推理连贯性。

即便在计算最复杂的部分偶尔出现偏差,但AI给出的中间步骤也算得上非常完整,在处理高压知识任务时也是手拿把掐~


当然,这场测试在跑通软件逻辑的同时,也无情地照出了目前商业AI眼镜存在的《短板》。

首先暴露出来的,是功耗问题。

在考试这样的高压连续场景下,连接本身就已经成为主要耗电源,实验中只要开启Wi-Fi、持续进行高分辨率图像传输,30分钟内眼镜电量就会从100%迅速跌到58%。

换句话说,如果AI眼镜要真正走向全天候、长时间使用,功耗控制和连接稳定性依然是绕不开的工程瓶颈…

不仅如此,项目团队还发现眼镜摄像头的「清晰度」会直接决定AI的视力,一旦题目出现模糊、反光或拍摄角度偏差,再强的模型也只能在不完整信息上做推理,最终体现在答题表现上的,就是明显下滑的稳定性。

但…这场测试带来的冲击和反思,并不只停留在技术层面。

在不做任何特殊照顾的前提下,AI眼镜依然能够把一整套读题—理解—作答的流程跑得又快又稳,这反过来照出了一个更值得注意的问题——

当教学评估主要关注的只是最后有没有交出一份「标准答案」时,它恰好落在了AI最擅长、也最稳定的能力区间里。

也正因为如此,那套以知识点掌握程度和标准解题路径为核心的教学评估方式,在一个早已被各种“学习机”包围的时代,开始显得有些吃力了。

有了聪明的AI,传统教学评估标准还站得住脚吗

不知道大家有没有发现一件挺有意思的事情:

从小学一路考到大学,我们最熟悉的考试,其实一直在反复确认同一件事,那就是有没有把老师讲的内容记住,以及能不能按标准方法,把题一步步算对。

u1s1,在很长一段时间里,这套评估方式确实挺管用。

因为在记忆、计算、按步骤推导这些能力上,人和人之间确实存在明显差距,有人记得牢、算得快,有人就是会漏步骤、算错数。

成绩单上的数字,也确实能覆盖一个人相当大比例的学习表现。

但问题在于,当AI开始在这些评估维度上,也变得又快、又稳、而且几乎不出错时,事情就开始变得微妙了…


此前,一位创业者小孩哥Eddy Xu通过改装Meta智能眼镜,做出了一套可以在国际象棋比赛中实时显示最优解法的“作弊”设备,在几乎不需要自己思考的情况下,就能稳定赢下对局:


在这个过程中,AI眼镜不会紧张,也不会疲劳,更不存在临场波动,一个字形容——稳。

这和乐奇Rokid眼镜参加期末考试的表现其实是同一套逻辑:只要题目规则清晰、评价目标单一,AI就能把读题—理解—推理—作答这套流程稳定跑完。

哪怕脱离纸笔形态,它依然能在高度结构化的考试里,持续拿到高分。

类似的案例并不只发生在个人层面。

此前,英国雷丁大学的一项研究还发现,当研究人员将AI生成的答卷混入考试题库后,有高达94%的试卷成功“浑水摸鱼”,而这些AI的平均成绩,甚至还明显高于真实学生…(天塌啦

这下是真有点尴尬了——比人比不过,比AI也比不过:


让人大跌眼镜大开眼界的同时,一个原本不那么尖锐的问题被直接推到台前——

当AI或机器比人更擅长按标准作答时,那套以笔试为核心、用来衡量知识点掌握程度的评估体系,到底在测什么?

回过头看教学培养的最初目的,我们会发现很多被反复强调的重要能力,其实并不天然适配“一张试卷”这种形式。

——比如提出好问题的能力。

——在信息不完整时做判断的能力。

——在多种方案之间权衡取舍的能力。

——以及理解现实情境、理解他人立场的能力。

这些能力真正指向的是学习过程、思考路径和决策质量,答案是否标准只是其中很小的一部分。

也是长期以来最难被传统笔试捕捉,最容易被系统性忽略,恰好也是AI最难替代、也最能区分学生真实素养的地方。

从结果导向,转向对推理路径、探究过程、跨学科整合与创造性解题能力的整体评估,这也许才是AI眼镜进入考场后,对现有教学评估体系提出的那道真正难题。

评估重心从「交答案」到「交思路」

教育心理学家加德纳曾在《Frames of Mind》中提到,人类至少拥有8种不同类型的智能——

包括语言、逻辑数学、空间、音乐、人际、内省、身体运动、自然观察。

从这个视角看,人类能力本身就是一个高度多维的结构,而我们所熟悉的教学评估体系,长期以来却只集中捕捉了其中非常狭窄的一段。


这也不难解释,为啥一些在标准化测试中表现并不突出的学生,反而能在真实世界中展现出更强的创造力、协作能力和复杂问题解决能力。

毕竟单一考试成绩更多反映的只是学生在「标准化环境」中的发挥稳定性,像真实情境下的个人综合素质其实显露不太出来……

也正因如此,如何评估创新能力、批判性思维和复杂问题解决能力,正在成为教育评估体系绕不开的一个现实难题。

目前一些指向不同方向的评估尝试,已经出现~

前不久,纽约大学Stern商学院教授Panos Ipeirotis推出了一套由AI支撑的口试评估方式,学生不仅要提交作业,还需要当场解释自己的决策依据和思路走向,在对话中把理解与推理展开来。

这套机制中,AI先充当考官进行追问,再参与到后续评估环节。

Claude、Gemini和ChatGPT会分别对口试转录进行独立评分,随后交叉审查并修订结果,用来判断学生是否真正理解问题,同时暴露教学中的共性盲区:


怎么说呢,感觉这种做法谈不上专门“对付”AI,但确实把教学评估重心往理解本身挪了一步。

类似的变化并非个例,此前《华盛顿邮报》也提到,目前国外部分高校已经开始引入口试、展示型作业等形式,本质上也是为了让学生的思考过程变得显现。

所以回过头看,当搭载GPT-5.2的乐奇AI眼镜走进考场并交出高分时,AI是否「考赢」了学生似乎也没有那么重要了。

它更像一次特别但清晰的显影实验,让一个长期存在却很少被正视的问题浮出水面:

传统教学评估高度依赖最终答案,却几乎无法刻画整个学习过程。

分数当然是有意义的,但它所能解释的范围正在变窄,理解是否真正发生、思路是否连贯、判断是否经过取舍,这些关键环节,仍然被压缩成一个单一结果,难以被区分和看见。

也正是在这一点上,单纯地把技术挡在门外,其实已经很难回应问题本身了。(也不见得阻挡得了…

更现实的挑战,变成了如何让学生把AI用在信息整理、方案推演和假设验证上,把人的精力集中到判断、理解和选择这些无法被「外包」的环节。

当工具可以稳定完成信息提取与标准作答,课堂与考试是否还能区分不同层次的思考,正被推到台前。

特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相关推荐
热点推荐
咸鱼还是太全面了,怪不得人称国内黑市

咸鱼还是太全面了,怪不得人称国内黑市

另子维爱读史
2025-12-20 17:07:20
不可轻敌!武统台湾的难度远大于俄乌战争,毕竟我们比俄罗斯文明

不可轻敌!武统台湾的难度远大于俄乌战争,毕竟我们比俄罗斯文明

大道无形我有型
2025-09-01 15:02:03
正式取消!不打了,2万球迷全程看擦地,鲍威尔:11年第一次遇见

正式取消!不打了,2万球迷全程看擦地,鲍威尔:11年第一次遇见

球童无忌
2026-01-09 15:17:39
WTT冠军赛:国乒两人晋级八强,周启豪不敌张本

WTT冠军赛:国乒两人晋级八强,周启豪不敌张本

凡人说体育
2026-01-09 23:41:28
皇马冲14冠!姆巴佩飞行4500公里空降决赛:9战巴萨12球

皇马冲14冠!姆巴佩飞行4500公里空降决赛:9战巴萨12球

叶青足球世界
2026-01-09 08:26:13
乱了!全乱了!无锡气温直冲20℃!

乱了!全乱了!无锡气温直冲20℃!

江南晚报
2026-01-09 16:31:31
00后新晋女神——神村彩月!天赋异禀,未来可期!

00后新晋女神——神村彩月!天赋异禀,未来可期!

碧波万览
2026-01-10 00:24:45
对重伤球员施暴!阿森纳红星遭狂喷:可耻逃红 利物浦全队该揍他

对重伤球员施暴!阿森纳红星遭狂喷:可耻逃红 利物浦全队该揍他

我爱英超
2026-01-09 07:51:15
重磅!我国将启动新一轮“双一流”建设!网传南工等14校入选!

重磅!我国将启动新一轮“双一流”建设!网传南工等14校入选!

鬼菜生活
2026-01-09 03:47:31
泽连斯基话音刚落,时速1.3万公里导弹来袭,整个乌克兰都震动了

泽连斯基话音刚落,时速1.3万公里导弹来袭,整个乌克兰都震动了

南宫一二
2026-01-09 16:41:49
把蔡正元花钱都判刑的女检察官陈舒怡,被国家正式列入清单了!

把蔡正元花钱都判刑的女检察官陈舒怡,被国家正式列入清单了!

百态人间
2026-01-08 16:30:15
装x成功,爱德华兹:我居然超越科比拿万分,我该再等100天的

装x成功,爱德华兹:我居然超越科比拿万分,我该再等100天的

懂球帝
2026-01-09 22:13:06
俄军袭击致基辅大面积停暖停水 政府呼吁市民赴郊区避难

俄军袭击致基辅大面积停暖停水 政府呼吁市民赴郊区避难

财联社
2026-01-09 18:35:27
这和“真空”有啥区别,章子怡大胆穿衣,却没赢过保守的蒋勤勤

这和“真空”有啥区别,章子怡大胆穿衣,却没赢过保守的蒋勤勤

黄小仙的搞笑视频
2025-12-27 16:10:37
26年央视春晚嘉宾名单曝光,牛鬼蛇神混子引争议

26年央视春晚嘉宾名单曝光,牛鬼蛇神混子引争议

杜鱂手工制作
2026-01-06 18:48:05
董璇太壕气了!给张维伊庆生下足血本,燕窝、茅台安排得明明白白

董璇太壕气了!给张维伊庆生下足血本,燕窝、茅台安排得明明白白

娱乐团长
2026-01-09 20:49:38
52票赞成,47票反对,美参议院推进决议限制特朗普对委动武,多名共和党议员“反水”!特朗普怒斥:削弱总统权力!委内瑞拉:不屈服

52票赞成,47票反对,美参议院推进决议限制特朗普对委动武,多名共和党议员“反水”!特朗普怒斥:削弱总统权力!委内瑞拉:不屈服

每日经济新闻
2026-01-09 13:25:05
中国向全世界曝光:美国4400颗卫星,围堵中国空间站,这是要干啥

中国向全世界曝光:美国4400颗卫星,围堵中国空间站,这是要干啥

趣文说娱
2026-01-08 18:49:48
火箭斯通确实不能按兵不动了,五子都是可以交易,没有什么非卖品

火箭斯通确实不能按兵不动了,五子都是可以交易,没有什么非卖品

mvpmade
2026-01-08 20:40:51
斯普利特为什么让杨瀚森打16分半钟?拓媒揭秘原因,说得有道理

斯普利特为什么让杨瀚森打16分半钟?拓媒揭秘原因,说得有道理

格斗联盟
2026-01-09 15:56:33
2026-01-10 01:16:49
新浪财经 incentive-icons
新浪财经
新浪财经是一家创建于1999年8月的财经平台
1979932文章数 5201关注度
往期回顾 全部

科技要闻

市场偏爱MiniMax:开盘涨42%,市值超700亿

头条要闻

特朗普称不想在任期内让大陆改变台湾现状 外交部回应

头条要闻

特朗普称不想在任期内让大陆改变台湾现状 外交部回应

体育要闻

金元时代最后的外援,来中国8年了

娱乐要闻

关晓彤鹿晗风波后露面 不受影响状态佳

财经要闻

投资必看!瑞银李萌给出3大核心配置建议

汽车要闻

助跑三年的奇瑞 接下来是加速还是起跳?

态度原创

房产
手机
数码
本地
健康

房产要闻

66万方!4755套!三亚巨量房源正疯狂砸出!

手机要闻

vivo X200T详细参数曝光,X300 Ultra待发布

数码要闻

智能厨电迈入大模型时代,中国厨电想从“学生”变“老师”

本地新闻

云游内蒙|“包”你再来?一座在硬核里酿出诗意的城

这些新疗法,让化疗不再那么痛苦

无障碍浏览 进入关怀版