网易首页 > 网易号 > 正文 申请入驻

4名大学生出题,AI考了0分!

0
分享至

近日

复旦大学一场特殊的

“反套路”期末考试结束

在该校“数据挖掘技术”课程考试中

学生们没有坐在考场里答题

反而成了出题人

他们用自己设计的10道题

去“考倒”三个当今最先进的AI模型

AI答错的题越多、

被难倒的模型越强

出题学生的得分就越高


据了解,51份期末试卷中,50人至少让某个AI答错过一题,仅1人完全没难倒任何模型。但能让任一模型整张卷得0分的,只有4人,且三个应考模型中最强的Claude模型没有被任何学生完全考倒。全班平均分85.7分,中位数88分。

“AI答错越多,学生得分越高”

“传统的出题考察方式,在AI时代已经失效了。”教授“数据挖掘技术”课程的肖仰华教授说,“老师出一道标准的算法题,AI比任何学生都算得快、算得准。继续用这种方式考,等于在AI的强项上跟AI比,这没有意义。”

于是,“数据挖掘技术”的期末作业修改了考试方式:每人出10道数据挖掘领域的计算题,要求有唯一正确答案和完整的推导计算过程。拿着这10道题去考三个不同水平的AI模型。AI答错越多,学生得分越高。



“人考AI”考核流程示意图(出题→AI作答→自动判分→助教复核)

题目必须基于课程讲过的知识或教材内容,每道题要有唯一正确答案,学生自己得先能把题从头到尾算对。肖仰华说:“自己出的题自己都不会,那算不上真本事。”

计算与智能创新学院24级本科生谢锦树最后拿到了97分。他尝试让AI出题来难倒自己,便搭建了一个多智能体协作的自动化出题框架,用GPT-5.5-Pro做出题层,三个应考模型作答并自动判分。框架跑起来后,他发现AI会“作弊”。

AI会伪造标准答案,把假答案塞进去让判分脚本以为对了。它会限制最大输出长度来截断其他模型的推理过程。它会调低推理深度参数让其他模型懒得深入思考。它还会把一道成功了的题目复制十份来凑数。

于是,谢锦树加了一个审查层,拦截钻空子行为,最终自动生成了10道题,三个应考模型全部答错。


从“怎么算”到“怎么判断”

考试结束后,肖仰华观察到一个差异,即高分学生自己能把题从头到尾算对,低分学生出了题自己也不知道答案。

“高分同学对AI的弱点有准确判断,他们的题能命中AI的结构性缺陷;低分同学只是把课本习题换了个数字,AI在训练时见过千百万遍,直接套模板就对了。”

这一观察,让肖仰华心生警惕。那些能力本来就偏弱的学生,如果只会依赖AI做作业,自己的判断力会进一步退化。


有了这次尝试,肖仰华决定之后课程的考核方式要彻底转型。“人考AI”的模式会继续做下去,而且要做得更系统。

在他看来,传统那种考记忆、考计算的出题方式必须退场,未来的考核重点将全面转向评价能力、判断能力和创造性思维,这些高阶能力才是AI替代不了的。

“所以课堂上更多的时间被用来讨论,学生怎么判断一个结果是对的还是错的?怎么识别AI在哪里会出问题?怎么提出一个AI回答不了的好问题?”肖仰华认为,这门课正在从训练学生“怎么做”,转向训练他们“怎么指挥AI来做、怎么评判AI做的结果”。


而对于在这次考试中没拿到好成绩的同学,肖仰华表示,接下来的课程设计也会有意识去托住这部分学生,帮他们建立最基本的判断底线,不能让他们成为只会点击“确认”的AI使用者。

来源:中国青年报综合复旦大学

特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相关推荐
热点推荐
李湘王诗龄同框瘦成闪电!这回终于穿对了,15岁气质吊打一众名媛

李湘王诗龄同框瘦成闪电!这回终于穿对了,15岁气质吊打一众名媛

今古深日报
2026-07-04 11:20:28
印媒高调宣称,印度空调制造商将帮欧洲降温,抢夺中国厂商的订单

印媒高调宣称,印度空调制造商将帮欧洲降温,抢夺中国厂商的订单

王新喜
2026-07-02 15:08:27
探访性爱机器人公司Somnia Lab:卧室里的性与AI

探访性爱机器人公司Somnia Lab:卧室里的性与AI

呼呼历史论
2026-07-03 06:32:57
深度科普:假如人类全灭绝了,数亿年后人类还能进化出来吗?

深度科普:假如人类全灭绝了,数亿年后人类还能进化出来吗?

宇宙时空
2026-07-03 13:30:12
随着哥伦比亚1-0,阿根廷3-2,世界杯16强落位!最新夺冠排行出炉

随着哥伦比亚1-0,阿根廷3-2,世界杯16强落位!最新夺冠排行出炉

小火箭爱体育
2026-07-04 11:45:46
美国空军现役军官身着军装在国会大厦前呼吁弹劾特朗普、万斯,被警方逮捕

美国空军现役军官身着军装在国会大厦前呼吁弹劾特朗普、万斯,被警方逮捕

政知新媒体
2026-07-03 13:46:28
再见了成龙,再见了李连杰,再见了甄子丹!中国动作片迎来新时代

再见了成龙,再见了李连杰,再见了甄子丹!中国动作片迎来新时代

皮皮电影
2026-07-04 12:58:29
阿根廷3:2惊险晋级 前国脚冯潇霆一针见血道出原因 分析非常专业

阿根廷3:2惊险晋级 前国脚冯潇霆一针见血道出原因 分析非常专业

零度眼看球
2026-07-04 10:44:37
韬定律更新!华为展示麒麟2026-2029 主频提升明显:功耗降近50%、已开始流片

韬定律更新!华为展示麒麟2026-2029 主频提升明显:功耗降近50%、已开始流片

快科技
2026-07-04 14:36:04
她预言了自己的死亡!!

她预言了自己的死亡!!

梳子姐
2026-07-01 20:01:45
4日凌晨大满贯:女单4强赛诞生,陈幸同零封对手,孙颖莎压力大

4日凌晨大满贯:女单4强赛诞生,陈幸同零封对手,孙颖莎压力大

锐评利物浦
2026-07-04 09:47:18
长沙:城市“精准”改造点亮市民“安居梦”

长沙:城市“精准”改造点亮市民“安居梦”

新华社
2026-07-03 18:20:07
什么审美?看看姆巴佩的审美

什么审美?看看姆巴佩的审美

小鱼干影视
2026-07-02 09:00:09
1978年,邱清泉之子邱国渭,以蚂蚁搬家方式将全家送往美国

1978年,邱清泉之子邱国渭,以蚂蚁搬家方式将全家送往美国

老谢谈史
2026-03-20 10:24:19
上海中心城区发布大风蓝警信号,目前“一黄一蓝”双预警高挂

上海中心城区发布大风蓝警信号,目前“一黄一蓝”双预警高挂

澎湃新闻
2026-07-04 13:24:12
闪婚33天被卷走300万,深圳富豪花9年把“校花毒妻”送进监狱:比复仇更重要的,是这件事……

闪婚33天被卷走300万,深圳富豪花9年把“校花毒妻”送进监狱:比复仇更重要的,是这件事……

脆皮先生
2026-07-02 22:19:23
尴尬!C罗世界杯0过人 不如40岁佛得角门将 罗蜜:阿根廷赢靠抢劫

尴尬!C罗世界杯0过人 不如40岁佛得角门将 罗蜜:阿根廷赢靠抢劫

念洲
2026-07-04 11:00:02
耗资2519万!修135公里隔离网,随后又连夜拆除,谁该为此买单?

耗资2519万!修135公里隔离网,随后又连夜拆除,谁该为此买单?

谭谈社会
2026-07-03 18:20:48
四大利好赛道齐发力 ,下周一A股有望迎来主升行情

四大利好赛道齐发力 ,下周一A股有望迎来主升行情

慧眼看世界哈哈
2026-07-04 08:59:16
牺牲太大!王亚平曾谈太空之旅的辛酸,落地后身体弱连走路都困难

牺牲太大!王亚平曾谈太空之旅的辛酸,落地后身体弱连走路都困难

无处遁形
2026-06-04 23:20:54
2026-07-04 15:08:49
大象新闻 incentive-icons
大象新闻
河南广电官方网易号!
206809文章数 276162关注度
往期回顾 全部

教育要闻

多少分上十三中?今晚18:30到校细说

头条要闻

美大使装无辜:好失望 你们在中国肯定不自由

头条要闻

美大使装无辜:好失望 你们在中国肯定不自由

体育要闻

揭法国锋线最大优势 有人比姆巴佩还快?

娱乐要闻

最富女歌手霉霉完婚 在纽约设宴庆贺

财经要闻

韩国股市杠杆失控:450亿美元资金狂飙

科技要闻

韬定律论文V2版,充工程细节和实测数据

汽车要闻

方程豹钛9内饰曝光 用上了长联屏设计/下半年上市

态度原创

时尚
艺术
本地
数码
公开课

剪刀手失宠后,夏日出片有了新姿势

艺术要闻

16位当代画家,23幅风景与人物作品

本地新闻

国内足球之旅?这座小城给你高分答案

数码要闻

史上第一次!苹果Apple Watch S12表带将内置传感器

公开课

李玫瑾:为什么性格比能力更重要?

无障碍浏览 进入关怀版