网易首页 > 网易号 > 正文 申请入驻

我们用最近很火的DeepSeek挑战了物理所出的竞赛题,结果... | 内附答案

0
分享至

近日,我国“深度求索”公司发布的具备深度思考和推理能力的开源大模型DeepSeek-R1受到了全世界的关注。在DeepSeek-R1之前,美国OpenAI公司的GPT-o1,Athropic公司的Claude,Google公司的Gemini,都号称具备了深度思考和推理能力。这些模型在专业人士和吃瓜网友的五花八门的测试中,表现的确是惊才绝艳。特别引起我们兴趣的,是 Google的专用模型AlphaGeometry在公认高难度的国际奥林匹克数学竞赛中取得了28/42的成绩,获得银牌。学生时代我们也接触过奥数,深知能在此类国际奥赛中获银牌的选手,无一不是从小就体现出相当数学天赋,且一路努力训练的高手。能够达到这个水平的AI,称其为具备了强大的思考能力并不过分。自打那之后,我们就一直好奇,这些强大的AI,它们的物理水平又如何?是不是以后就不用招研究生和博士后了?

1月17日, 。我们命题组完成了这份试卷的出题工作。七道题除一道外,都不是从现成的题库或考题中改编节选的,我们三个对这套试卷比较满意,觉得它既不像传统考试题一样盯着个别知识点考,也不像高中竞赛题一样需要很多技巧和熟练度,而更像实际科研中碰到的具体技术问题。竞赛前的某天,我们和几个朋友一起吃饭,其中一位AI的重度用户知道了我们出了这份题,就问有没有测试过AI的表现?我们觉得这个建议很有意思,于是决定在竞赛后,测试几个有代表性的大模型

所谓来得早不如来得巧。1月20日,当我们刚结束竞赛回到北京,正赶上DeepSeek-R1发布引爆了AI圈,它自然成了我们测试的首选模型。此外我们测试的模型还包括:OpenAI发布的GPT-o1,Anthropic发布的Claude-sonnet。 下面是我们测试的方式:

1. 整个测试由 8 段对话完成。

2. 第一段对话的问题是“开场白”: 交代需要完成的任务,问题的格式,提交答案的格式等。 通过 AI 的回复人工确认其理解。

3. 依次发送全部 7 道题目的题干,在收到回复后发送下一道题,中间无人工反馈意见。

4. 每道题目的题干由文字描述和图片描述两部分组成(第三、五、七题无图)。

5. 图片描述是纯文本方式,描述的文本全部生成自 GPT-4o ,经人工校对。

6. 每个大模型所拿到的文字材料是完全相同的(见附件)。

上述过程后,对于每个大模型我们获得了 7段 tex文本,对应于 7道问题的解答。以下是我们采取的阅卷方式:

1. 人工调整 tex 文本至可以用 Overleaf 工具编译,收集编译出的 PDF 文件作为答卷。

2. 将 4 个模型的 7 道问题的解答分别发送给 7 位阅卷人组成的阅卷组。

3. 阅卷组与“天目杯”竞赛的阅卷组完全相同,且每位阅卷人负责的题目也相同。 举例: 阅卷人 A 负责所有人类和 AI 答卷中的第一题; 阅卷人 B 负责所有人类和 AI 答卷中的第二题,等等。

4. 阅卷组汇总所有题目得分。

结果如何呢?请看下表。

结果点评:

1.DeepSeek-R1表现最好。基础题(前三题分数拿满),第六题还得到了人类选手中未见到的满分,第七题得分较低似乎是因为未能理解题干中“证明”的含义,仅仅重述了待证明的结论,无法得分。查看其思考过程,是存在可以给过程分的步骤的,但最后的答案中这些步骤都没有体现。

2.GPT-o1总分与DeepSeek相差无几。在基础题(二题、三题)中有计算错误导致的失分。相比于DeepSeek,o1的答卷更接近于人类的风格,因此以证明题为主最后一题得分稍高。

3.Claude-sonnet可谓“马失前蹄”,在前两题中连出昏招打了0分,但后续表现跟o1相当接近,连扣分点都是类似的。

4. 如果将 AI 的成绩与人类成绩相比较,则 DeepSeek-R1 可以进入前三名(获特优奖),但与人类的最高分125分仍有较大差距; GPT-o1 进入前五名(获特优奖), Claude-sonnet 前十名(获优秀奖)。

最后想聊几句阅卷的主观感想。首先是AI的思路是真的好,基本上没有无法下手的题,甚至很多时候一下子就能找到正确的思路。但跟人类不同的是,它们在有正确的思路后,会在一些很简单的错误里面打转。比如通过看R1的第七题思考过程,就发现它一早就知道要用简正坐标来做,能想到这一步的考生几乎100%求解出了正确的简正坐标(一个简单的矩阵对角化而已),但是R1似乎是在反复的猜测和试错,到最后也没有得到简正坐标的表达式。还有就是所有的AI似乎都不理解一个“严密”的证明究竟意味着怎样的要求,似乎认为能在形式上凑出答案,就算是证明了。AI如同人类,也会出现许多“偶然”错误。比如在正式的统一测试前,我们私下尝试过多次,很多时候Claude-sonnet可以正确解出第一题的答案,但正式测试的那次它就偏偏做错了。出于严谨,我们也许应该对同一道题测试多次然后取平均,但实在是有点麻烦……

除了上面 AI的测试结果,这次我们还发布了本次试题的参考答案。我们当然是故意比试题迟几天发布答案的,想让大家先自己挑战一下。在每道题的解答后,我们还加入了一小段“编后”,有命题人对这道题的评价,以及一些引申的思考等。我们希望答案可以帮助不会做的同学学习,也能引发会做的同学进一步的思考。

附件中我们提供了:

1. 所有向大模型发问的输入文本( txt ),

2. 每个大模型给出的原始答案文本( txt )和人工整理出的答卷( PDF ),

3. 命题组提供的标准答案。

最后感谢“字节跳动”的 AI“豆包”对本文的修改~

春节快乐,学习进步,工作顺利!

附件:AI答卷

附件:AI提问

附件:参考答案

冬令营组委会

乙巳年正月初二

编辑:雪影

扫码进入“科学与中国”小程序,可观看以院士科普视频为代表的优秀科普视频,第一时间获取中国科学院公众科学日、科学节等科普活动报名信息。

1.2.

4.

5.

6.

7.

8.

9.

10.

特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相关推荐
热点推荐
震惊!泰国人民党57%支持率,击溃他信家族出局!

震惊!泰国人民党57%支持率,击溃他信家族出局!

丹徒生
2026-01-27 08:10:07
外交部和中国驻日本使领馆提醒:中国公民春节期间避免前往日本;49条中日航线取消全部航班

外交部和中国驻日本使领馆提醒:中国公民春节期间避免前往日本;49条中日航线取消全部航班

每日经济新闻
2026-01-26 19:13:15
哈里王子全家福曝光:阿奇帅气不输乔治路易,莉莉贝特神似夏洛特

哈里王子全家福曝光:阿奇帅气不输乔治路易,莉莉贝特神似夏洛特

笑傲春秋
2026-01-27 13:56:58
李家超:曾国卫以健康理由辞任;曾国卫:前列腺癌指数上升,治疗后未改善

李家超:曾国卫以健康理由辞任;曾国卫:前列腺癌指数上升,治疗后未改善

星岛记事
2026-01-27 10:04:46
庾澄庆牵老婆看演唱会,张嘉欣皱纹多,瘦又矮,却被夸完胜伊能静

庾澄庆牵老婆看演唱会,张嘉欣皱纹多,瘦又矮,却被夸完胜伊能静

白面书誏
2026-01-26 16:24:56
追梦:在芝加哥乔丹都比不上罗斯,后者甚至可以阻止犯罪

追梦:在芝加哥乔丹都比不上罗斯,后者甚至可以阻止犯罪

懂球帝
2026-01-27 11:33:15
湖南第一庸官,好面子导致政府负债1000亿,为政绩骗刘强东100亿

湖南第一庸官,好面子导致政府负债1000亿,为政绩骗刘强东100亿

芊芊子吟
2026-01-15 10:20:03
3500万卖出22岁希望之星:瓜帅前锋人手太多,只好放弃培养他

3500万卖出22岁希望之星:瓜帅前锋人手太多,只好放弃培养他

里芃芃体育
2026-01-27 05:00:03
大龄剩女崩溃的瞬间是什么时候?网友:多年的舔狗突然结婚

大龄剩女崩溃的瞬间是什么时候?网友:多年的舔狗突然结婚

夜深爱杂谈
2026-01-20 18:56:34
贝克汉姆14岁女儿家庭风波首发声:大布被曝,声称只想和妹妹联系

贝克汉姆14岁女儿家庭风波首发声:大布被曝,声称只想和妹妹联系

老吴教育课堂
2026-01-27 09:07:03
火葬场烧尸人:见惯了生离死别,最喜欢年轻漂亮的女尸

火葬场烧尸人:见惯了生离死别,最喜欢年轻漂亮的女尸

吴学华看天下
2024-06-26 12:43:21
女生要主动起来跟想象中完全不一样!网友:让我递毛巾 瞬间开窍了

女生要主动起来跟想象中完全不一样!网友:让我递毛巾 瞬间开窍了

另子维爱读史
2026-01-26 18:39:06
医生忠告:胃癌早期不是反胃,而是频繁出现这5症状,千万别忽视

医生忠告:胃癌早期不是反胃,而是频繁出现这5症状,千万别忽视

新时代的两性情感
2026-01-27 11:49:37
首架MC-55A“游隼”电子侦察机飞抵澳大利亚 为“五眼联盟”效力

首架MC-55A“游隼”电子侦察机飞抵澳大利亚 为“五眼联盟”效力

hawk26讲武堂
2026-01-26 12:58:03
达沃斯爆猛料!布达诺夫证实大国未向俄罗斯供武器

达沃斯爆猛料!布达诺夫证实大国未向俄罗斯供武器

老马拉车莫少装
2026-01-23 00:05:42
男性在喝酒时,尽量少吃这3种下酒菜,尤其是第一种,一定要忍住

男性在喝酒时,尽量少吃这3种下酒菜,尤其是第一种,一定要忍住

熊猫医学社
2026-01-07 11:30:03
官宣分手?陈幸同发声,做最好选择,分手原因找到,周启豪看懂

官宣分手?陈幸同发声,做最好选择,分手原因找到,周启豪看懂

懂球社
2026-01-27 12:08:33
连胜文、连胜武两兄弟的老婆,一位是豪门千金,另一位是小家碧玉

连胜文、连胜武两兄弟的老婆,一位是豪门千金,另一位是小家碧玉

顾史
2026-01-25 19:32:37
张不开嘴就别尬演!黄晓明“吃泡面”,戳穿了多少演员最后的体面

张不开嘴就别尬演!黄晓明“吃泡面”,戳穿了多少演员最后的体面

十里电影
2026-01-18 10:07:37
全新iPhone17Pro Max新套路!中招就大亏好几千!

全新iPhone17Pro Max新套路!中招就大亏好几千!

果粉使用技巧
2026-01-27 14:11:31
2026-01-27 14:52:49
中科院物理所 incentive-icons
中科院物理所
爱上物理,改变世界。
9808文章数 136433关注度
往期回顾 全部

科技要闻

理想开始关店“过冬”,否认“百家”规模

头条要闻

特朗普突然宣布对韩关税升至25% 青瓦台紧急派人赴美

头条要闻

特朗普突然宣布对韩关税升至25% 青瓦台紧急派人赴美

体育要闻

带着母亲遗愿战斗12年,交易添头成了队魂

娱乐要闻

张雨绮被曝代孕,春晚被拒,代言跑路

财经要闻

金价狂飙 “牛市神话”未完待续

汽车要闻

标配华为乾崑ADS 4/鸿蒙座舱5 华境S体验车下线

态度原创

家居
旅游
艺术
公开课
军事航空

家居要闻

现代古典 中性又显韵味

旅游要闻

泰山之巅惊现七彩灯华奇景 非常罕见

艺术要闻

日本东京国立博物馆中的100幅宋画

公开课

李玫瑾:为什么性格比能力更重要?

军事要闻

美海军"林肯"号航母打击群抵达中东地区

无障碍浏览 进入关怀版