网易首页 > 网易号 > 正文 申请入驻

DeepSeek挑战中科院物理所竞赛题,结果…

0
分享至

据微信公众号“中科院物理所”30日消息,近日,中科院物理所在江苏省溧阳市举办了“天目杯”理论物理竞赛,并用DeepSeek-R1、GPT-o1和Claude-sonnet三个AI模型对竞赛试题进行了测试,其中DeepSeek-R1表现最好。

全文如下:

近日,我国“深度求索”公司发布的具备深度思考和推理能力的开源大模型DeepSeek-R1受到了全世界的关注。在DeepSeek-R1之前,美国OpenAI公司的GPT-o1,Athropic公司的Claude,Google公司的Gemini,都号称具备了深度思考和推理能力。这些模型在专业人士和吃瓜网友的五花八门的测试中,表现的确是惊才绝艳。特别引起我们兴趣的,是Google的专用模型AlphaGeometry在公认高难度的国际奥林匹克数学竞赛中取得了28/42的成绩,获得银牌。学生时代我们也接触过奥数,深知能在此类国际奥赛中获银牌的选手,无一不是从小就体现出相当数学天赋,且一路努力训练的高手。能够达到这个水平的AI,称其为具备了强大的思考能力并不过分。自打那之后,我们就一直好奇,这些强大的AI,它们的物理水平又如何?是不是以后就不用招研究生和博士后了?

1月17日,中科院物理所在江苏省溧阳市举办了“天目杯”理论物理竞赛。我们命题组完成了这份试卷的出题工作。七道题除一道外,都不是从现成的题库或考题中改编节选的,我们三个对这套试卷比较满意,觉得它既不像传统考试题一样盯着个别知识点考,也不像高中竞赛题一样需要很多技巧和熟练度,而更像实际科研中碰到的具体技术问题。竞赛前的某天,我们和几个朋友一起吃饭,其中一位AI的重度用户知道了我们出了这份题,就问有没有测试过AI的表现?我们觉得这个建议很有意思,于是决定在竞赛后,测试几个有代表性的大模型。

所谓来得早不如来得巧。1月20日,当我们刚结束竞赛回到北京,正赶上DeepSeek-R1发布引爆了AI圈,它自然成了我们测试的首选模型。此外我们测试的模型还包括:OpenAI发布的GPT-o1,Anthropic发布的Claude-sonnet。下面是我们测试的方式:

1.整个测试由8段对话完成。

2.第一段对话的问题是“开场白”:交代需要完成的任务,问题的格式,提交答案的格式等。通过AI的回复人工确认其理解。

3.依次发送全部7道题目的题干,在收到回复后发送下一道题,中间无人工反馈意见。

4.每道题目的题干由文字描述和图片描述两部分组成(第三、五、七题无图)。

5.图片描述是纯文本方式,描述的文本全部生成自GPT-4o,经人工校对。

6.每个大模型所拿到的文字材料是完全相同的(见附件)。

上述过程后,对于每个大模型我们获得了7段tex文本,对应于7道问题的解答。以下是我们采取的阅卷方式:

1.人工调整tex文本至可以用Overleaf工具编译,收集编译出的PDF文件作为答卷。

2.将4个模型的7道问题的解答分别发送给7位阅卷人组成的阅卷组。

3.阅卷组与“天目杯”竞赛的阅卷组完全相同,且每位阅卷人负责的题目也相同。举例:阅卷人A负责所有人类和AI答卷中的第一题;阅卷人B负责所有人类和AI答卷中的第二题,等等。

4.阅卷组汇总所有题目得分。

结果如何呢?请看下表。

结果点评:

1.DeepSeek-R1表现最好。基础题(前三题分数拿满),第六题还得到了人类选手中未见到的满分,第七题得分较低似乎是因为未能理解题干中“证明”的含义,仅仅重述了待证明的结论,无法得分。查看其思考过程,是存在可以给过程分的步骤的,但最后的答案中这些步骤都没有体现。

2.GPT-o1总分与DeepSeek相差无几。在基础题(二题、三题)中有计算错误导致的失分。相比于DeepSeek,o1的答卷更接近于人类的风格,因此以证明题为主最后一题得分稍高。

3.Claude-sonnet可谓“马失前蹄”,在前两题中连出昏招打了0分,但后续表现跟o1相当接近,连扣分点都是类似的。

4.如果将AI的成绩与人类成绩相比较,则DeepSeek-R1可以进入前三名(获特优奖),但与人类的最高分125分仍有较大差距;GPT-o1进入前五名(获特优奖),Claude-sonnet前十名(获优秀奖)。

最后想聊几句阅卷的主观感想。首先是AI的思路是真的好,基本上没有无法下手的题,甚至很多时候一下子就能找到正确的思路。但跟人类不同的是,它们在有正确的思路后,会在一些很简单的错误里面打转。比如通过看R1的第七题思考过程,就发现它一早就知道要用简正坐标来做,能想到这一步的考生几乎100%求解出了正确的简正坐标(一个简单的矩阵对角化而已),但是R1似乎是在反复的猜测和试错,到最后也没有得到简正坐标的表达式。还有就是所有的AI似乎都不理解一个“严密”的证明究竟意味着怎样的要求,似乎认为能在形式上凑出答案,就算是证明了。AI如同人类,也会出现许多“偶然”错误。比如在正式的统一测试前,我们私下尝试过多次,很多时候Claude-sonnet可以正确解出第一题的答案,但正式测试的那次它就偏偏做错了。出于严谨,我们也许应该对同一道题测试多次然后取平均,但实在是有点麻烦……

除了上面AI的测试结果,这次我们还发布了本次试题的参考答案。我们当然是故意比试题迟几天发布答案的,想让大家先自己挑战一下。在每道题的解答后,我们还加入了一小段“编后”,有命题人对这道题的评价,以及一些引申的思考等。我们希望答案可以帮助不会做的同学学习,也能引发会做的同学进一步的思考。

最后感谢“字节跳动”的AI“豆包”对本文的修改~

春节快乐,学习进步,工作顺利!

特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相关推荐
热点推荐
这国总理表态:乌克兰不可能偿还!

这国总理表态:乌克兰不可能偿还!

每日经济新闻
2026-01-18 15:12:51
房价加速下跌!官方:采取有力措施巩固房地产市场止跌回稳态势

房价加速下跌!官方:采取有力措施巩固房地产市场止跌回稳态势

猫叔东山再起
2026-01-17 11:05:08
离开了旧金山我才敢坦白:那里的治安已经到了让人毛骨悚然的地步

离开了旧金山我才敢坦白:那里的治安已经到了让人毛骨悚然的地步

深度报
2026-01-17 22:51:25
包钢分厂爆炸震碎10公里外玻璃门,商户:听到一声响然后看到玻璃碎了

包钢分厂爆炸震碎10公里外玻璃门,商户:听到一声响然后看到玻璃碎了

极目新闻
2026-01-18 20:18:29
李亚鹏必须道歉,否则房租涨价也不会租给他了,房东最新回应

李亚鹏必须道歉,否则房租涨价也不会租给他了,房东最新回应

汉史趣闻
2026-01-17 17:40:36
中方反制开始!2号公告将断日本光刻胶后路,日媒慌了:我们愿意卖

中方反制开始!2号公告将断日本光刻胶后路,日媒慌了:我们愿意卖

白梦日记
2026-01-17 19:08:33
贾国龙再发声:从来不存在两岁的西蓝花!人民日报评西贝关店事件

贾国龙再发声:从来不存在两岁的西蓝花!人民日报评西贝关店事件

21世纪经济报道
2026-01-18 22:00:57
公然支持乱港分子,诋毁爱国人士,香港这家商业巨头如今下场凄惨

公然支持乱港分子,诋毁爱国人士,香港这家商业巨头如今下场凄惨

素衣读史
2026-01-17 17:07:58
一天两枚火箭发射失利,中国航天科技集团、星河动力两家公司发文:具体原因正排查

一天两枚火箭发射失利,中国航天科技集团、星河动力两家公司发文:具体原因正排查

每日经济新闻
2026-01-18 13:13:23
“19岁江西小伙叶文斌失联柬埔寨”最新进展:已确认下落且人身安全

“19岁江西小伙叶文斌失联柬埔寨”最新进展:已确认下落且人身安全

潇湘晨报
2026-01-18 22:39:53
云南医生曝李亚鹏嫣然医院猛料!细节感人,称李亚鹏不该被辜负

云南医生曝李亚鹏嫣然医院猛料!细节感人,称李亚鹏不该被辜负

小徐讲八卦
2026-01-18 08:57:20
包钢板材厂爆炸,两天前刚强调安全隐患排查

包钢板材厂爆炸,两天前刚强调安全隐患排查

中国新闻周刊
2026-01-18 21:49:05
稀世铼矿惊现中国!多国携顶尖科技求购,中国硬气表示绝不出手

稀世铼矿惊现中国!多国携顶尖科技求购,中国硬气表示绝不出手

知识TNT
2026-01-17 14:30:03
美邀60国加入加沙和平委员会

美邀60国加入加沙和平委员会

财联社
2026-01-19 00:55:06
包钢爆炸2死5失联66人受伤,是啥情况?

包钢爆炸2死5失联66人受伤,是啥情况?

靠山屯闲话
2026-01-18 21:24:49
断崖式下跌!中国人突然不爱喝酒了?真相太扎心!

断崖式下跌!中国人突然不爱喝酒了?真相太扎心!

达文西看世界
2026-01-18 20:56:11
英超下课第7人呼之欲出 51岁名帅炮轰俱乐部 老板怒不可遏

英超下课第7人呼之欲出 51岁名帅炮轰俱乐部 老板怒不可遏

叶青足球世界
2026-01-18 19:40:15
刚刚,弃船逃生开始了!

刚刚,弃船逃生开始了!

汉唐智库
2026-01-18 13:13:03
日本急疯了!为破中国稀土封锁,竟沦落到靠“捡垃圾”续命?

日本急疯了!为破中国稀土封锁,竟沦落到靠“捡垃圾”续命?

近史博览
2026-01-18 17:12:01
弘一法师:不要太操心你的孩子和在意的亲人,每个人都有自己的命

弘一法师:不要太操心你的孩子和在意的亲人,每个人都有自己的命

木言观
2026-01-18 13:56:24
2026-01-19 02:31:00
观察者网 incentive-icons
观察者网
全球视野,中国关怀
132613文章数 1849714关注度
往期回顾 全部

科技要闻

AI大事!马斯克:索赔9300亿元

头条要闻

特朗普建"联合国"自任主席 邀60国加入仅1国接受

头条要闻

特朗普建"联合国"自任主席 邀60国加入仅1国接受

体育要闻

21年后,中国男足重返亚洲四强

娱乐要闻

香港武打演员梁小龙去世:享年77

财经要闻

BBA,势败如山倒

汽车要闻

又一次闷声干大事,奇瑞进入2.0 AI+时代

态度原创

房产
教育
旅游
亲子
时尚

房产要闻

真四代来了!这次,海口楼市将彻底颠覆!

教育要闻

孩子成绩好不好,先看父母稳不稳

旅游要闻

受雨雪天气影响,陕西多家景区临时关闭

亲子要闻

文咏珊带助理游曼谷,生娃3个多月瘦出“排骨胸”,不像母乳喂养

美拉德过时了?今年冬天最火的4个颜色竟然是它们

无障碍浏览 进入关怀版