网易首页 > 网易号 > 正文 申请入驻

答对有资格入职特斯拉?这道数学题,我们用七大 AI 模型测了一遍

0
分享至

此前,马斯克在社交平台 X 上贴出了一道数学题,并表示如果有人解开这个问题,就有资格在特斯拉公司工作,引起了很多网友的讨论。

这是一道算式题:6÷2 (1+2)。

在推文下面,网友纷纷给出了自己的答案,但结果却呈现“两极化”,有人认为答案是“1”,有人认为答案是“9”。

其实对于这道题目,美国史丹佛大学教授、数学家塔沃克(Presh Talwalkar)在 8 年前就曾发视频做过解释,大致意思是遵循从左至右的运算规则,先将括号内的 1+2 算出,得到 6÷2×3 的算式,然后乘、除号位阶相等,由左至右计算,会得出答案为 9。

但同时塔沃克也在视频中说,1917 年的数学运算规则与现在有些不一样,按照过去的算法,当时规定碰到除法时,应该将左边整个算式除以右边整个算式,所以答案为 1。

也就是说,以现在的运算规则来看,这道题的准确答案是 9,但说答案为 1 的,也有一定的缘由。

看到这,IT之家突然想到,如果把这个比较有争议的问题让 AI 大模型来回答,它是否能给出准确的答案?又是否能判断出其中的“争议”所在呢?

想到不如立刻行动,于是小编找来各大知名厂商最新的 AI 大模型,来进行一番对比测试,看看不同的模型面对这个问题时会有怎样的表现。

在测试前需要特别说明的是,由于这道题目具有相当的迷惑性和争议性,因此在测试时,小编会重点查看大模型推理的过程是否能将其中的关键步骤考虑到,并在输出结果中对这一争议点进行解释。

同时为了重点测试各大模型的推理能力,以及避开在线搜索信息对结果的影响,测试时小编只用各家最新的深度推理模型来进行测试,并关闭了“联网搜索”功能。

1、讯飞星火 X1

小编首先使用的是科大讯飞的讯飞星火大模型。值得一提的是,最近科大讯飞深度推理大模型 —— 讯飞星火 X1 迎来全新升级,这是当前业界唯一基于全国产算力训练的深度推理大模型,升级后的星火 X1 在数学、代码、逻辑推理、文本生成、语言理解、知识问答等通用任务上效果显著提升。

来看讯飞星火在面对这个问题时的实际表现,小编将马斯克的帖子截图进行上传,然后对它说“请回答一下图片里面的这道数学题”,讯飞星火 X1 能准确识别图片中的数学题,然后进行推理和思考。

观察讯飞星火 X1 的推理过程,它先是按照我们上面所说的现代运算顺序算出了正确结果,但同时,它也考虑到了将 2 (1+2) 当成一个整体的情况,并指出关键在于“运算顺序的理解”,然后讯飞星火进一步引用数学上的 PEMDAS / BODMAS 规则,解释了将 2 (1+2) 视为一个整体,则需要额外的括号的原则,再次肯定正确的答案就是 9。

在推理过程中,我们还能看到讯飞星火也考虑到了以往网络对这一问题存在的争议,并表示这种情况下需要明确题目的书写方式是否有隐含的括号,或者是遵循某种特定的惯例。

整体来说,讯飞星火 X1 深度推理大模型对于这个问题的思考过程是非常细致、全面的,既明确了现代算法下的正确答案,也对可能存在的争议点进行了解惑。

再看讯飞星火最终输出的答案,先给出了按照 PEMDAS / BODMAS 规则运算的正确答案是 9。然后特别给我们指出了潜在误解的情况,就是如果将 2 (1+2) 视为整体的话,应该有一个隐含的括号,即 6 ÷ [2×(1+2)],这样才是正确的书写方式。不仅如此,讯飞星火还在回答的最后给出了延伸讨论,指出在实际考试或严谨场合中,应通过括号避免歧义,如明确写成 6 ÷ [2 (1+2)] 或 (6 ÷ 2)(1+2))。

总体而言,讯飞星火 X1 的推理过程通顺严谨,考虑的情况也很全面,输出的结果不仅给出了正确答案,还对争议点进行了解惑,整个回答可以说是找不到什么问题,可见这最新的讯飞星火 X1 深度推理大模型表现确实不错。

2、DeepSeek R1

接下来,小编又用 DeepSeek R1 模型进行了测试,还是上传截图让 DeepSeek R1 进行识别。可以看到 DeepSeek R1 的深度思考过程,也是先按照 PEMDAS / BODMAS 规则运算出了正确的结果。然后又通过“对吗?”话锋一转,开始思考将 2 (1+2) 视为一个整体的情况,但是对于这个情况的思考过程有点啰嗦,虽然也提到了隐式括号的问题,但没有给出有中括号的正确写法,虽然思考的过程是正确的,但内容上稍有含糊。

再看输出的结果,先是给出了正确的运算步骤和结果,不过输出答案“9”时出现了不明意义的代码,而且对于争议点的说明也不够详细明确。

3、字节豆包 1.5

然后小编测的是豆包 1.5 深度思考模型,也是上传截图让它来回答图中的数学题,豆包大模型的思考过程相对简单,先是按照四则运算法则算出了正确的结果 9,然后也提到了把 2 (1+2) 看做一个整体的情况,并给出了看成整体的话应该写作 6÷[2 (1+2)],但这里没有中括号,所以还是应该按照从左到右的顺序进行计算。可以看到,豆包大模型虽然思考过程简单,但言简意赅,核心的要点解释得比较清楚。

不过,正式的输出结果中,虽然给出了正确的计算步骤和结果,但对于争议点的解释反而又比较含糊了,不如推理过程中说得清晰。

4、文心 X1 Turbo

接着,小编用百度刚刚发布的文心 X1 Turbo 模型进行测试,由于文心 X1 Turbo 模型在深度思考模式下不支持上传图片,所以小编直接手动输入问题“请回答这道数学题:6 ÷ 2 (1+2)=?”。

文心 X1 Turbo 模型也是一样,先给出了正确的运算步骤和结果,然后考虑能不能将 2 (1+2) 看成一个整体的问题,文心 X1 Turbo 的解释是算式中的括号只是提高了“1+2”的优先级,但没有提高省略的“×”的优先级,所以“×”和“÷”还是同阶的,要按照从左到右的顺序来运算。虽然思考的过程稍显繁琐,但整体内容上没什么问题。

再看输出的结果,先给出按照 PEMDAS / BODMAS 运算规则的正确结果,然后提示将 2 (1+2) 误解为整体的关键点,虽然给出的解释也比较简洁,但整体逻辑上是没什么问题的。

5、腾讯混元 T1

然后我们再看腾讯混元 T1 模型的回答,还是先看思考的过程。

腾讯混元 T1 的思考过程整体看下来是没什么问题的,对于能不能将 2 (1+2) 看成整体的解释也比较明确,还给出了可以看成整体时的正确写法:6 ÷ [2×(1+2)]。

不过,在输出的答案中,对于这一争议点的解释反而又略显含糊了,如果有同学没有看思考过程的话,只看输出的答案还是不能理解为什么不能将 2 (1+2) 看作整体优先计算。

6、通义千问 Qwen-QwQ-32B

下面我们再看看通义千问是怎么解决这个问题的吧,小编还是选择通义千问的深度思考模型。

千问的思考过程中,先按照 PEMDAS / BODMAS 原则给出了正确的运算结果,重点是对于能不能将 2 (1+2) 看成整体的思考,这一方面千问给出的解释比较含糊,有点车轱辘话反复说的意思,没有说到要点上。

再看输出的结果,只是给出了这道题正确的步骤和结果,并没有对争议点进行解释和说明。

6、OpenAI o3

除了国内的这几家模型,IT之家还测试了国外的两家模型,首先是 OpenAI o3,o3 大模型没有给出推理过程,不过在输出的结果中详细展示了它的解题和思考逻辑,所以我们直接看输出的结果。

首先,OpenAI o3 给出了按照 PEMDAS / BODMAS 原则详细的计算过程和正确的答案:9。

然后我们看 OpenAI o3 对争议的解释,即能不能把 2 (1+2) 看成一个整体优先计算,OpenAI o3 的解释过程很严谨,问题的关键说得也很清楚,明确表示争议点事在没有括号的情况下自行施加了额外的运算次序,这并不符合普遍的约定。同时 OpenAI o3 还科普了一下在某些特性语境或旧式计算工具中,隐式乘法(如紧挨括号的乘法)普被视为比除法更高的优先級的情况,但这并不是普遍的数学教学标准。

整体来看,OpenAI o3 模型的回答结果也很让人满意,基本上和讯飞星火 X1 的回答是一个水平。

7、Grok 3

最后,IT之家还用马斯克自家的 Grok 3 深度思考模型进行了测试。Grok 3 的思考过程和前面的通义千问有点类似,都是先计算正确的结果,但是对争议点能不能把 2 (1+2) 看成整体的解释相对含糊。

不过在输出的结果中,Grok 3 的解释比思考过程更清晰,明确表示如果看作一个整体,应该写作 6 ÷ [2 (1 + 2)],这样一说就简洁明了了。

结语

总结一下,通过用马斯克贴出的这道引发热议的数学算式题,IT之家测试了 7 款大模型面对这一问题的思考和解答,总体来说,讯飞星火 X1 深度推理大模型和 OpenAI o3 的表现最为让人满意,无论是思考的过程还是答案的输出都比其他模型更加严谨、完善,同时对于“能不能把 2 (1+2) 看成一个整体优先计算”这一关键争议点的解释也更加详细和有理有据,能说到重点上,让人一看就能明白。

其次文心 X1 Turbo 模型的思考过程和回答输出也比较不错,让人能够一眼看懂。而 DeepSeek R1、腾讯混元 T1、Grok 3、豆包 1.5 的表现虽然也还可以,但或是在思考过程或是在回答输出方面都有改进的空间。通义千问方面对于争议点的解释在思考过程和回答输出方面都有些含糊。

当然,最后要说的是,这次小编只是借马斯克贴出的“出圈”数学题做了一次小测试,样本数有限,仅供大家参考,并不能用来评价各家大模型真实、全面的水平。同时也能看到如今 AI 大模型的深度推理能力确实有了很大的提升,思考推理的过程流畅自然,很像是人类的思考过程了,相信随着模型技术的持续发展,AI 能够帮助我们解决越来越多的问题,为我们的工作和生活带来更多的便利。

特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相关推荐
热点推荐
普京开会亲口承认了残酷现实,俄罗斯已遭到了战争的反噬

普京开会亲口承认了残酷现实,俄罗斯已遭到了战争的反噬

泠泠说史
2026-03-25 19:57:28
女人为还赌债,被迫在两人围观下发生关系,她的结局最终是怎样

女人为还赌债,被迫在两人围观下发生关系,她的结局最终是怎样

长安一孤客
2026-03-25 16:22:18
孩子送的礼物戴了幼稚不戴又怕伤孩子心!网友:这孩子真孝顺

孩子送的礼物戴了幼稚不戴又怕伤孩子心!网友:这孩子真孝顺

夜深爱杂谈
2026-03-25 21:14:22
马英九亲自下场后,蓝营大佬集体回应,台媒体人:罪在马英九

马英九亲自下场后,蓝营大佬集体回应,台媒体人:罪在马英九

DS北风
2026-03-25 18:50:17
清末民初:四川总督赵尔丰、冒着热气的小吃摊、末代状元刘春霖

清末民初:四川总督赵尔丰、冒着热气的小吃摊、末代状元刘春霖

历史小破站
2026-03-19 04:05:03
当医生看病遇到同行,网友:基本一句劝都听不到了!

当医生看病遇到同行,网友:基本一句劝都听不到了!

夜深爱杂谈
2026-03-25 21:05:25
国家机密,洲际导弹的制造方法

国家机密,洲际导弹的制造方法

远方青木
2026-03-25 23:55:16
吴柳芳彻底告别擦边!粉丝90万 网友:骂是她挨了 钱是父母弟弟拿走了

吴柳芳彻底告别擦边!粉丝90万 网友:骂是她挨了 钱是父母弟弟拿走了

情感大头说说
2026-03-26 12:46:10
马英九接受《联合报》专访,谈萧旭岑违规,称: 决不私了!

马英九接受《联合报》专访,谈萧旭岑违规,称: 决不私了!

混沌录
2026-03-25 16:22:07
一舞封神后,被东莞首富收入囊中,如今她已是7岁孩子妈妈

一舞封神后,被东莞首富收入囊中,如今她已是7岁孩子妈妈

白面书誏
2026-03-06 16:34:31
医生解剖5516例猝死者,发现猝死规律:易猝死的人,有4个共同点

医生解剖5516例猝死者,发现猝死规律:易猝死的人,有4个共同点

牛锅巴小钒
2026-03-25 22:05:21
你知道我在床上有多厉害吗?

你知道我在床上有多厉害吗?

果粉之家
2026-03-20 12:35:16
滞留中国巴拿马船暴涨3倍,每天要交几十万,船东想换船籍保平安

滞留中国巴拿马船暴涨3倍,每天要交几十万,船东想换船籍保平安

卷史
2026-03-26 01:05:08
周杰伦新专辑引吐槽声一片,还牵扯两段绯闻,歌不行只剩炒作?

周杰伦新专辑引吐槽声一片,还牵扯两段绯闻,歌不行只剩炒作?

乐天闲聊
2026-03-26 10:48:17
钱学森家族基因密码:一项择偶标准,可保家族后代不失天之骄子

钱学森家族基因密码:一项择偶标准,可保家族后代不失天之骄子

云霄纪史观
2026-03-23 19:57:36
张雪峰8亿遗产如何分?法定继承vs遗嘱继承,妻子女儿份额大不同

张雪峰8亿遗产如何分?法定继承vs遗嘱继承,妻子女儿份额大不同

别人都叫我阿螫
2026-03-25 17:35:23
杨振宁猝然离世5个月后,翁帆突传新消息,怀孕传闻早就真相大白

杨振宁猝然离世5个月后,翁帆突传新消息,怀孕传闻早就真相大白

今墨缘
2026-03-26 10:09:32
惊天逆转!伊朗,吹响进攻号角!

惊天逆转!伊朗,吹响进攻号角!

大嘴说天下
2026-03-23 21:32:12
西方集体撤退!中国死磕,为什么全世界,就中国在拼命搞核聚变?

西方集体撤退!中国死磕,为什么全世界,就中国在拼命搞核聚变?

混沌录
2026-03-25 16:53:19
现实中的大龄剩女最后妥协了吗?网友爆笑评论,真是一言难尽。

现实中的大龄剩女最后妥协了吗?网友爆笑评论,真是一言难尽。

侃神评故事
2026-03-25 11:30:09
2026-03-26 13:39:00
IT之家
IT之家
爱科技,爱这里 - 前沿科技人气平台
336004文章数 607090关注度
往期回顾 全部

科技要闻

Meta高管狂分百亿期权,700名员工却下岗

头条要闻

伊朗议长和外长暂被移出美以清除名单 时限4到5天

头条要闻

伊朗议长和外长暂被移出美以清除名单 时限4到5天

体育要闻

35岁替补门将,凭什么入选英格兰队?

娱乐要闻

张雪峰家人首发声 不设追思会丧事从简

财经要闻

黄仁勋:芯片公司的时代已经结束了

汽车要闻

一汽奥迪A6L e-tron开启预售 CLTC最大续航815km

态度原创

时尚
教育
健康
公开课
军事航空

2026年了,最好看的还是“这件针织”!

教育要闻

2027届注意:暑期实习=秋招通行证,错过等一年

转头就晕的耳石症,能开车上班吗?

公开课

李玫瑾:为什么性格比能力更重要?

军事要闻

担心特朗普突然停战 以总理下令48小时尽力摧毁伊设施

无障碍浏览 进入关怀版