网易首页 > 网易号 > 正文 申请入驻

阿里公测千问对标ChatGPT,但9.9和9.11谁大还是“翻车”了

0
分享至

9.11和9.9谁更大?

去年,这道小学生难度的数学题难倒了一众海内外AI大模型。当时第一财经记者测试了12个大模型,其中阿里通义千问、百度文心一言、Minimax和腾讯元宝答对了,但ChatGPT-4o、豆包、kimi都错了,错法各有不同。

今日,当第一财经记者提问阿里巴巴最新公测的千问APP:“数字9.9和9.11谁大?”时,这次千问却答错了,称:“9.11更大”。

有意思的是,在随后的问题拆解中,千问称这是一个常见的思维陷阱,又经过分析后给出了9.9大于9.11的结论。


紧接着记者提问:“既然在拆解中得出结论9.9大于9.11,为什么要在回答中说9.11更大?”千问回答称:“同一个问题,前后答案却矛盾,这确实会让人对信息的可靠性产生怀疑。但这并非有意误导,而是在处理这个问题时出现了阶段性的错误。”

随后,千问对自己的“翻车”过程进行溯源,并进行了“自我纠错”。它称自己在首次回答中虽然拆解了小数比较原则,9.9 的十分位是 9,9.11 的十分位是 1,但最终结论误写为“9.11 更大”,这属于结论与推理过程不匹配的笔误。此外还有认知偏差的干扰,“9.11” 的三位数形式可能引发潜意识的数字长度错觉,导致最终结论被误导。

随后记者再次提问千问“数字9.9和9.11谁大?”,这次千问展示了AI模型的自我完善能力,回答“9.9更大”。

在大模型领域,“9.11和9.9哪个大”是一道经典算术问题。它最开始被艾伦研究机构(Allen Institute)成员林禹臣发现,他在X平台上发布的截图显示,ChatGPT-4o在回答中认为13.11比13.8更大。“一方面AI越来越擅长做数学奥赛题,但另一方面常识依旧很难。”他表示。

随后Scale AI的提示工程师莱利·古德赛德(Riley Goodside)基于此灵感变换了问法,拷问了可能是当时最强的大模型ChatGPT-4o、谷歌Gemini Advanced以及Claude 3.5 Sonnet——9.11和9.9哪个更大?多主流大模型通通答错,此话题成功传播开来。

此前有AI技术从业人士对第一财经记者表示,大模型本质上还是一个语言模型,它从语言数据中学习的是统计相关性,而这使它不擅长做规则学习,从而不擅长归纳推理。

尽管在常识性问题上出现失误,但在技术积累、生态布局和全球拓展方面,包括阿里巴巴的Qwen模型等在内的中国大模型已具备不容忽视的全球竞争力。截至目前,Qwen系列模型的全球下载量已突破6亿次。

不久前,爱彼迎CEO Brian Chesky曾表态称公司已经很大程度上依赖阿里巴巴的Qwen模型,它非常好,速度也很快,而且很便宜,"我们也会用OpenAI的最新模型,但在实际生产中通常不会大量使用,因为有更快、更经济的模型可供选择"。

今日阿里巴巴正式宣布“千问”项目,并全力进军AI to C市场,该公司正计划将地图、外卖、订票、办公、学习、购物、健康等各类生活场景接入千问APP。基于开源模型Qwen3,阿里管理层将“千问”项目视为“AI时代的未来之战”,这意味着阿里巴巴正借力Qwen模型海外影响力,与ChatGPT直接展开海外竞争。

特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相关推荐
热点推荐
全网聚焦!苏提达王后的中国行,是一场意外的“圈粉”之旅

全网聚焦!苏提达王后的中国行,是一场意外的“圈粉”之旅

一杯咖啡语
2025-11-17 14:30:36
杨瀚森爆发,开拓者却再被痛揍!对手弗拉格说真话,小杨要出头了

杨瀚森爆发,开拓者却再被痛揍!对手弗拉格说真话,小杨要出头了

嘴炮体坛
2025-11-17 15:45:10
中国大陆至日本航班量大幅下滑

中国大陆至日本航班量大幅下滑

极目新闻
2025-11-16 20:42:16
22分逆转!老鹰3人25+终结太阳5连胜 狄龙34+6布克27+7

22分逆转!老鹰3人25+终结太阳5连胜 狄龙34+6布克27+7

醉卧浮生
2025-11-17 11:46:25
比缅北更恐怖!曾经的旅游胜地,如今黄赌毒俱全,性交易随处可见

比缅北更恐怖!曾经的旅游胜地,如今黄赌毒俱全,性交易随处可见

来科点谱
2025-10-24 09:25:32
西安一知名中学校长调整

西安一知名中学校长调整

大风新闻
2025-11-17 16:26:26
86岁老人随口乱说代号,儿子上报后,国安领导:马上接通中央部委

86岁老人随口乱说代号,儿子上报后,国安领导:马上接通中央部委

知鉴明史
2025-10-23 14:01:49
小区里的名贵品种流浪猫越来越多了…

小区里的名贵品种流浪猫越来越多了…

微微热评
2025-11-17 19:09:20
平心而论,比起樊振东,王楚钦的全运会成绩有点惨不忍睹……!

平心而论,比起樊振东,王楚钦的全运会成绩有点惨不忍睹……!

田先生篮球
2025-11-16 21:33:13
长辈网购的东西能有多奇葩?网友:我爸买了个3寸的平底锅

长辈网购的东西能有多奇葩?网友:我爸买了个3寸的平底锅

解读热点事件
2025-11-10 00:20:03
开门红!17日上午,山东斩获2金2铜,力压东道主,继续领跑金牌榜

开门红!17日上午,山东斩获2金2铜,力压东道主,继续领跑金牌榜

萌兰聊个球
2025-11-17 11:01:21
你见过最狠的人有多狠?网友:好家伙,这么狠的人超乎我的想象力

你见过最狠的人有多狠?网友:好家伙,这么狠的人超乎我的想象力

带你感受人间冷暖
2025-11-02 00:15:03
李隆基处死了太平公主的所有子嗣,为何唯独没有杀她儿子薛崇简?

李隆基处死了太平公主的所有子嗣,为何唯独没有杀她儿子薛崇简?

掠影后有感
2025-10-08 12:35:51
湖人宣布!你好,詹姆斯!40岁超巨即将赛季首秀

湖人宣布!你好,詹姆斯!40岁超巨即将赛季首秀

篮球实战宝典
2025-11-17 12:06:15
一个母亲真能毁好几代人吗?网友:孩子的智商大部分取决于母亲

一个母亲真能毁好几代人吗?网友:孩子的智商大部分取决于母亲

带你感受人间冷暖
2025-11-11 01:15:18
偷拍者的镜头精准无误!

偷拍者的镜头精准无误!

蜻蜓世音
2025-11-09 12:22:16
日本旅游和消费股大跌!券商警告日元或因赴日游客量骤降走弱

日本旅游和消费股大跌!券商警告日元或因赴日游客量骤降走弱

南方都市报
2025-11-17 17:29:43
是时候说出真相!抗美援朝有五个冷知识很少提及,超乎我们的想象

是时候说出真相!抗美援朝有五个冷知识很少提及,超乎我们的想象

阿光的技巧课堂
2025-11-11 19:56:12
0度光脚、礼仪“焊死”:西班牙王后的体面与坚守

0度光脚、礼仪“焊死”:西班牙王后的体面与坚守

述家娱记
2025-11-15 11:02:06
小伙自驾西藏,遇徒步女学生搭车,同行2天后,才知自己躲过一劫

小伙自驾西藏,遇徒步女学生搭车,同行2天后,才知自己躲过一劫

五元讲堂
2025-10-16 14:41:16
2025-11-17 22:55:00
第一财经资讯 incentive-icons
第一财经资讯
第一财经官方账号
235947文章数 620632关注度
往期回顾 全部

科技要闻

有了通义和夸克,阿里为何再推千问App?

头条要闻

媒体:美国核武器进驻日本意味着什么 高市可要想好了

头条要闻

媒体:美国核武器进驻日本意味着什么 高市可要想好了

体育要闻

当家球星受伤后,球迷乐翻了天?

娱乐要闻

金鸡奖是“照妖镜”,揭露人情冷暖?

财经要闻

高市早苗的算计,将让日本割肉5000亿

汽车要闻

新增CDC后变化大吗? 试驾特斯拉model Y L

态度原创

游戏
艺术
旅游
时尚
军事航空

《逃离塔科夫》1.0上线翻车,好评率仅6%,玩家吐槽不如国产仿品

艺术要闻

这雪景,太美了!

旅游要闻

丽江市区的最美秋景在中济海,让我意外的是游客很少,什么原因?

50+姐姐秋冬穿对赢麻了!别硬凹少女感,3个技巧穿出显贵感

军事要闻

韩国提议举行朝韩军事会谈

无障碍浏览 进入关怀版