网易首页 > 网易号 > 正文 申请入驻

阿里公测千问对标ChatGPT,但9.9和9.11谁大还是“翻车”了

0
分享至

9.11和9.9谁更大?

去年,这道小学生难度的数学题难倒了一众海内外AI大模型。当时第一财经记者测试了12个大模型,其中阿里通义千问、百度文心一言、Minimax和腾讯元宝答对了,但ChatGPT-4o、豆包、kimi都错了,错法各有不同。

今日,当第一财经记者提问阿里巴巴最新公测的千问APP:“数字9.9和9.11谁大?”时,这次千问却答错了,称:“9.11更大”。

有意思的是,在随后的问题拆解中,千问称这是一个常见的思维陷阱,又经过分析后给出了9.9大于9.11的结论。


紧接着记者提问:“既然在拆解中得出结论9.9大于9.11,为什么要在回答中说9.11更大?”千问回答称:“同一个问题,前后答案却矛盾,这确实会让人对信息的可靠性产生怀疑。但这并非有意误导,而是在处理这个问题时出现了阶段性的错误。”

随后,千问对自己的“翻车”过程进行溯源,并进行了“自我纠错”。它称自己在首次回答中虽然拆解了小数比较原则,9.9 的十分位是 9,9.11 的十分位是 1,但最终结论误写为“9.11 更大”,这属于结论与推理过程不匹配的笔误。此外还有认知偏差的干扰,“9.11” 的三位数形式可能引发潜意识的数字长度错觉,导致最终结论被误导。

随后记者再次提问千问“数字9.9和9.11谁大?”,这次千问展示了AI模型的自我完善能力,回答“9.9更大”。

在大模型领域,“9.11和9.9哪个大”是一道经典算术问题。它最开始被艾伦研究机构(Allen Institute)成员林禹臣发现,他在X平台上发布的截图显示,ChatGPT-4o在回答中认为13.11比13.8更大。“一方面AI越来越擅长做数学奥赛题,但另一方面常识依旧很难。”他表示。

随后Scale AI的提示工程师莱利·古德赛德(Riley Goodside)基于此灵感变换了问法,拷问了可能是当时最强的大模型ChatGPT-4o、谷歌Gemini Advanced以及Claude 3.5 Sonnet——9.11和9.9哪个更大?多主流大模型通通答错,此话题成功传播开来。

此前有AI技术从业人士对第一财经记者表示,大模型本质上还是一个语言模型,它从语言数据中学习的是统计相关性,而这使它不擅长做规则学习,从而不擅长归纳推理。

尽管在常识性问题上出现失误,但在技术积累、生态布局和全球拓展方面,包括阿里巴巴的Qwen模型等在内的中国大模型已具备不容忽视的全球竞争力。截至目前,Qwen系列模型的全球下载量已突破6亿次。

不久前,爱彼迎CEO Brian Chesky曾表态称公司已经很大程度上依赖阿里巴巴的Qwen模型,它非常好,速度也很快,而且很便宜,"我们也会用OpenAI的最新模型,但在实际生产中通常不会大量使用,因为有更快、更经济的模型可供选择"。

今日阿里巴巴正式宣布“千问”项目,并全力进军AI to C市场,该公司正计划将地图、外卖、订票、办公、学习、购物、健康等各类生活场景接入千问APP。基于开源模型Qwen3,阿里管理层将“千问”项目视为“AI时代的未来之战”,这意味着阿里巴巴正借力Qwen模型海外影响力,与ChatGPT直接展开海外竞争。

特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相关推荐
热点推荐
两个世界首富吵起来了!贝索斯融资 447 亿复出搞 AI,马斯克:跟屁虫

两个世界首富吵起来了!贝索斯融资 447 亿复出搞 AI,马斯克:跟屁虫

AppSo
2025-11-18 10:24:13
商竣程2-1逆转头号种子布云朝克特,晋级全运会四强

商竣程2-1逆转头号种子布云朝克特,晋级全运会四强

懂球帝
2025-11-18 13:13:08
小米集团:第三季度总收入为1131亿元,同比增长22.3%

小米集团:第三季度总收入为1131亿元,同比增长22.3%

界面新闻
2025-11-18 17:28:06
中日关系紧张之下,大量中国游客依然选择赴日!这又是为什么呢?

中日关系紧张之下,大量中国游客依然选择赴日!这又是为什么呢?

翻开历史和现实
2025-11-18 10:14:27
哈登28+6+5丢绝杀迎28000分里程碑 快船遭76人逆转马克西39+6

哈登28+6+5丢绝杀迎28000分里程碑 快船遭76人逆转马克西39+6

醉卧浮生
2025-11-18 10:37:32
赤峰通报“白菜事件”查处情况,堪称教科书级别

赤峰通报“白菜事件”查处情况,堪称教科书级别

方清云
2025-11-18 11:58:59
约基奇空砍36+18+13掘金不敌公牛结束7连胜,吉迪21+14+6

约基奇空砍36+18+13掘金不敌公牛结束7连胜,吉迪21+14+6

湖人崛起
2025-11-18 12:26:07
爆大冷!女团半决赛对阵出炉,卫冕冠军被淘汰,孙颖莎连剃光头

爆大冷!女团半决赛对阵出炉,卫冕冠军被淘汰,孙颖莎连剃光头

知轩体育
2025-11-18 15:08:04
不好,开始还钱了!!

不好,开始还钱了!!

TopView
2025-11-18 11:32:38
多地发文!立即解散约车群、拼车群,否则追究群主法律责任!

多地发文!立即解散约车群、拼车群,否则追究群主法律责任!

网约车焦点
2025-11-17 12:00:54
喻恩泰的X瘾症!

喻恩泰的X瘾症!

八卦疯叔
2025-11-18 10:34:19
超市被偷到倒闭,女老板起诉合伙人案二审因法官为同一人延期,提交的审计材料也被弄丢

超市被偷到倒闭,女老板起诉合伙人案二审因法官为同一人延期,提交的审计材料也被弄丢

大风新闻
2025-11-18 11:34:09
特朗普竟然给克林顿吹过箫?!美国官方公开文件无意间泄露天机,特朗普被玩坏了

特朗普竟然给克林顿吹过箫?!美国官方公开文件无意间泄露天机,特朗普被玩坏了

西虹市闲话
2025-11-17 23:38:26
被员工吐槽后,俞敏洪连发数条南极游视频,此前在南极旅游发全员信引争议

被员工吐槽后,俞敏洪连发数条南极游视频,此前在南极旅游发全员信引争议

红星新闻
2025-11-18 12:21:08
俞敏洪在南极给员工写信翻车上热搜!员工:23点我还在打电话续费

俞敏洪在南极给员工写信翻车上热搜!员工:23点我还在打电话续费

柴狗夫斯基
2025-11-17 21:16:32
突然走红,深圳也有!有人吃完直接烧到39℃进ICU!

突然走红,深圳也有!有人吃完直接烧到39℃进ICU!

深圳晚报
2025-11-18 16:25:39
雷军急坏了,小米汽车卖不动了,销量下滑22%

雷军急坏了,小米汽车卖不动了,销量下滑22%

吃瓜盟主
2025-11-18 14:29:35
黑龙江省七台河市市场监督管理局党组书记、局长孙安红被查

黑龙江省七台河市市场监督管理局党组书记、局长孙安红被查

鲁中晨报
2025-11-18 16:17:04
日本拟恢复“大佐”等旧日军军阶用语,外交部:绝不允许日本军国主义复活

日本拟恢复“大佐”等旧日军军阶用语,外交部:绝不允许日本军国主义复活

澎湃新闻
2025-11-18 15:30:28
中国准备打一场反侵略战争,解放军发文,不会保证日本本土的安全

中国准备打一场反侵略战争,解放军发文,不会保证日本本土的安全

影孖看世界
2025-11-16 20:05:08
2025-11-18 17:43:00
第一财经资讯 incentive-icons
第一财经资讯
第一财经官方账号
236018文章数 620634关注度
往期回顾 全部

科技要闻

马斯克破防了!贝索斯62亿美金入局"实体AI"

头条要闻

孟加拉国前总理哈西娜被判死刑 中方回应

头条要闻

孟加拉国前总理哈西娜被判死刑 中方回应

体育要闻

结束最后一次对决,陈梦和朱雨玲笑着相拥

娱乐要闻

宋佳夺影后动了谁的奶酪

财经要闻

刚刚,中美机器人爆发了一场论战

汽车要闻

更加豪华 更加全地形 极石ADAMAS

态度原创

数码
手机
游戏
本地
公开课

数码要闻

VAIO推出迪士尼联名F16 / F14笔记本,A面激光雕刻IP插画

手机要闻

iPhone中国销量强势增长!10月销量同比增长37% 市占高达25%

国外大神攻破《极品飞车:热力追踪重制版》D加密

本地新闻

这档古早综艺,怎么就成了年轻人的哆啦A梦?

公开课

李玫瑾:为什么性格比能力更重要?

无障碍浏览 进入关怀版