网易首页 > 网易号 > 正文 申请入驻

阿里公测千问对标ChatGPT,但9.9和9.11谁大还是“翻车”了

0
分享至

9.11和9.9谁更大?

去年,这道小学生难度的数学题难倒了一众海内外AI大模型。当时第一财经记者测试了12个大模型,其中阿里通义千问、百度文心一言、Minimax和腾讯元宝答对了,但ChatGPT-4o、豆包、kimi都错了,错法各有不同。

今日,当第一财经记者提问阿里巴巴最新公测的千问APP:“数字9.9和9.11谁大?”时,这次千问却答错了,称:“9.11更大”。

有意思的是,在随后的问题拆解中,千问称这是一个常见的思维陷阱,又经过分析后给出了9.9大于9.11的结论。


紧接着记者提问:“既然在拆解中得出结论9.9大于9.11,为什么要在回答中说9.11更大?”千问回答称:“同一个问题,前后答案却矛盾,这确实会让人对信息的可靠性产生怀疑。但这并非有意误导,而是在处理这个问题时出现了阶段性的错误。”

随后,千问对自己的“翻车”过程进行溯源,并进行了“自我纠错”。它称自己在首次回答中虽然拆解了小数比较原则,9.9 的十分位是 9,9.11 的十分位是 1,但最终结论误写为“9.11 更大”,这属于结论与推理过程不匹配的笔误。此外还有认知偏差的干扰,“9.11” 的三位数形式可能引发潜意识的数字长度错觉,导致最终结论被误导。

随后记者再次提问千问“数字9.9和9.11谁大?”,这次千问展示了AI模型的自我完善能力,回答“9.9更大”。

在大模型领域,“9.11和9.9哪个大”是一道经典算术问题。它最开始被艾伦研究机构(Allen Institute)成员林禹臣发现,他在X平台上发布的截图显示,ChatGPT-4o在回答中认为13.11比13.8更大。“一方面AI越来越擅长做数学奥赛题,但另一方面常识依旧很难。”他表示。

随后Scale AI的提示工程师莱利·古德赛德(Riley Goodside)基于此灵感变换了问法,拷问了可能是当时最强的大模型ChatGPT-4o、谷歌Gemini Advanced以及Claude 3.5 Sonnet——9.11和9.9哪个更大?多主流大模型通通答错,此话题成功传播开来。

此前有AI技术从业人士对第一财经记者表示,大模型本质上还是一个语言模型,它从语言数据中学习的是统计相关性,而这使它不擅长做规则学习,从而不擅长归纳推理。

尽管在常识性问题上出现失误,但在技术积累、生态布局和全球拓展方面,包括阿里巴巴的Qwen模型等在内的中国大模型已具备不容忽视的全球竞争力。截至目前,Qwen系列模型的全球下载量已突破6亿次。

不久前,爱彼迎CEO Brian Chesky曾表态称公司已经很大程度上依赖阿里巴巴的Qwen模型,它非常好,速度也很快,而且很便宜,"我们也会用OpenAI的最新模型,但在实际生产中通常不会大量使用,因为有更快、更经济的模型可供选择"。

今日阿里巴巴正式宣布“千问”项目,并全力进军AI to C市场,该公司正计划将地图、外卖、订票、办公、学习、购物、健康等各类生活场景接入千问APP。基于开源模型Qwen3,阿里管理层将“千问”项目视为“AI时代的未来之战”,这意味着阿里巴巴正借力Qwen模型海外影响力,与ChatGPT直接展开海外竞争。

特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相关推荐
热点推荐
印度网友发出疑问:为何只有中国人身上没有味道?究竟是什么原因

印度网友发出疑问:为何只有中国人身上没有味道?究竟是什么原因

阿纂看事
2026-01-26 10:14:55
李蓓:上月已清仓黄金,未来10至20年不值得投资,持有黄金可能错失其他重大机遇

李蓓:上月已清仓黄金,未来10至20年不值得投资,持有黄金可能错失其他重大机遇

界面新闻
2026-01-27 16:46:11
闫学晶送祝福光速复活,网友炸锅:这哪是拜年,是赤裸裸的挑衅!

闫学晶送祝福光速复活,网友炸锅:这哪是拜年,是赤裸裸的挑衅!

好贤观史记
2026-01-27 09:39:55
14岁陈佳铭已昏迷超30天,上海专家会诊后,确认无生还希望

14岁陈佳铭已昏迷超30天,上海专家会诊后,确认无生还希望

离离言几许
2026-01-26 16:15:54
赵薇、黄有龙和李湘被爆与电诈头目有关?刚刚,赵薇本人和李湘前夫对此都进行了回应。

赵薇、黄有龙和李湘被爆与电诈头目有关?刚刚,赵薇本人和李湘前夫对此都进行了回应。

贴小君
2026-01-27 10:17:05
李湘前夫发声,有五个点让人觉得很诡异!

李湘前夫发声,有五个点让人觉得很诡异!

麦杰逊
2026-01-27 13:06:01
泽连斯基:乌克兰计划2027年加入欧盟

泽连斯基:乌克兰计划2027年加入欧盟

财联社
2026-01-27 20:38:07
在盒马app买鲜百合被误送成水仙球,北京祖孙二人误食中毒后进医院,盒马回应

在盒马app买鲜百合被误送成水仙球,北京祖孙二人误食中毒后进医院,盒马回应

潇湘晨报
2026-01-27 18:01:05
全是假的!涉及多个品牌,检测结果触目惊心!网友:老人小孩都在吃

全是假的!涉及多个品牌,检测结果触目惊心!网友:老人小孩都在吃

环球网资讯
2026-01-27 15:41:14
能量守恒,其实不是宇宙铁律,一个女数学家如何改变了物理学?

能量守恒,其实不是宇宙铁律,一个女数学家如何改变了物理学?

知识分子
2026-01-27 00:43:13
舒马赫醒了!

舒马赫醒了!

新欧洲
2026-01-27 20:57:06
花200万补课后续:380分儿子执意补课,母亲重病陪读,曝更痛隐情

花200万补课后续:380分儿子执意补课,母亲重病陪读,曝更痛隐情

阿讯说天下
2026-01-27 13:45:23
不论炖什么肉,都要记得加这2种料,肉烂鲜香,特入味,连吃一碗都不腻

不论炖什么肉,都要记得加这2种料,肉烂鲜香,特入味,连吃一碗都不腻

美食格物
2026-01-27 00:42:18
目之所及,政治生态正在幼态化

目之所及,政治生态正在幼态化

黔有虎
2026-01-27 09:45:03
上海男篮17分大胜,王哲林25+10生涯总得分破万,洛夫顿30+10

上海男篮17分大胜,王哲林25+10生涯总得分破万,洛夫顿30+10

中国篮坛快讯
2026-01-27 21:30:18
一个要求,震动东京:中国要求日本尽快归还,清算终于开始了

一个要求,震动东京:中国要求日本尽快归还,清算终于开始了

铁锤简科
2026-01-27 20:42:44
中国正加速抛售美债,美专家:中国用了新抛售方式,完全无法干预

中国正加速抛售美债,美专家:中国用了新抛售方式,完全无法干预

泠泠说史
2026-01-27 13:27:02
耐人寻味!杨鸣下课第一场辽篮狂胜52分,赛季首次破百全员都在笑

耐人寻味!杨鸣下课第一场辽篮狂胜52分,赛季首次破百全员都在笑

嘴炮体坛
2026-01-27 21:18:20
爬山遗失80克金吊坠男子:把对讲机挂在了金吊坠的链子上,快登顶才发现吊坠丢了,目前还没找到

爬山遗失80克金吊坠男子:把对讲机挂在了金吊坠的链子上,快登顶才发现吊坠丢了,目前还没找到

鲁中晨报
2026-01-27 16:23:14
三峡大坝“账本”曝光:运行了20余年,2500亿投入如今回本了吗?

三峡大坝“账本”曝光:运行了20余年,2500亿投入如今回本了吗?

墨兰史书
2026-01-26 08:20:07
2026-01-28 02:43:00
第一财经资讯 incentive-icons
第一财经资讯
第一财经官方账号
242745文章数 621337关注度
往期回顾 全部

科技要闻

马化腾3年年会讲话透露了哪些关键信息

头条要闻

美报告称中国是其19世纪以来面对过的最强大国家

头条要闻

美报告称中国是其19世纪以来面对过的最强大国家

体育要闻

冒充职业球员,比赛规则还和对手现学?

娱乐要闻

张雨绮风波持续发酵,曝多个商务被取消

财经要闻

多地对垄断行业"近亲繁殖"出手了

汽车要闻

标配华为乾崑ADS 4/鸿蒙座舱5 华境S体验车下线

态度原创

本地
艺术
教育
房产
公开课

本地新闻

云游中国|拨开云雾,巫山每帧都是航拍大片

艺术要闻

震撼!19世纪油画巨匠的作品美得不可思议!

教育要闻

对话陈妤颉:闪闪发光的赛道,追逐梦想

房产要闻

实景兑现在即!绿城,在海棠湾重新定义终极旅居想象!

公开课

李玫瑾:为什么性格比能力更重要?

无障碍浏览 进入关怀版