网易首页 > 网易号 > 正文 申请入驻

阿里公测千问对标ChatGPT,但9.9和9.11谁大还是“翻车”了

0
分享至

来源:市场资讯

(来源:第一财经资讯)

9.11和9.9谁更大?

去年,这道小学生难度的数学题难倒了一众海内外AI大模型。当时第一财经记者测试了12个大模型,其中阿里通义千问、百度文心一言、Minimax和腾讯元宝答对了,但ChatGPT-4o、豆包、kimi都错了,错法各有不同。

今日,当第一财经记者提问阿里巴巴最新公测的千问APP:“数字9.9和9.11谁大?”时,这次千问却答错了,称:“9.11更大”。

有意思的是,在随后的问题拆解中,千问称这是一个常见的思维陷阱,又经过分析后给出了9.9大于9.11的结论。


紧接着记者提问:“既然在拆解中得出结论9.9大于9.11,为什么要在回答中说9.11更大?”千问回答称:“同一个问题,前后答案却矛盾,这确实会让人对信息的可靠性产生怀疑。但这并非有意误导,而是在处理这个问题时出现了阶段性的错误。”

随后,千问对自己的“翻车”过程进行溯源,并进行了“自我纠错”。它称自己在首次回答中虽然拆解了小数比较原则,9.9 的十分位是 9,9.11 的十分位是 1,但最终结论误写为“9.11 更大”,这属于结论与推理过程不匹配的笔误。此外还有认知偏差的干扰,“9.11” 的三位数形式可能引发潜意识的数字长度错觉,导致最终结论被误导。

随后记者再次提问千问“数字9.9和9.11谁大?”,这次千问展示了AI模型的自我完善能力,回答“9.9更大”。

在大模型领域,“9.11和9.9哪个大”是一道经典算术问题。它最开始被艾伦研究机构(Allen Institute)成员林禹臣发现,他在X平台上发布的截图显示,ChatGPT-4o在回答中认为13.11比13.8更大。“一方面AI越来越擅长做数学奥赛题,但另一方面常识依旧很难。”他表示。

随后Scale AI的提示工程师莱利·古德赛德(Riley Goodside)基于此灵感变换了问法,拷问了可能是当时最强的大模型ChatGPT-4o、谷歌Gemini Advanced以及Claude 3.5 Sonnet——9.11和9.9哪个更大?多主流大模型通通答错,此话题成功传播开来。

此前有AI技术从业人士对第一财经记者表示,大模型本质上还是一个语言模型,它从语言数据中学习的是统计相关性,而这使它不擅长做规则学习,从而不擅长归纳推理。

尽管在常识性问题上出现失误,但在技术积累、生态布局和全球拓展方面,包括阿里巴巴的Qwen模型等在内的中国大模型已具备不容忽视的全球竞争力。截至目前,Qwen系列模型的全球下载量已突破6亿次。

不久前,爱彼迎CEO Brian Chesky曾表态称公司已经很大程度上依赖阿里巴巴的Qwen模型,它非常好,速度也很快,而且很便宜,"我们也会用OpenAI的最新模型,但在实际生产中通常不会大量使用,因为有更快、更经济的模型可供选择"。

今日阿里巴巴正式宣布“千问”项目,并全力进军AI to C市场,该公司正计划将地图、外卖、订票、办公、学习、购物、健康等各类生活场景接入千问APP。基于开源模型Qwen3,阿里管理层将“千问”项目视为“AI时代的未来之战”,这意味着阿里巴巴正借力Qwen模型海外影响力,与ChatGPT直接展开海外竞争。

特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相关推荐
热点推荐
詹姆斯首秀惊艳!湖人14分大胜,这一战!我不得不承认5个现实

詹姆斯首秀惊艳!湖人14分大胜,这一战!我不得不承认5个现实

篮球扫地僧
2025-11-19 15:24:51
重庆疾控提醒:流感感染风险持续升高 做好个人防护

重庆疾控提醒:流感感染风险持续升高 做好个人防护

上游新闻
2025-11-18 21:13:06
中国隐忍20年后,只用了9天时间,打赢了一场没有硝烟的战争​

中国隐忍20年后,只用了9天时间,打赢了一场没有硝烟的战争​

小莜读史
2025-10-25 23:22:10
李圣律师辩护词:现场无一人看清申某动作,诉状中四个字说明问题

李圣律师辩护词:现场无一人看清申某动作,诉状中四个字说明问题

阿纂看事
2025-11-18 22:25:07
比缅北更恐怖!曾经的旅游胜地,如今黄赌毒俱全,性交易随处可见

比缅北更恐怖!曾经的旅游胜地,如今黄赌毒俱全,性交易随处可见

不写散文诗
2025-10-24 15:59:52
1994年,父亲贷款买下北京二环的9套四合院,25年后开发商来拆迁

1994年,父亲贷款买下北京二环的9套四合院,25年后开发商来拆迁

如烟若梦
2025-11-17 18:10:03
男子坐长途卧铺车,对3名女孩轮番强暴,而几十名乘客竟冷漠围观

男子坐长途卧铺车,对3名女孩轮番强暴,而几十名乘客竟冷漠围观

路之意
2023-12-20 06:19:50
快报!快报日本突然宣布了

快报!快报日本突然宣布了

忠于法纪
2025-11-15 09:22:48
亚洲杯预选赛:0-1,人口第一大国队遭世界第183掀翻,5轮0胜垫底

亚洲杯预选赛:0-1,人口第一大国队遭世界第183掀翻,5轮0胜垫底

侧身凌空斩
2025-11-18 23:59:03
就在刚刚。
日本外相突然表态了。

就在刚刚。 日本外相突然表态了。

百态人间
2025-11-19 05:20:03
超市被偷到倒闭,女老板起诉合伙人案二审因法官为同一人延期,提交的审计材料也被弄丢

超市被偷到倒闭,女老板起诉合伙人案二审因法官为同一人延期,提交的审计材料也被弄丢

大风新闻
2025-11-18 11:34:09
国台办:已收到上万封举报邮件

国台办:已收到上万封举报邮件

新京报政事儿
2025-11-19 10:45:20
军队再强大,经济再富足,武器再尖端,没有伟大领袖,全都白瞎​

军队再强大,经济再富足,武器再尖端,没有伟大领袖,全都白瞎​

顾史
2025-11-18 20:21:52
301118,3分钟直线“20cm”涨停!涨价题材细分龙头出炉(名单)

301118,3分钟直线“20cm”涨停!涨价题材细分龙头出炉(名单)

数据宝
2025-11-19 12:24:26
贝尔湖的归属终于有了结果,厉经8年艰难谈判,我国拿回多少面积

贝尔湖的归属终于有了结果,厉经8年艰难谈判,我国拿回多少面积

大国纪录
2025-10-11 10:34:15
女神刘亦菲字迹

女神刘亦菲字迹

微微热评
2025-11-18 15:34:34
征服中年女人,无需套路:两颗真心,一生相守

征服中年女人,无需套路:两颗真心,一生相守

青苹果sht
2025-11-04 06:10:40
张博恒单杠失误瞬间一裁判鼓掌大笑遭质疑,官方回应:涉事裁判员终止比赛执裁资格

张博恒单杠失误瞬间一裁判鼓掌大笑遭质疑,官方回应:涉事裁判员终止比赛执裁资格

台州交通广播
2025-11-18 23:35:12
魔兽时光服:2个号同时排队,人数相差10倍,玩家质疑雷火开绿通

魔兽时光服:2个号同时排队,人数相差10倍,玩家质疑雷火开绿通

胖哥游戏说
2025-11-19 15:57:37
胡春华发表署名文章

胡春华发表署名文章

社评
2025-10-31 10:11:37
2025-11-19 17:36:49
新浪财经 incentive-icons
新浪财经
新浪财经是一家创建于1999年8月的财经平台
1428522文章数 4572关注度
往期回顾 全部

科技要闻

一夜封神,Gemini 3让谷歌找回“碾压感”

头条要闻

网红"橙子姐姐"被指在柬失联多日 柬方通报:其已被捕

头条要闻

网红"橙子姐姐"被指在柬失联多日 柬方通报:其已被捕

体育要闻

世界杯最小参赛国诞生!15万人岛国的奇迹

娱乐要闻

又反转!曝喻恩泰出轨美女律师

财经要闻

黄金税改两周,水贝低价神话终结?

汽车要闻

此刻价格不重要 第5代帝豪本身就是价值

态度原创

手机
时尚
房产
公开课
军事航空

手机要闻

苹果华为们持续加码!官翻手机越来越多,为何用户不买账?

陈嘉桦,不慌不忙的惊艳

房产要闻

29.4亿!海南“地王”片区,要卖超级宅地!

公开课

李玫瑾:为什么性格比能力更重要?

军事要闻

量大管饱 中国军网在海外发布备战视频

无障碍浏览 进入关怀版