网易首页 > 网易号 > 正文 申请入驻

有研究证实,阿里通义千问2.5训练数据被污染,原形毕露了。。。

0
分享至

关注飞总聊IT,了解IT行业的方方面面。

今天看到一篇文章,非常的有意思,说的就是阿里的通义千问。

大模型领域,关于大模型到底是不是能推理,还是纯粹的记住了答案然后背出来,一直都有一些不同的观点。

通义千问这个大模型很有意思,之前有一些论文用强化学习通义千问的大模型,比如DeepSeek就干过。

一些研究人员发现,在强化学习里面,对通义千问的大模型,哪怕给予非常弱,甚至是很随机的奖励,通义千问的数学推理能力都蹭蹭蹭的上涨。

这个研究,如果把大模型换成Llama,那么结果就不行了。

有些研究人员觉得,这是因为Llama这个基础模型太拉胯了,强化学习也拯救不了。通义千问就不一样了。

然而,最新的精心构建的册数发现,对于已经有的测试集,比如说MATH-500,通义千问可以非常轻松的把整个题一字不差的补全,只要开始给一点点题目。这个准确率超过了50%。

而Llama 3系列的模型准确率却只有不到4%。

但是一旦把测试集换成了比通义千问模型发布更晚的测试集,通义千问补全题干的能力立刻下降到了约等于0%。这就和Llama没什么区别了。

所以显而易见,通义千问的训练里面,数据污染,应该是跑不掉了。

文章作者还测试了各种随机算术题。然后,通义千问的表现就很不一样了。

正确的奖励信号,的确可以提升模型的推理能力。而错误或者随机的奖励信号,训练和Llama一样,立刻垮掉。

所以其实并不存在着Llama的基础模型太差,而通义千问的基础模型比较好,所以哪怕只是随机或者错误的奖励信号,也能提高基础模型的推理能力。

有的只是,模型的训练数据不知道怎么就污染了模型,所以模型变成了针对特定测试集的背答案。

文章是:Reasoning or Memorization? Unreliable Results of Reinforcement Learning Due to Data Contamination。

具体文章地址在: https://arxiv.org/abs/2507.10532

我肯定不是大模型领域的专家,看起这方面的文章来,也觉得吃力。

但是我觉得,这很有意思。毕竟之前我写过一篇文章:

文章里面讲述了阿里巴巴的董事会主席蔡崇信在接受 挪威银行投资管理公司的播客采访的时候讲的一段真实的经历,具体如下:

今年初,DeepSeek发布。DeepSeek以其低成本,高性能的AI模型,让阿里巴巴做通义千问的工程师们感受到了巨大压力。

阿里工程师们看了论文以后表示,明明大家做同一件事情,怎么阿里巴巴居然落后了。

于是阿里巴巴的工程主管,立刻做了一个决定,要求取消春节假期,所有人都留在公司,睡在办公室里。加快研发进度。

几个星期以后,阿里巴巴发布了自己的通义千问新模型,竞争力不错。

想象一下,如果你是通义千问团队的一个研发牛马,你事实上面临着从最高层到各种研发主管的时时刻刻多大的压力。

春节都不让过,必须加班,睡在公司里。

在高压环境下做研发大模型这种最尖端的科技,我想Llama 4的拉胯,已经说明了,这么做既不现实也不可持续。

所以,如果说通义千问模型的数据确实被污染了,到底是什么原因导致的呢?

我盲猜,阿里巴巴的领导管理层从最高层下来一路层层加码给的压力,需要为这种事情负责。

至于蔡崇信能够公开自信的把这种春节让员工加班,睡办公室的经历毫无顾忌的讲出来,这本身就说明了,去这家公司做牛马,真的是比做牛做马还要做牛做马,而公司领导不以为耻,还引以为荣。

真不知道这是一种什么样的工作环境,什么样的企业文化。

推荐飞总知识星球,在私域场合里畅所欲言,聊聊职场发展的事情,和飞总提问交流,这么低的价格不会一直保留,机会难得,一定不要错过这个的机会。

.5

特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相关推荐
热点推荐
购置税减半先勒死了5万元小车,这是场“劫贫济富”的产业转向

购置税减半先勒死了5万元小车,这是场“劫贫济富”的产业转向

媛来这样
2026-05-13 09:59:20
古代的“舂刑”到底多折磨人?女子最怕的刑罚,比挨打还痛苦

古代的“舂刑”到底多折磨人?女子最怕的刑罚,比挨打还痛苦

千秋文化
2026-02-01 20:27:39
《歌手2026》终版确认:首发9位歌手,2位国际,刘宪华缺席

《歌手2026》终版确认:首发9位歌手,2位国际,刘宪华缺席

音乐钢琴娱乐咖
2026-05-14 11:55:06
广东一男子伪造学历同时入职5家企业领高薪,还虚构购销合同混业绩,被判刑

广东一男子伪造学历同时入职5家企业领高薪,还虚构购销合同混业绩,被判刑

极目新闻
2026-05-14 09:58:58
马克龙遭妻子掌掴“真实原因”曝光:向伊朗女演员发“露骨短信”

马克龙遭妻子掌掴“真实原因”曝光:向伊朗女演员发“露骨短信”

阿晪美食
2026-05-14 12:17:25
孙浩出道36年,跟了张嘉益20年,开机必到为何?

孙浩出道36年,跟了张嘉益20年,开机必到为何?

科学发掘
2026-05-14 13:20:32
哈登今年两战天王山轰53分17板11助创多项神迹:历史首人+超老詹

哈登今年两战天王山轰53分17板11助创多项神迹:历史首人+超老詹

Emily说个球
2026-05-14 12:07:07
两次嫁给梁靖崑,退圈安心照顾两个儿子,如今丈夫成为大学教授

两次嫁给梁靖崑,退圈安心照顾两个儿子,如今丈夫成为大学教授

往史过眼云烟
2026-05-12 22:04:20
英媒:阿隆索妻子曾是酒店前台,克劳奇对此不知情还想追她

英媒:阿隆索妻子曾是酒店前台,克劳奇对此不知情还想追她

懂球帝
2026-05-14 08:38:10
惊险!深圳街头惊现巨蟒盘踞马路正中吓坏路人

惊险!深圳街头惊现巨蟒盘踞马路正中吓坏路人

看看新闻Knews
2026-05-14 12:28:05
四位在季后赛把自己身价打没的球星!申京合同溢价,杜伦失去顶薪

四位在季后赛把自己身价打没的球星!申京合同溢价,杜伦失去顶薪

梅亭谈
2026-05-14 13:50:17
闪婚闪离 千万房产该怎么分?法院判了

闪婚闪离 千万房产该怎么分?法院判了

北青网-北京青年报
2026-05-13 15:12:10
警惕基本盘正在被污名化,成为被嘲讽的对象?

警惕基本盘正在被污名化,成为被嘲讽的对象?

黯泉
2026-05-14 12:13:00
梅西帽戏被剥夺,独造5球真球王!球迷:梅西不在乎多进少进一球

梅西帽戏被剥夺,独造5球真球王!球迷:梅西不在乎多进少进一球

老霍聊球
2026-05-14 13:33:03
我国最大的“乌龙事件”:耗资3亿建发电厂,却整出来一个牧场!

我国最大的“乌龙事件”:耗资3亿建发电厂,却整出来一个牧场!

浩渺青史
2026-05-04 14:16:15
中美之争将落幕?现实比想象残酷:美国并非输了,是下不了牌桌了

中美之争将落幕?现实比想象残酷:美国并非输了,是下不了牌桌了

观史搜寻着
2026-05-14 09:06:50
骑士3-2活塞!米切尔直言不讳,坎宁安谈裁判认清现实,哈登摊牌

骑士3-2活塞!米切尔直言不讳,坎宁安谈裁判认清现实,哈登摊牌

鱼崖大话篮球
2026-05-14 13:04:06
港独、骂中国人,如今却还想来内地捞金,这3位香港明星令人作呕

港独、骂中国人,如今却还想来内地捞金,这3位香港明星令人作呕

傲傲讲历史
2026-04-19 01:20:08
5月14日,广东队传来3大消息:徐杰表态 萨林杰想降薪 奖金正常发

5月14日,广东队传来3大消息:徐杰表态 萨林杰想降薪 奖金正常发

锅锅爱历史
2026-05-14 14:09:35
西安电子科技大学某导师“官宣跑路”:个人主页三连喊“我跑了”,校方连夜下架信息引热议

西安电子科技大学某导师“官宣跑路”:个人主页三连喊“我跑了”,校方连夜下架信息引热议

二宝妈妈谈教育
2026-05-14 10:44:06
2026-05-14 15:32:49
飞总聊IT incentive-icons
飞总聊IT
互联网技术与商业分析
2552文章数 15390关注度
往期回顾 全部

科技要闻

马斯克说会谈很顺利 黄仁勋点赞 库克比耶

头条要闻

媒体:中美元首会晤 世界吃下一颗“定心丸”

头条要闻

媒体:中美元首会晤 世界吃下一颗“定心丸”

体育要闻

登海报!哈登30+8+6创多项纪录 第8次赢天王山

娱乐要闻

肖战提名金海燕奖,这一步走得太稳

财经要闻

习近平同美国总统特朗普会谈

汽车要闻

C级纯电轿跑 吉利银河"TT"申报图来了

态度原创

数码
艺术
家居
亲子
健康

数码要闻

PCIe 5.0固态硬盘仅在少数场景下有提升 不包括游戏

艺术要闻

充满光感的花卉油画 | 亚历山大·沙巴德伊

家居要闻

精神奢享 对话塔尖需求

亲子要闻

爸爸在家给宝宝理发,套上袋子的瞬间,我差点问候他祖宗!

干细胞能让人“返老还童”吗

无障碍浏览 进入关怀版