网易首页 > 网易号 > 正文 申请入驻

弱智吧竟成最佳中文AI训练数据?!中科院等8项测试第一,远超知乎豆瓣小红书

0
分享至


本文转载自量子位 梦晨 西风 发自 凹非寺

离大谱了,弱智吧登上正经AI论文,还成了最好的中文训练数据??


具体来说,使用弱智吧数据训练的大模型,跑分超过百科、知乎、豆瓣、小红书等平台,甚至是研究团队精心挑选的数据集。

在问答、头脑风暴、分类、生成、总结、提取等8项测试中取得最高分


没错,论文中的Ruozhiba就是指百度贴吧弱智吧,一个充满荒谬、离奇、不合常理发言的中文社区,画风通常是这样的:


最离谱的是,弱智吧AI代码能力也超过了使用专业技术问答社区思否数据训练的AI,这下吧友自己都闹不明白了。


其他平台围观网友也纷纷蚌埠住。


这项研究来自中科院深圳先进技术研究院、中科院自动化研究所,滑铁卢大学等众多高校、研究机构联合团队。


作者之一也现身评论区,透露使用弱智吧数据训练AI属于灵机一动,以前只用来测试。


弱智吧数据究竟如何达成这一成就,具体到论文中看。

弱智发言成指令微调神器

这项研究起初为解决中文大模型训练中的诸多问题


  • 中文数据集很多是从英文翻译过来的,没有很好地契合中文的语言习惯和文化背景

  • 不少数据集是用AI生成的,质量难以保证,容易出现事实性错误

  • 即使是人工标注的数据集,也存在数据量小、覆盖领域不全面等问题


为了解决这些痛点,团队从中文互联网的各种知识源头直接收集数据,比如知乎、豆瓣、百科、小红书等,经过一系列严格的清洗和人工审核,打造成高质量、多样化的中文指令微调数据集COIG-CQIA

除了探索不同数据源的作用,团队还专门从中抽取出一个精华子集CQIA-Subset

在众多数据来源中,弱智吧成了最特别的一个。

由500个点赞最高的帖子标题+人工或GPT-4的回复组成指令微调数据集, 经过人工审核后,最终留下了240组指令-回复数据对。


分别用各种数据集训练零一万物Yi系列开源大模型,在BELLE-Eval测试集上使用GPT-4评分得到结果。

在规模较小的Yi-6B模型上,纯弱智吧版本总分排名第三,还不算太突出。‍

看来小模型还没能领悟弱智的精髓。


到了Yi-34B,弱智吧版本表现就一骑绝尘了。

只有在改写和数学任务上没能取得最高分,但成绩也比较靠前。


另外,在安全评估上弱智吧版本也能排上第二。


对于这类现象,研究人员在分析中也给出简单猜测:

可能是弱智吧问题增强了AI的逻辑推理能力,从而使指令遵循任务受益。


当然弱智吧并不是这项研究的全部,它的真正贡献在于为中文大模型开发提供了一个高质量的指令微调数据集COIG-CQIA。


通过对各种中文互联网数据源的探索,这项研究为构建中文指令数据集提供了很多有益的启示。比如社交媒体数据虽然开放多样,但也存在不少有害信息风险;而百科类数据专业性强,但覆盖面可能不够广。

弱智吧上大分

这项研究一发,网友集体笑不活。除了“XSWL、思路开阔了”婶儿的纯围观,也有网友认真讨论起了弱智吧有如此奇效的原因。

大伙儿都比较认可的一个原因是弱智吧题目的“异质”。

像脑筋急转弯,增加了指令多样性,所以提升了模型最终性能:


通用数据集多半已经在pretrain阶段见过了,再训一遍只会加重overfitting。


另一个原因是弱智吧数据文本质量很高,用词准确且简洁


千言万语汇成一句话:把弱智吧只当简单的段子合集真的是严重低估了它的价值!


雀食,要不此前弱智吧问题也经常被大伙儿用来测试大模型呢。

事实上从ChatGPT诞生之初,弱智吧就深度参与了大模型的发展,可以算是这一波AI浪潮的重要见证者了。‍

一开始只是网友拿来拷打AI,搞搞节目效果。


后来大家发现,弱智吧问题中充满陷阱,刚好可以用来分辨AI能力高低。

还记得23年初那会儿,各家大模型第一版还不太能很好应对这类问题,如2023年3月的文心一言:


后续版本也渐入佳境了,如2023年8月的文心一言:


直到今天,弱智吧问题都是每个新发布大模型都必须要过的一关,被戏称为弱智吧Benchmark。


秘塔写作猫


Inspo

再后来,AI公司们自己也开始重视起来,如百度官方就搞过联动直播。


当初网友为了调戏大模型专门搜集的弱智吧问题测试集,没想到有一天也能摇身一变,成了训练集。


思路确实是被打开了~


论文地址:
https://arxiv.org/abs/2403.18058

参考链接:
[1]https://x.com/9hills/status/1775358963724554410
[2]https://zhuanlan.zhihu.com/p/690640864
[3]https://tieba.baidu.com/p/8964992247

为积极响应国家“科教兴国,人才强国”战略、培养具有综合技能的数字型人才、推动教育数字化升级,在中国亚洲经济发展协会职业人才开发与管理委员会的指导下,北京综合赋能科学技术中心特举办“2024年大学生AI数字能力系列竞赛”。


竞赛报名

扫码下方二维码进入比赛官网

或点击大赛官网

https://www.saikr.com/vse/AI2024?ces=public

竞赛赛项

本次大赛分别设置:办公软件赛道、科普赛道、编程赛道、实操赛道。各赛道比赛方式、竞赛内容均有不同。

赛道分类:

办公软件赛道主要考察AI运用的能力,考试内容为通过训练AI,生成题目中的Word、PPT、Excel及图片。

科普赛道主要考察人工智能相关科普知识,考试形式为客观题答题。

编程赛道主要考察AI训练及基础编程语言的能力,包括C/C++、Python两种语言,考试形式为实操题。

实操赛道主要考察学生对于Windows系统及手机相关操作的能力,考试形式为客观题答题。

赛程安排

办公软件赛道赛程安排

报名时间:2024年2月4日—2024年4月5日

竞赛时间:2024年4月6日10:00—4月12日18:00

科普赛道赛程安排

报名时间:2024年2月4日—2024年4月26日

竞赛时间:2024年4月27日9:00—18:00

编程赛道赛程安排

报名时间:2024年2月4日—2024年4月30日

竞赛时间:2024年5月1日10:00—2024年5月11日18:00

实操赛道赛程安排

报名时间:2024年2月4日—2024年5月24日

竞赛时间:2024年5月25日9:00—18:00

奖项设置

学生奖项

(1)科普赛道、实操赛道竞赛奖项:

一等奖:竞赛成绩在90—100分;

二等奖:竞赛成绩在80—89分;

三等奖:竞赛成绩在70—79分;

优秀奖:竞赛成绩在60—69分。

(2)办公软件赛道、编程赛道竞赛奖项:

一等奖:不超过报名人的5%;

二等奖:不超过报名人数的15%;

三等奖:不超过报名人数的30%;

优秀奖:若干。

获得一、二、三等奖以及优秀奖均可获得获电子版和纸质版证书,其余未获奖但按要求参赛,遵守大赛规则,认真完成赛题均可获得电子版参赛证明,以兹鼓励。

教师荣誉

1.该赛事采取师生同奖原则,凡获得一、二、三等奖选手所填写的指导老师均可获得“优秀指导教师”电子版荣誉证书(一位学生最多填写一位老师)。

2.对本次赛事有宣传组织贡献,组织、指导10人及以上学生成功参与竞赛的老师,可获得“优秀指导教师”电子版和纸质版荣誉证书

集体荣誉

在学校范围内组织学生报名,参与赛事宣传组织工作,指导学生参赛,所有指导老师均可获得“优秀指导教师”纸质版证书,参与人数多时可获得“优秀组织单位”牌匾。

联系方式

负责人QQ:442390726(苏老师)

竞赛交流群:784713647

BONUS TIME

数学建模资料、视频讲解、历年赛题

后台回复 【校苑】领取


推荐阅读(点击下方图片即可跳转)


特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相关推荐
热点推荐
she完之后,丁丁为什么会疲软 ?

she完之后,丁丁为什么会疲软 ?

心的起点
2024-04-30 10:27:42
连丢两盘出局!纳达尔不敌捷克新星,无缘马德里大师赛八强

连丢两盘出局!纳达尔不敌捷克新星,无缘马德里大师赛八强

ALL体育
2024-05-01 06:10:41
新郎接亲车内对新娘说“亲一个”遭拒绝:晚上听你的,猴急什么

新郎接亲车内对新娘说“亲一个”遭拒绝:晚上听你的,猴急什么

科学发掘
2024-05-01 08:43:00
1993年,中俄列车遭暴徒洗劫强奸140个小时,邓公批示:跨国抓捕

1993年,中俄列车遭暴徒洗劫强奸140个小时,邓公批示:跨国抓捕

旧闻档案
2023-09-27 21:39:31
为什么女性的身材,尤其是胸部,会对男人构成吸引力呢?答案如下

为什么女性的身材,尤其是胸部,会对男人构成吸引力呢?答案如下

左与右心理
2024-04-30 10:12:28
清华教授王文湛发声说:凭什么拿我们纳税人的钱去供养留学生!

清华教授王文湛发声说:凭什么拿我们纳税人的钱去供养留学生!

夜宵说钱
2024-04-30 14:56:53
套路不灵了!耗资1亿,票房仅62万,五一档开心麻花新片最先出局

套路不灵了!耗资1亿,票房仅62万,五一档开心麻花新片最先出局

八卦王者
2024-04-30 16:08:25
被张雪峰劝退的“小语种”,毕业生怒怼:年收入20万难道不香吗?

被张雪峰劝退的“小语种”,毕业生怒怼:年收入20万难道不香吗?

妍妍教育日记
2024-04-30 07:50:35
4月30日俄乌最新:末日将军重新出山

4月30日俄乌最新:末日将军重新出山

西楼饮月
2024-04-30 15:00:03
富士康开始反击了?郭台铭正式宣布,外媒:要把锅端走了

富士康开始反击了?郭台铭正式宣布,外媒:要把锅端走了

疯狂小菠萝
2024-04-30 17:44:10
万科债券跌37%,港股跌超6%,A股跌近2%,谁在做空万科?

万科债券跌37%,港股跌超6%,A股跌近2%,谁在做空万科?

资本百科
2024-05-01 00:10:20
这仗打不下去了,北约说了实话,美国610亿援乌,其实是为了分赃

这仗打不下去了,北约说了实话,美国610亿援乌,其实是为了分赃

利刃号
2024-04-28 14:37:57
俄罗斯以外国间谍和恐怖主义罪名缺席逮捕前国际象棋世界冠军加里·卡斯帕罗夫

俄罗斯以外国间谍和恐怖主义罪名缺席逮捕前国际象棋世界冠军加里·卡斯帕罗夫

cnBeta.COM
2024-05-01 00:37:06
尼克-杨转发詹姆斯吓唬女球迷视频:GOAT

尼克-杨转发詹姆斯吓唬女球迷视频:GOAT

直播吧
2024-05-01 08:55:30
凯特王妃最新纪念照片:威廉发了13年前一张婚礼照片,画上句号

凯特王妃最新纪念照片:威廉发了13年前一张婚礼照片,画上句号

小寒嫣语
2024-04-30 11:16:25
部队转业14年,每次战友聚会要出2000,今年妻子替我拒绝,还退群

部队转业14年,每次战友聚会要出2000,今年妻子替我拒绝,还退群

肖寒先僧
2024-04-30 10:30:09
中共中央政治局:要灵活运用利率和存款准备金率等政策工具,加大对实体经济支持力度,降低社会综合融资成本

中共中央政治局:要灵活运用利率和存款准备金率等政策工具,加大对实体经济支持力度,降低社会综合融资成本

每日经济新闻
2024-04-30 19:09:12
神舟十七号落点精度有多高?4190米!精确控制落点究竟多难?

神舟十七号落点精度有多高?4190米!精确控制落点究竟多难?

火星一号
2024-04-30 20:54:40
弟弟夺得天下后让哥当皇帝,哥哥:果然是好弟弟,不久皇帝被毒死

弟弟夺得天下后让哥当皇帝,哥哥:果然是好弟弟,不久皇帝被毒死

否知的否
2024-04-29 17:37:11
经过我不断被喷之后发现,支持哈、伊、俄的大体应该是同一群人!

经过我不断被喷之后发现,支持哈、伊、俄的大体应该是同一群人!

翻开历史和现实
2024-04-27 15:59:22
2024-05-01 11:56:49
数学家
数学家
服务于数学建模爱好者的平台
3513文章数 1904关注度
往期回顾 全部

科技要闻

余承东卸任华为终端CEO 新任命为董事长

头条要闻

华为高颜值HR自称不是被劝退:职业规划和公司政策不符

头条要闻

华为高颜值HR自称不是被劝退:职业规划和公司政策不符

体育要闻

"意甲最佳"金玟哉 踢回了中超水平...

娱乐要闻

黄子韬被曝求婚徐艺洋 大量亲密照曝光

财经要闻

俞敏洪,踏足A股!

汽车要闻

预售2.89-3.49万 奔腾小马正式开启预售

态度原创

房产
时尚
教育
亲子
艺术

房产要闻

单价2万内,装标4200+,主城改善大盘无套路硬刚!

见过大世面的女人,不用“穿金戴银”,靠穿搭也能美得出挑

教育要闻

北京市小学数学竞赛题,求正方形边长,答对的寥寥无几

亲子要闻

爸爸为了安抚小朋友打针,吸引小朋友注意力

艺术要闻

用耳朵看展览?西岸美术馆最新特展关注声音艺术

无障碍浏览 进入关怀版