网易首页 > 网易号 > 正文 申请入驻

好像中文已死,只有弱智吧还在勇敢上坟

0
分享至

最近弱智吧又火了。

说它打败豆瓣、知乎、小红书成为最佳中文AI训练数据。

事情起始于arxiv上的一篇论文,文章里中科院想建立一个优质的中文AI数据集,为此就需要在中文互联网上搜集一些语料库。

于是他们就在知乎、豆瓣、小红书等平台上找找素材,再拿去训练大模型。

说起来简单,但不是什么素材都能用。

比如他们在弱智吧上找了500个点赞最高的帖子,然后用GPT-4回答这些帖子(弱智吧的帖子经常是问句形式)。

再把帖子和回答组合成一个指令微调数据集,经过人工筛选,留下了240组数据。

有了数据材料就可以去训练开源大模型,训练分8项测试,包括问答、头脑风暴、分类、生成、总结、提取等,最后用GPT-4给这些测试打分。

精华部分来了。

跑完规模较小的Yi-6B模型后,弱智吧版本的总分排第三。

(CQIA-Subset是从各个数据源里,

再次提炼出来的精华子集)

到了Yi-34B,弱智吧版本的表现遥遥领先;

小红书的语料价值则在社交媒体之间垫底了。

后来研究人员还做了安全评估,这方面弱智吧版本也名列前茅。

总的来说,弱智吧的中文数据价值很高。

网友见状一顿狂欢,谁说弱智吧里都是弱智的。

但弱智吧真赢了吗?

相比于小红书、知乎、豆瓣的上千组数据,弱智吧仅有240组数据,这是不是太少了?

而且,其他数据源用的数据都是本来就有的回答,由人类作出。

(即使小红书数据的回答部分,

看着像一键生成的,

也被标注为人类作出)

弱智吧的那组数据还是用GPT-4去回答、GPT-4来评分的,那这是不是有既当裁判又当运动员的嫌疑呢?

另外,整个事情也不像媒体报道的一样,是“弱智吧训练出了超强AI”,而是“借助弱智吧等的语料库对开源大模型进行微调”。

前者是举足轻重的意义,后者只是参与其中。

话说回来,虽然数据不太严谨,但是弱智吧的段子充满了逻辑陷阱和思维谬误,很适合用来测试大模型。

这正是弱智吧成立近二十年来矢志不渝在做的事:

边搞笑,边让人变得有智慧。

弱智吧已成为一个难以名状的语言宇宙。

首先,里面充斥着最基础的傻瓜问题。

只切一刀,如何把四个橘子分给四个小朋友? 孟德尔为什么要花几年去做实验研究而不是直接看生物书? 为什么每条隧道上面都压着一座山

虽说“陨石为啥总落在陨石坑”这类问题不值得深思,但你也只有不被这些问题晃倒才能入门深造。

其次是抖机灵。

古人有那么多封号,是不是说明古人很爱开外挂? 恐怖分子是由2个恐怖原子组成的,还是由1个恐原子和1个怖原子构成的? 高考满分才750,怎么才能考985? 既然快递要3天才到,为什么不提前3天发?

面对这些脑经急转弯,起初你会觉得尴尬,但多想一秒就能多一份冷幽默。不算什么坏事。

至于那些有头有尾的段子,字里行间流露出思维上的精准毒辣,它们带着欧亨利式结尾,注定让人爽得不可开交。

-狙击手车沉着冷静的击毙了最后一名人质 -使绑匪失去了所有谈判筹码

-我家4400头猪,丢了一头,请问去哪里找啊? -去4399找呀

-严重的恐高症害得我终生无法低头捡到钱 -我有洁癖每次拉完屎都不敢擦屁股

-朋友烧伤了,我王者荣耀有很多皮肤为什么不能移植给他? -因为朋友没买英雄

说得越来越有感觉了,体会到语言高潮了吧。

那这时候又怎么少得了黄色笑话呢。

吧主黄医师就曾是这方面的高手,他们在十多年前脑洞大开,编出各种段子,为的就是构建起弱智吧友好交流的氛围:

你可以无下限,但一定要够深刻。

什么举世皆浊我独清,任何众人皆醉我独醒,都抵不上我很黄很暴力地醒着。

所以,用病态视角去审视正常社会里不正常的一面,再合适不过了。不仅如此,看完之后你会觉得那些现实真刺激,那些段子真带劲。

接着一些对社会问题的针砭时弊呼之欲出。

“无头女尸拍大头贴竟被老板收钱惹民愤”

这是呼吁不要宰客。

“阳光洒在地上,到底是照亮了尘埃,还是隐入了尘埃?”

这是告诉我们很多电影没那么敏感。

别想多了的同时,也别想得太肤浅。

弱智吧里常常讨论性别议题。

很多吧友会站出来用浅显道理让人知道女性的不易。

弱智吧里也定期关注国际时政。

很多吧友科普知识段子,就是为了揭露国外的阴暗面。

谁说我们只讲无下限段子的,我们也关注宇宙起源、人性扭曲、道德沦丧,和世界和平。

吧友们只是在用另一种方式关心人类未来。

慢慢地,哲学味很浓的金句纷至沓来。

“怀念过去是不是在时间的长河里刻舟求剑”

最后为了升华主题,迎合时代精神,

许多段子主打一个劝人向善、活着就好。

这些帖子里不仅楼主发言犀利,评论区同样意味深长地讲着警世恒言,让人对世界失望悲伤的同时,产生一点点好感。

换言之,弱智吧里都是说最狠的话,讲最善的事。

看到这里你也就明白,这个吧里真没弱智,反而存在着被人忽视的生活达人和哲学大师。

他们对世界真相的揭露入木三分。

他们不像广告推荐里说得傻里傻气,急需治疗。

世界参差不齐,但对才华的识别向来一致。

他们的存在,表明弱智吧在与AI较量中,暂时领先半个身位。

一个不争的事实是:

现在各平台的语言越来越扁平和匮乏,深度复杂的逻辑越来越没人看了。

要不就是弹幕里粉圈互撕。

连古人都不放过。

要不就是生造缩写。

你惊呼yyds,我回复“蓅氺般の噯情”,咱们都有叛逆的青涩时光。

要不就是对飚表情包。

你没读懂是你out了,大叔不能怪你,因为年轻人扼住了互联网的咽喉。

要不就是阴阳怪气。

评论区里随意选一个表情符号,不打上“崩急乐孝典”等文字,都能提升嘲讽技能。

要不祖安人式骂街。

构建一个“以对方母亲为圆心、直系亲戚为半径、生殖器为主武器、意淫为主技能,配以伦理、两性、家畜、宠物、殡葬行业等领域的特有动词及名词”的脏话体系。

要不隔段时间刷“中式浪漫”。

前脚是“人不就活几个瞬间”,后脚是“咱俩一辈子幸福就完了”。

要不劣币驱逐良币。

“十二生肖过13.5年”本是由“姬霓太美”演化出来的段子,但现在手机浏览器里,前几条根本搜不到正确答案。

(切换到搜狗或360搜索,

首页里也是玩梗为主)

最后呢,为了造梗而造梗,而不是去生成鲜活的语言艺术。

以至于狂欢过后,带来的好像只是一场场黑话盛会。

此时此刻,弱智吧这种看似弱智,其实蕴含哲理的思考,非常难能可贵。

没有连篇客套话,不需要付出巨大理解成本,最后也不出现卖课广告,有的就是三言两语告诉你世间一些残酷真相。

可能嘴臭,或许悲观,但比惺惺作态好很多。

更何况,人家骂人骂得如此搞笑,很有技术难度;更何况,人家也兢兢业业写着中文字。

希望以后关于世界的深度思考,不要只能装成是精神病人的呓语才好。

为此,我们最后附上去年下半年的弱智吧精选内容。

篇幅有限,选了45条,大家也可以练一练自己的思维。

(图源:弱智吧日常)

(图源:弱智吧日常)

(图源:弱智吧日常)

特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相关推荐
热点推荐
一分钱不要,也得让你长记性!业主车位被霸占10天,奥迪车大变脸

一分钱不要,也得让你长记性!业主车位被霸占10天,奥迪车大变脸

火山詩话
2026-03-29 17:05:43
东风导弹泄密案!间谍郭万钧一家三口,全部被处以死刑

东风导弹泄密案!间谍郭万钧一家三口,全部被处以死刑

谈史论天地
2026-03-29 16:10:03
纽约机场一副手铐,如何震碎了神秘富豪的3000亿“假央企”

纽约机场一副手铐,如何震碎了神秘富豪的3000亿“假央企”

一号位故事
2026-03-29 07:47:30
张雪峰的灵车细节让人泪奔,车尾挂着一棵竹子,上面系着他的衣服

张雪峰的灵车细节让人泪奔,车尾挂着一棵竹子,上面系着他的衣服

魔都姐姐杂谈
2026-03-28 18:18:48
歼20总设计师被除名:顶头上司受贿7亿判死缓,事发全过程被还原

歼20总设计师被除名:顶头上司受贿7亿判死缓,事发全过程被还原

博士观察
2026-03-28 21:02:35
155亿赔偿落地!澳洲认赔止损,巴拿马震动,全球投资规则再警示

155亿赔偿落地!澳洲认赔止损,巴拿马震动,全球投资规则再警示

世界圈
2026-03-29 02:40:03
春天买鱼,这3种鱼全是野生海鱼,不能人工养殖,肉质鲜嫩营养高

春天买鱼,这3种鱼全是野生海鱼,不能人工养殖,肉质鲜嫩营养高

阿龙美食记
2026-03-27 16:09:42
42岁男子长期被职场PUA抱住医生大哭,称一到公司门口就开始心慌,医生:他把领导的评价,当成对自己全部价值的判断

42岁男子长期被职场PUA抱住医生大哭,称一到公司门口就开始心慌,医生:他把领导的评价,当成对自己全部价值的判断

大风新闻
2026-03-28 21:28:03
万科开启反腐大风暴

万科开启反腐大风暴

地产微资讯
2026-03-29 17:13:03
Deepseek现在怎么没声音了,梁文峰的低调错失了宝贵的发展时机?

Deepseek现在怎么没声音了,梁文峰的低调错失了宝贵的发展时机?

上林院
2026-03-29 10:30:20
跑完马拉松!杭州45岁老板心梗离世:妻子说“再来一万次也嫁他”

跑完马拉松!杭州45岁老板心梗离世:妻子说“再来一万次也嫁他”

社会日日鲜
2026-03-29 10:43:38
张雪峰遗体转运画面流出!前妻和现任妻子现身,下属向遗像三叩首

张雪峰遗体转运画面流出!前妻和现任妻子现身,下属向遗像三叩首

博士观察
2026-03-29 11:52:26
沙特油轮绕开霍尔木兹抵达日本:世界油阀,被一脚踹开了!

沙特油轮绕开霍尔木兹抵达日本:世界油阀,被一脚踹开了!

老马拉车莫少装
2026-03-29 11:19:25
两种葬礼,两种人生,张雪峰和李咏的后事安排,差距真是一目了然

两种葬礼,两种人生,张雪峰和李咏的后事安排,差距真是一目了然

离离言几许
2026-03-28 16:40:22
第一批受害者已出现!多人跟风!紧急提醒:千万别碰、别吃!

第一批受害者已出现!多人跟风!紧急提醒:千万别碰、别吃!

林子说事
2026-03-29 14:53:01
享界汽车就“S9‘麋鹿测试’视频”发布声明:经核实,相关测试存在恶意、刻意操控行为,已固定相关证据,并对涉嫌机构及账号采取维权行动

享界汽车就“S9‘麋鹿测试’视频”发布声明:经核实,相关测试存在恶意、刻意操控行为,已固定相关证据,并对涉嫌机构及账号采取维权行动

潇湘晨报
2026-03-29 14:11:09
太心酸!甘肃一31岁女生连续考编8年失败,找份1800元工作继续考

太心酸!甘肃一31岁女生连续考编8年失败,找份1800元工作继续考

火山詩话
2026-03-29 16:13:48
大清都亡了一百多年了,还有航司在让飞行员写检讨

大清都亡了一百多年了,还有航司在让飞行员写检讨

民航大脑壳
2026-03-28 08:05:43
辟谣辟谣!广州供电局“疯狂”辟谣!

辟谣辟谣!广州供电局“疯狂”辟谣!

新快报新闻
2026-03-29 16:34:02
马卢阿奇12分9篮板!首轮秀仅杨瀚森未得分上双

马卢阿奇12分9篮板!首轮秀仅杨瀚森未得分上双

体坛周报
2026-03-29 14:32:16
2026-03-29 20:11:00
雷斯林 incentive-icons
雷斯林
一个输出价值观的账号
2546文章数 41034关注度
往期回顾 全部

科技要闻

马斯克承认xAI"建错了",11位创始人均离职

头条要闻

中国警告美国:勿将"冲突战乱"引入亚太地区

头条要闻

中国警告美国:勿将"冲突战乱"引入亚太地区

体育要闻

绝杀卫冕冠军后,他单手指天把胜利献给父亲

娱乐要闻

张凌赫事件持续升级!官方点名怒批

财经要闻

Kimi、Minimax 们的算力荒

汽车要闻

岚图泰山X8配置曝光 四激光雷达/华为新一代座舱

态度原创

数码
教育
旅游
亲子
游戏

数码要闻

用户称M5 Max MacBook Pro在运行AI工作负载时固态硬盘温度失控

教育要闻

1分钟学会不规则图形的面积计算方法!

旅游要闻

【赏樱气象指数】3月30日3级 繁艳稍减×别有韵致

亲子要闻

宝蓝和爸爸叔叔挑战盲选三种颜色做彩泥,看看谁做的彩泥更漂亮!

PS5 Pro涨价前最狠优惠来了!换购只要两千多

无障碍浏览 进入关怀版