网易首页 > 网易号 > 正文 申请入驻

没想到吧,中文互联网上最好的大模型语料库是:弱智吧

0
分享至

作者 | 苗正
邮箱 | miaozheng@pingwest.com

如果让你在互联网上给大模型选一本中文教材,你会去哪里取材?是知乎,是豆瓣,还是微博?一个研究团队为了构建高质量的中文指令微调数据集,对这些社交媒体进行了测试,想找到训练大模型最好的中文预料,结果答案保证让你大跌眼镜——

弱智吧。

弱智吧是百度贴吧上的一个子版块,这是一个非常神奇的地方,吧友们热衷于创作和分享一语双关、一词多义、因果倒置、谐音梗等带着逻辑陷阱的内容,而且部分帖子甚至带有一定的哲学意味。但是,拿这些东西训练全知全能伟大的大模型?能行吗。

别急,我们先来看看这个研究团队做了什么实验。

这是一篇题为《COIG-CQIA: Quality is All You Need for Chinese Instruction Fine-tuning》的论文,作者来自多个国内外高校,简单来说,他们提出了一个中文指令微调数据集COIG-CQIA(全称为Chinese Open Instruction Generalist-Quality Is All You Need )。

对于中文大模型开发者来说,目前的一个重点挑战就在于没有一个高质量中文数据集,研究团队认为,各种中文社交媒体、论坛对于大模型的训练应该是很好的语料来源。

于是为了给这个数据集取材,他们从不同的社交平台(如问答社区、维基百科、考试材料、已有的 NLP 数据集等)收集了高质量的人工编写的文本集合,这些文本经过严格筛选和细致处理,最终才构建出了这个数据集。

论文称,这个数据集的目的是构建一个多样化、广泛的服务于中文大模型的指令调优数据集,以更好地使模型行为在中文环境下与人类互动相一致,提高指令响应的能力。

这里也科普一个概念,那就是大模型虽然有强大的知识储备,但是它是为解决通用自然语言处理任务而设计的,因此没有办法处理特定问题。此时,就需要对其进行“微调”,来让其输出结果符合特定问题的预期。而指令微调就是说明确了模型应执行的任务类型、输入要求、输出格式等具体细节情况下,再给出正确的结果。比如我用中文提问,并要求模型用西班牙语回答,那么模型的开发者为了满足我后半句话的要求,就得对模型进行指令微调。

这时就需要一个“指令微调数据集”。这类数据集通常包含大量的“指令-输出”对,其中每个对包括一个明确的指令(instruction),即用户希望模型执行的任务说明,以及与之对应的理想输出(output),即模型在接收到该指令后应当生成或执行的结果。

COIG-CQIA就是这样一个数据集。研究团队首先是对数据集进行了严格的筛选和清洗,确保数据集是比较健康的。具体做法是根据预设的筛选标准,去除无关或低质量的文本。这可能包括删除广告、无意义的灌水内容、含有敏感信息或违反社区规则的帖子等。

之后,团队还做了人工干预:对处理后的文本进行人工审核,确保其内容正确无误,符合预期的语义和知识标准,同时也确保数据集与真实的中文用户交互模式相一致。尤其是在一些诸如弱智吧语录这样深层隐喻比较强,模型基本没办法完全理解采集到的段子的含义,那就需要进行人工标注,提供明确的指令-输出示例,为模型微调提供精确的训练信号。

在做完了整理工作后,研究团队使用COIG-CQIA数据集对多个开源中文大模型做了微调。

而为了评估这些不同来源的数据质量,团队分别用不同的社交网站的数据微调了同一个模型,并做了测试。

在论文展示的对微调后的Yi系列模型的评估表现中,神奇的一幕出现。

在Yi-6B的性能对比中,在多个比分中(开放式问答,头脑风暴,分类问题,生成问题,封闭式问答和编程),用弱智吧的数据训练的模型表现在多个分类中表现是最好的。

而对微调后的Yi-34B的评测中,基于弱智吧数据训练出来的表现,更是直接拿了几乎全部领域的第一,综合评分遥遥领先。

除了性能外,COIG-CQIA还对其安全性能进行测试了,使用的是开源评估框架SafetyBench。可以看到,CQIA-Sub-6B的SafetyBench高达81.7,比GPT 3.5的SafetyBench还高。这么高的评分代表COIG-CQIA能够准确识别风险,并区分出含有有害信息、潜在违规内容、隐私敏感信息、误导性建议等不安全选项,选择出最符合安全原则的答案。换句话说,其具备一定的商业化潜力。

而其中,弱智吧的表现又亮了。超过了GPT3.5 。

论文里也对此感到惊讶,作者尝试做了分析:“有意思的是,弱智吧数据集在多个子集上的平均排名中最终位居第二,我们认为这可能是因为弱智吧的数据特性有助于增强模型的逻辑推理能力,从而在大多数遵循指令的任务中表现出色。”

在看完这篇论文后,我又去弱智吧看了看这些天才般的语料,这是有人整理的一部分弱智吧经典语录:


  • 玉皇大帝住的是平流层()还是对流层?

  • 导盲犬禁止入内,是给盲人看的,还是给导盲犬看的?

  • 空腹能吃饭吗?

  • 变形金刚买保险是买车险还是人险?

  • 我买了一斤藕,为什么半斤都是空的?

  • 雷公电母放的是直流电还是交流电?

  • 每天吃一粒感冒药,还会感冒吗?

  • 请问孕妇打人算群殴吗?

  • 去自首的路上被抓了还算自首吗?

  • 吃止痛药去打架,算开挂吗?

  • 被门夹过的核桃,还能补脑吗?


考虑到大模型最欠缺的就是逻辑能力,看来这些更像脑筋急转弯的问答确实是大语言模型的好语料。

而在弱智吧最近的首页上,一个排名靠前的帖子也很应景:

“什么工作都可能会被人工智能取代,但弱智不会。”

真的,有道理呢。

特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相关推荐
热点推荐
中信银行上海审计中心总经理姜雨林接受审查调查

中信银行上海审计中心总经理姜雨林接受审查调查

界面新闻
2026-02-02 17:03:56
马斯克罕见牵手39岁印度裔伴侣,赴海湖庄园婚宴,女高管已生四娃

马斯克罕见牵手39岁印度裔伴侣,赴海湖庄园婚宴,女高管已生四娃

译言
2026-02-02 05:34:02
“100克黄金当成垃圾扔了,10万元呀”,上海女子急哭!查监控发现:被一个模糊的身影捡走了……

“100克黄金当成垃圾扔了,10万元呀”,上海女子急哭!查监控发现:被一个模糊的身影捡走了……

黄河新闻网吕梁频道
2026-02-02 14:33:55
曾与爱泼斯坦讨论“上岛”?马斯克最新回应,并暗示克林顿、比尔·盖茨等人“有罪”

曾与爱泼斯坦讨论“上岛”?马斯克最新回应,并暗示克林顿、比尔·盖茨等人“有罪”

环球网资讯
2026-02-02 10:14:13
众星在大S雕像前拍照,小S双手合十感谢外界,悼念致辞全场哽咽

众星在大S雕像前拍照,小S双手合十感谢外界,悼念致辞全场哽咽

萌神木木
2026-02-02 15:28:15
临近春节43岁姚笛突传喜讯,和文章做出相同决定,终是马伊琍输了

临近春节43岁姚笛突传喜讯,和文章做出相同决定,终是马伊琍输了

以茶带书
2026-02-02 15:04:14
海瑞奇怪的升迁之路:同僚恨他,又不敢弄死他,干脆花钱帮他升官

海瑞奇怪的升迁之路:同僚恨他,又不敢弄死他,干脆花钱帮他升官

掠影后有感
2026-02-01 11:22:45
现货黄金跌破4500美元/盎司

现货黄金跌破4500美元/盎司

界面新闻
2026-02-02 13:54:53
实探北京菜百:回购柜台排队两小时,有人一次卖出212万元金条

实探北京菜百:回购柜台排队两小时,有人一次卖出212万元金条

中新经纬
2026-02-02 18:46:15
美智库:俄军伤亡竟然大幅下降!北约终于发现:为何打不赢俄罗斯

美智库:俄军伤亡竟然大幅下降!北约终于发现:为何打不赢俄罗斯

混沌录
2026-01-31 16:29:05
涉嫌严重违纪违法,吴晓轮被查!

涉嫌严重违纪违法,吴晓轮被查!

中国基金报
2026-02-02 19:13:42
京东001号快递员已退休,勤恳工作16年,刘强东承诺的房给了吗?

京东001号快递员已退休,勤恳工作16年,刘强东承诺的房给了吗?

阿纂看事
2025-12-10 15:38:14
闫学晶儿子顶替新疆李展旭?李展旭发声,曝“猫腻” 又添一迷雾

闫学晶儿子顶替新疆李展旭?李展旭发声,曝“猫腻” 又添一迷雾

李健政观察
2026-02-02 13:35:10
委内瑞拉向美国供应石油,加拿大这才发现,自己是最大受害者

委内瑞拉向美国供应石油,加拿大这才发现,自己是最大受害者

碳基生物关怀组织
2026-01-18 22:55:02
岳母大寿说女婿不能上主桌,我默默去公司加班,次日老婆66个来电

岳母大寿说女婿不能上主桌,我默默去公司加班,次日老婆66个来电

奶茶麦子
2026-02-02 11:29:05
郑丽文再发声:大陆是我们的亲人

郑丽文再发声:大陆是我们的亲人

扬子晚报
2026-02-02 16:46:11
画面曝光!攻击-21正式登上076四川舰:中国在未来海上作战体系建设上,首次占得先机!

画面曝光!攻击-21正式登上076四川舰:中国在未来海上作战体系建设上,首次占得先机!

军武速递
2026-02-01 18:11:29
黑色星期一!见证历史!

黑色星期一!见证历史!

中国基金报
2026-02-02 15:27:51
受贿1.37亿余元,江西省政协原党组书记唐一军一审被判无期

受贿1.37亿余元,江西省政协原党组书记唐一军一审被判无期

界面新闻
2026-02-02 17:01:52
2026福布斯中国富豪榜大洗牌:4人上桌、3人下桌,雷军让人太意外

2026福布斯中国富豪榜大洗牌:4人上桌、3人下桌,雷军让人太意外

以茶带书
2026-02-02 17:04:45
2026-02-02 20:04:49
硅星人 incentive-icons
硅星人
硅(Si)是创造未来的基础,欢迎来到这个星球。
2836文章数 10435关注度
往期回顾 全部

科技要闻

阿里筑墙,腾讯寄生,字节偷家

头条要闻

捧红王菲、那英的袁惟仁走了 曾被陶晶莹公开调侃

头条要闻

捧红王菲、那英的袁惟仁走了 曾被陶晶莹公开调侃

体育要闻

澳网男单决赛,属于阿尔卡拉斯的加冕仪式

娱乐要闻

57岁音乐人袁惟仁去世,家属发文悼念

财经要闻

金银暴跌 全球股市遭遇“黑色星期一”

汽车要闻

雷克萨斯LC500将于今年底停产 "最美雷克萨斯"谢幕

态度原创

健康
亲子
房产
公开课
军事航空

耳石症分类型,症状大不同

亲子要闻

萌娃和爸爸抢妈妈,逻辑太强了,让爸爸无奈苦笑

房产要闻

狂卖1548亿后,海南又上演疯狂抢地!

公开课

李玫瑾:为什么性格比能力更重要?

军事要闻

委内瑞拉外长会见美外交使团团长

无障碍浏览 进入关怀版