网易首页 > 网易号 > 正文 申请入驻

OpenAI用“贴吧”语料喂ChatGPT,网友表示非常嫌弃,研究人员:年少不知“贴吧”好

0
分享至

文|陈斯达

编辑|李然

“美国贴吧”要把自家数据喂给ChatGPT了。

5月17日,据官方消息,Reddit 已与 OpenAI 达成协议,允许其使用自家内容训练聊天机器人及其他产品。合作宣布后,Reddit股价在盘后交易中上涨11%。


图源:X

合作的互利共赢,OpenAI在官网中有所介绍:

  • OpenAI能用上Reddit的实时内容:自家AI 工具由此能够更好地理解和展示 Reddit 上最新话题的内容,因为OpenAI可访问得Reddit数据 API,将提供实时的、结构化的、独特的内容。
  • Reddit能用上OpenAI的AI技术:Reddit 将建立在 OpenAI 的 AI模型平台上,将使Reddit为redditor和 mod带AI驱动的全新功能。
  • 最后,OpenAI将成为Reddit的广告合作伙伴。

OpenAI的首席执行官Sam Altman持有Reddit 8.7%的股份,此前还是Reddit的董事会成员。所以OpenAI为了避嫌,强调此次合作是“由OpenAI的首席运营官(Brad Lightcap)领导”,并“由(OpenAI)独立董事会批准”。Altman作为OpenAI董事会成员,据TechCrunch,本人在此次决定上采取回避姿态。

此次合作的梗图诞生:Altman这一出,属于是左手倒右手,一看都是自家人。


图源:Reddit

我想知道这次合作具体怎么谈成的。

很多网友似乎不太理解Reddit内容对于大模型的价值,纷纷表示Reddit会让ChatGPT变得“不干净”。

熟悉“贴吧”内容调性的网友们马上炸开了锅,有人马上弃坑:Claude不比你GPT香?


图源:X

大本营Reddit平台上的悲观发言:把各位贴吧老哥的发言喂给大模型,AGI的进展立马倒退四年:


图源:Reddit

OpenAI的模型要用贴吧上科技板块的数据训练,看来对AGI的预测要推后四年。

有人也不明白了:Reddit至于那么差吗?


图源:Reddit

只有我比较开心?Reddit上有用的内容也不少,如果能用AI查询,岂不美哉?

殊不知,前有论文证明“弱智吧”内容才是AI中文语料质量的高地,这波属于是网友信不过OpenAI技术大拿们的眼光了。


图源:论文

用平台数据拓宽收入渠道,曾遭大规模抵制

成立于2005年的Reddit,于2024年3月上市,目前并不盈利。据其最新介绍,Reddit日活跃用户为8270万。据Techcrunch,Reddit的平台帖子超10亿个,评论数超160亿条,用户生成的内容每天还在增长。平台也可以被看做AI公司训练模型的“金矿”。

此次合作也说明,Reddit依然在尝试不同业务,不希望过于依赖于广告收入。

OpenAI、谷歌等公司将Reddit的数据用于自家模型训练后,Reddit不甘“白嫖”,2023年6月,Reddit宣布将对开发人员访问其API收取高额费用。其对每5000万个API请求收取12000 美元的费用,在业内定价已经很高。

大树底下不能乘凉了。靠着Reddit发家的各种第三方应用及个人开发者没法挣钱,Reddit社区自此开启一场声势浩大的抗议。在海量用户的自发组织下,在6月12日开始瘫痪。超过8000个版块(类似于微博、贴吧的不同话题)都被版主设置成了“私人版块”,其他用户无法访问。


来源:The Verge

这场利益没有对齐的抗议很快又被自发终结。仅仅过了两天,大部分版块恢复运营。用户找不到平替之前,还得接着用Reddit。

Reddit官方下场“反白嫖”的最终目的很快落地——用平台内容向大模型公司收费。

2024年3月上市前,Reddit与谷歌母公司Alphabet还达成每年价值约6000万美元的交易,允许自家内容用于谷歌模型的训练。5月早些时候,Reddit公布的首份季报中,收入超过分析师预期。这表明,Reddit与谷歌的交易及其推动广告业务增长的努力,正在得到回报。


来源:路透社

为什么各家大模型公司都在抢着给Reddit送钱,真的找不到更好的语料吗?

数据“掘金”的终点,难道是贴吧?

OpenAI掌门人Altman最近在播客中提到,模型未来的进步,不应该依赖数据。但就目前阶段来说,数据仍然是当下各大玩家的必争资源。

根据大模型的尺度法则,即便模型参数和算力都不断提高,但是数据量和质量如果停滞不前,模型的性能也很难持续进步(见智能涌现文章,大模型闹“数据饥荒”,科技巨头进入灰色地带)。

3月在英伟达GTC大会上,黄仁勋对话Transformer七子时也有观点认为:高质量的模型需要的其实是高质量的数据,一味堆量是不够的。

外国网友还在担心,把过于负面的Reddit“贴吧语料”喂给AI会不会适得其反;中文互联网上,最好的大模型语料库真的就是贴吧——弱智吧。

这个结论来自三月底发布的一篇论文。研究团队发现,大语言模型目前能理解、执行复杂指令,回答也能做到准确流利。然而这些进步基本都发生在英语世界,中文大模型的若要进步,就需要基于独特的语言特征和文化深度,找到合适的数据集。


图源:论文

研究看中了各类中文社交媒体、论坛的语料质量。论文不仅打造了中文指令微调数据集COIG-CQIA,还为后续从中文互联网选择训练数据提供了参考。

论文作者从微博,知乎,豆瓣,小红书等主流的社区论坛中抽取了大量的语料进行综合,提出了COIG-CQIA数据集。而在这个过程当中,研究人员对这些社交平台上的语料进行了一个排名。

经过比较,弱智吧数据集在多个子集上的平均排名中最终位居第二。


图源:论文

弱智吧的内容有那么神?有网友整理过弱智吧的经典发言:

  • 每个人工作都想赚钱,那么是谁在亏钱?
  • 我闭上眼睛触碰星空,阅读宇宙留给我的盲文。
  • 世界是个大象,我们都在盲人摸象,抽象是对这个世界的鞭挞。
  • 雨天,我走进水坑里,不小心踩碎了天空。
  • 生鱼片是死鱼片。
  • 有的人看不到未来,其实是看到了未来。
  • 夜里很安静,我打开了收音机录下来,等白天吵闹的时候播放。

论文介绍,弱智吧的帖子充满双关语、多义词、因果倒置、同音异义词。有些逻辑陷阱人类看了都汗流浃背,对AI来说,那必须是增强模型逻辑推理能力的绝佳养料。

虽然互联网社区的语料对于AI来说养分可能确实充足,但是网友们对于社区直接将自己贡献的内容拿去卖钱,却不一定那么乐意。

Stack Overflow是面向程序员及开发人员的论坛。2024年5月初也与OpenAI合作为模型训练提供数据。一些用户为了表示不满,删除或者编辑自身问题和答案,避免被用于训练AI,但Stack Overflow恢复了被删的帖子,封禁了对应的账号。


图源:网络

有网友分享怎样把自己的高赞经验帖编辑为抗议帖的方法,并表示,“(版主的镇压)也是在提醒大家,在平台上发布的任何内容都能用于盈利目的。在 Discord、Twitter 等平台上的所有消息,早晚也要被抓取投喂给模型,最后再把相应AI服务售卖给你。”

但与Stack Overflow相比,Reddit的各路网友暂时没有用删帖表示反抗,转而心疼起AI:孩子,吃点好的吧。


图源:Reddit

A:之前有人担心:把整个互联网喂给AI,AI会让人类灭亡 B:我不认为现在这是玩笑了。 C:这就是为什么我的网络发言如此愚蠢。我其实很聪明(聪明一词拼写错误)! D:你拯救了人类!

特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相关推荐
热点推荐
如果真的准许私有化,不用三十年,百分之八十的人或将无立足之地

如果真的准许私有化,不用三十年,百分之八十的人或将无立足之地

校长侃财
2024-05-13 12:44:53
沈阳出现确诊病例!医大一院专家紧急提醒

沈阳出现确诊病例!医大一院专家紧急提醒

沈阳公交网小林
2024-06-01 00:53:18
《家族荣耀2》大结局:4人悲惨下线,3对cp圆满,赵启邦意难平!

《家族荣耀2》大结局:4人悲惨下线,3对cp圆满,赵启邦意难平!

阿芒娱乐说
2024-05-31 23:46:16
今明两年,房贷利率一旦跌破3%,全国有45%的家庭将面临3大风险

今明两年,房贷利率一旦跌破3%,全国有45%的家庭将面临3大风险

105度的世界
2024-05-30 11:57:29
看到李楠任北京男篮顾问,才发现李春江才是CBA最强的教练型顾问

看到李楠任北京男篮顾问,才发现李春江才是CBA最强的教练型顾问

篮球侍郎
2024-06-01 21:42:06
瑞典出人意料向乌克兰移交一架ASC 890预警机,用于F-16配套作战

瑞典出人意料向乌克兰移交一架ASC 890预警机,用于F-16配套作战

探索星空
2024-05-30 07:36:49
深圳“最长”雨季来袭,你的生活和钱包还好吗?

深圳“最长”雨季来袭,你的生活和钱包还好吗?

深圳微时光
2024-05-31 19:48:57
回顾:江苏女子见一学生像前夫,鉴定后竟是她死了17年的儿子

回顾:江苏女子见一学生像前夫,鉴定后竟是她死了17年的儿子

可乐86
2024-05-30 10:11:18
森林北和男人屋内跳舞视频遭曝光:两人眉目传情,身材柔媚至极!

森林北和男人屋内跳舞视频遭曝光:两人眉目传情,身材柔媚至极!

圈里的甜橙子
2024-05-31 09:46:22
我得罪县长被免职,到某局做清洁工,一天我的哥哥到某局检查工作

我得罪县长被免职,到某局做清洁工,一天我的哥哥到某局检查工作

乔生桂
2024-04-26 11:02:23
俄发射神秘航天器令美军方不安

俄发射神秘航天器令美军方不安

参考消息
2024-06-01 20:18:26
印度版路虎揽胜正式上市,网友:宝马X7笑了!

印度版路虎揽胜正式上市,网友:宝马X7笑了!

看看娱乐与体育
2024-06-01 10:16:56
价格暴跌!从70元一斤跌到个位数,正大量上市

价格暴跌!从70元一斤跌到个位数,正大量上市

浙江之声
2024-05-30 08:32:08
特朗普被定罪 通过政治模型预测美大选几乎全中的历史学教授:这让模型陷入混乱

特朗普被定罪 通过政治模型预测美大选几乎全中的历史学教授:这让模型陷入混乱

红星新闻
2024-05-31 12:54:06
解放军战机突遭F-16V锁定,台军叫嚣一击必杀,其实他们是睁眼瞎

解放军战机突遭F-16V锁定,台军叫嚣一击必杀,其实他们是睁眼瞎

懂体育的小吖头
2024-05-30 11:25:49
刘汉承包绵阳机场,地头蛇王永成从中作梗,第二天就被灭门

刘汉承包绵阳机场,地头蛇王永成从中作梗,第二天就被灭门

纸鸢奇谭
2024-05-15 12:21:33
斯科尔斯:20年曼联生涯只有一支球队对我感兴趣

斯科尔斯:20年曼联生涯只有一支球队对我感兴趣

懂球帝
2024-05-31 19:26:08
汪小菲以德报怨,给葛斯齐凑钱赔偿大s,曝:汪小菲年底举办婚礼

汪小菲以德报怨,给葛斯齐凑钱赔偿大s,曝:汪小菲年底举办婚礼

娱小小新
2024-06-01 16:03:48
意大利公主爱上中国穷小子,连生4子遭抛弃回国后成奢侈品女王

意大利公主爱上中国穷小子,连生4子遭抛弃回国后成奢侈品女王

卡索
2024-05-30 13:59:48
4年2亿美元续约大合同!只是东契奇欧文的玩具!史上最水DPOY……

4年2亿美元续约大合同!只是东契奇欧文的玩具!史上最水DPOY……

篮球实战宝典
2024-05-31 21:59:38
2024-06-02 02:16:49
36氪
36氪
让一部分人先看到未来
144530文章数 2839346关注度
往期回顾 全部

科技要闻

余承东:不卷价格!雷军:将双班制生产!

头条要闻

小伙投资300万在瑞典开拉面馆生意火爆 1碗面卖100元

头条要闻

小伙投资300万在瑞典开拉面馆生意火爆 1碗面卖100元

体育要闻

女排最强2主攻合体 合砍40分打懵泰国

娱乐要闻

白玉兰提名:胡歌、范伟争视帝

财经要闻

实锤!普华永道,危!

汽车要闻

吉利银河E5 Flyme Auto智能座舱首发

态度原创

游戏
数码
亲子
教育
公开课

LPL: Rookie“诡术飞机”骑脸输出,NIP让一追二战胜WBG

数码要闻

消息称 AMD 锐龙 9000 系列 Zen5 桌面处理器将于 7 月上市

亲子要闻

儿童节孩子表演节目给大家看?大可不必!

教育要闻

父母吵架时,孩子在想什么?

公开课

近视只是视力差?小心并发症

无障碍浏览 进入关怀版