网易首页 > 网易号 > 正文 申请入驻

用AI合成数据训练AI,AI模型训练新市场涌现

0
分享至

本文系网易新闻•网易号特色内容激励计划签约账号【智东西】原创内容,未经账号授权,禁止随意转载。

编译| 铭滟
编辑 | 徐珊

智东西7月25日消息,微软、OpenAI和Cohere等公司正在测试使用合成数据(计算机生成的信息)训练大语言模型(Lare Language Models,LLM)。合成数据一般用于训练LLM。目前使用人造数据的最复杂形式即为合成数据,使用合成数据训练或有助于进一步训练AI模型。

开发人员表示,来自网络的通用数据已不足以进一步提升AI模型的性能。多家AI公司已经将目光转向合成数据。

今年5月,OpenAI首席执行官Sam Altman曾被问及是否担心监管机构对ChatGPT潜在侵犯隐私的调查。Altman对此表示,“非常有信心将所有数据都更换为合成数据”。

一、合成数据能进一步满足AI模型训练需要

AI创企Cohere的CEO Aidan Gomez曾说:“如果你能从网络上获取所需的所有数据,那就太棒了。但实际上,网络环境嘈杂混乱。它并不能满足我们对数据的需求。”

▲图为Cohere的CEO Aidan Gomez

为了提高AI模型的性能并应用于科学、医学或商业等领域,AI模型需要专门且复杂的数据集用以训练。这些数据要么由科学家、医生、或工程师等领域内专家创建,要么从制药、银行和零售商等大公司获取专门数据。但是,“人类创建的数据非常昂贵”,Gomez说。

使用合成数据则避免了这笔支出。AI公司可以使用AI模型,合成与医疗或金融相关的数据。然后,将这些合成数据用于培训LLM。

Gomez表示,Cohere及其他几个AI公司已经使用了合成数据,然后由人类进行微调。“即使合成数据没有广泛传播,它所包含的内容量已经很大了。”Gomez说到。

例如,为了训练AI模型,Cohere可能会让两个AI模型相互对话,其中一个充当数学老师,另一个充当学生。

“两个AI模型对话围绕数学的三角学展开,而这些内容都是AI生成的。”Gomez说,“这一切对话都只是AI模型的想象。然后,人类会查看这段对话,如果模型说错了什么,人工就会介入并纠正。这就是我们正在做的事。”

微软研究院最近的两项研究表明,合成数据可用于训练比OpenAI的GPT-4或谷歌的PaLM-2等LLM更小、更简单的模型。

第一项研究是由GPT-4生成的短篇小说的综合数据集,其中只包含一个典型的四岁孩子可能理解的单词。这个数据集被称为TinyStories,然后被用来训练一个简单的LLM,它能够生成流畅且语法正确的故事。

另一项研究为,AI可以通过教科书和练习形式,合成Python代码进行训练。研究发现,这些代码在编码任务上表现相对较好。

在合成数据这个新兴市场中,Scale AI和Gretel.ai等初创企业如雨后春笋般涌现,提供合成数据服务。Gretel由美国国家安全局和中央情报局的前情报分析师创立,曾与谷歌、汇丰银行、Riot Games和Illumina等公司合作,通过合成增强现有数据,帮助AI企业训练更好的AI模型。

二、合成数据的潜在风险不容忽视

Gretel首席执行官Ali Golshan表示,合成数据可以保护数据中的个人隐私,同时仍然保持数据统计的完整性。

他补充说,经调整后的合成数据还可以消除现有数据中的偏见和不平衡。“创建对冲基金的AI模型可以用于观察黑天鹅事件(指难以预测,但突然发生时会引起连锁反应、带来巨大负面影响的小概率事件,它存在于自然、经济、政治等各个领域)。比如说,创建一百种变体来观察我们的模型是否崩溃,”Golshan说。对于银行来说,欺诈行为通常只占总数据的百分之一以下,Gretel的软件可以生成数千个有关欺诈的边缘案例场景,并用于训练AI模型。

但是,合成数据的批评者指出,并非所有合成数据都会使用真实反映或改进现实世界的数据。随着AI生成的文本和图像充斥互联网,AI公司不断在网络上抓取训练数据,最终很可能走向重复抓取自己模型的原始版本生成的原始数据——这种现象被称为“内部测试(dog-fooding)”。

牛津大学和剑桥大学等大学近期的研究也对此发出警告。研究称,根据AI模型的原始输出(可能包含虚假或捏造)来训练AI模型,随着时间的推移,这种方式有可能会破坏和降低技术性能,从而导致“不可逆转的缺陷”。

Golshan同意这种观点,他也认为使用不良合成数据进行训练可能会阻碍AI模型迭代。“网络上充斥着越来越多AI生成的内容。我也认为随着时间的推移,这将导致生成式内容退化,因为LLM只是不断重复旧有的知识,没有任何新的见解。”

尽管存在上述风险,Cohere的Gomez等AI研究人员表示,合成数据也有可能加速超级智能AI系统的发展。

Gomez说:“我们真正想要的是能够自学的模型。你希望他们能够做到提出自己的问题,发现新的真理并创造自己的知识。这才是梦想。”

结语:AI企业是否将大规模应用合成数据仍有待观察

目前AI企业对AI模型的训练主要基于通用数据。在现有状况下,如果AI企业意图寻求新的数据训练AI模型,可选择的方式包括专业领域数据库和合成数据等。但是,专业领域的数据鉴于专业价值及个人隐私等因素,难以用于AI模型训练。所以,部分AI企业会选择成本相对较低的合成数据训练新的AI模型。

但在合成数据的使用过程中,有两点值得保持警惕:一为数据关联的个人隐私问题,合成数据首先应确保数据合法;二为数据的反复使用,即“内部测试(dog-fooding)”。如果反复喂入AI模型的数据并未发生实质性迭代,AI模型的功能或可能出现缺陷等性能问题。

特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相关推荐
热点推荐
深圳老板直言:没了香港人,日子太难过了啊,一落千丈

深圳老板直言:没了香港人,日子太难过了啊,一落千丈

奇思妙想生活家
2026-02-14 15:15:09
终于知道为什么有人听不懂拒绝了!网友:妥协一次就会有无数次

终于知道为什么有人听不懂拒绝了!网友:妥协一次就会有无数次

夜深爱杂谈
2026-02-14 20:44:41
扫地出门!曼城批准7000万前锋转投热刺!1.3亿“顶星”投奔瓜帅

扫地出门!曼城批准7000万前锋转投热刺!1.3亿“顶星”投奔瓜帅

头狼追球
2026-02-15 07:08:08
林葳地位稳了!主帅爆赞其持球能力,防守还蜕变,力保后场核心!

林葳地位稳了!主帅爆赞其持球能力,防守还蜕变,力保后场核心!

篮球资讯达人
2026-02-15 16:36:40
1975年毛主席与儿女见面时,江青提议让李讷暂任北京市委书记,最终结果怎样?

1975年毛主席与儿女见面时,江青提议让李讷暂任北京市委书记,最终结果怎样?

寄史言志
2026-01-20 13:57:07
4-1!姆巴佩缺战,熊皇主导大胜,皇马主场大捷,再战穆里尼奥

4-1!姆巴佩缺战,熊皇主导大胜,皇马主场大捷,再战穆里尼奥

我的护球最独特
2026-02-15 05:57:35
国产电车暴跌,或因外资车与产业链和经销商联合围剿,自食其果

国产电车暴跌,或因外资车与产业链和经销商联合围剿,自食其果

柏铭锐谈
2026-02-13 23:37:09
除夕晚上拜年,别只会说“新年快乐”,送您几句祝福语,高级走心

除夕晚上拜年,别只会说“新年快乐”,送您几句祝福语,高级走心

神牛
2026-02-14 15:57:41
全明星合影出炉!詹姆斯缺席库里坐C位 世界队东契奇C位文班抢镜

全明星合影出炉!詹姆斯缺席库里坐C位 世界队东契奇C位文班抢镜

追球者
2026-02-15 06:04:43
2026年“正月初一”百年不遇,牢记不去“三地”,提前知道不吃亏

2026年“正月初一”百年不遇,牢记不去“三地”,提前知道不吃亏

一甲山人
2026-02-12 09:09:06
慕尼黑会议的两面:鲁比奥的温柔与默茨的强硬

慕尼黑会议的两面:鲁比奥的温柔与默茨的强硬

山河路口
2026-02-15 11:39:43
太尴尬了,马刺兜售索汉整整一年,全联盟却无人出价,别信什么“和平分手”的说辞

太尴尬了,马刺兜售索汉整整一年,全联盟却无人出价,别信什么“和平分手”的说辞

宝哥精彩赛事
2026-02-15 15:58:57
21兵团司令降为军长,55年又被拟授少将,伟人大怒:少将改上将

21兵团司令降为军长,55年又被拟授少将,伟人大怒:少将改上将

浩渺青史
2026-01-29 19:36:52
莫斯科发电厂突发爆炸!俄罗斯能源收入降至六年最低

莫斯科发电厂突发爆炸!俄罗斯能源收入降至六年最低

项鹏飞
2026-02-13 16:37:33
3吨电车成为道路的重大安全隐患,炮弹飞车,害人害己

3吨电车成为道路的重大安全隐患,炮弹飞车,害人害己

世界圈
2026-02-13 08:46:33
国家为什么要在当下这个节点提出共同富裕?

国家为什么要在当下这个节点提出共同富裕?

流苏晚晴
2026-01-28 18:25:23
老了也是宝贝!AC米兰生怕40岁魔笛跑了,做出最英明一个决定

老了也是宝贝!AC米兰生怕40岁魔笛跑了,做出最英明一个决定

零度眼看球
2026-02-15 08:02:25
程序员不许写代码!OpenAI硬核实验:3人指挥AI,5个月造出百万行

程序员不许写代码!OpenAI硬核实验:3人指挥AI,5个月造出百万行

新智元
2026-02-15 12:12:36
乌东防线多米诺效应开始了

乌东防线多米诺效应开始了

星火聊天下
2026-02-12 08:49:13
明明演技一般,却被捧成“老戏骨”,这八位演员终于现出原型了?

明明演技一般,却被捧成“老戏骨”,这八位演员终于现出原型了?

梦录的西方史话
2025-12-27 14:36:33
2026-02-15 17:11:00
智东西 incentive-icons
智东西
聚焦智能变革,服务产业升级。
11235文章数 116972关注度
往期回顾 全部

科技要闻

发春节红包的大厂都被约谈了

头条要闻

重庆两套法拍房以192万余元起拍 物业欠费达108万余元

头条要闻

重庆两套法拍房以192万余元起拍 物业欠费达108万余元

体育要闻

最戏剧性的花滑男单,冠军为什么是他?

娱乐要闻

河南春晚被骂上热搜!大量广告满屏AI

财经要闻

谁在掌控你的胃?起底百亿"飘香剂"江湖

汽车要闻

奔驰中国换帅:段建军离任,李德思接棒

态度原创

游戏
手机
家居
旅游
数码

《战神》新作IGN 8分!没有惊艳突破 但扎实有力

手机要闻

中兴星悦70 Ultra亮相:6000mAh电池、内置AI明星数字人

家居要闻

中古雅韵 乐韵伴日常

旅游要闻

以“放心游”保障开心玩 海南用信用守护旅游市场的“诗和远方”

数码要闻

华硕主板再现R7 9800X3D故障案例:低负载过夜后发现电脑已死机

无障碍浏览 进入关怀版