网易首页 > 网易号 > 正文 申请入驻

数亿美元!传英伟达已收购合成数据公司Gretel

0
分享至


智东西
作者 ZeR0
编辑 漠影

智东西3月20日消息,据《连线》报道,两位了解该交易的人士透露,英伟达已以九位数收购了合成数据公司Gretel。

消息人士称,此次收购价格超过了Gretel最新的3.2亿美元(约合人民币23亿元)估值,不过具体的收购条款尚不清楚。Gretel及其约80名员工的团队将被并入英伟达,其技术将作为英伟达生成式AI服务套件的一部分。

此次收购正值英伟达推出合成数据生成工具之际,开发人员可以训练自己的AI模型并针对特定应用进行微调。理论上,合成数据可以创造近乎无限的AI训练数据供应,并帮助解决自2022年ChatGPT成为主流以来一直困扰AI行业的数据稀缺问题。尽管专家表示,在生成式AI中使用合成数据有其自身的风险。

英伟达、Gretel发言人拒绝发表评论。

一、交易将补强英伟达合成数据布局

Gretel成立于2019年,创始人包括Alex Watson、John Myers、Ali Golshan,Golshan担任首席执行官。这家初创公司为想要构建生成式AI模型但无法获得足够训练数据或对使用真实数据存在隐私担忧的开发人员提供合成数据平台和一套API。

Gretel不会构建和授权自己的前沿AI模型,而是对现有的开源模型进行微调以添加差异隐私和安全功能,然后将它们打包在一起出售。Pitchbook显示,该公司在被收购前筹集了超过6700万美元的风险投资资金。

与人类生成的数据或现实世界数据不同,合成数据是由计算机生成的,旨在模仿现实世界的数据。支持者认为,这使得构建AI模型所需的数据生成更具可扩展性、劳动强度更低,并且更易于规模较小或资源较少的AI开发人员使用。

隐私保护是合成数据的另一个关键卖点,使其成为医疗健康提供商、银行和政府机构的有吸引力的选择。

多年来,英伟达一直在为开发人员提供合成数据工具。2022年,该公司推出了Omniverse Replicator,让开发人员能够生成自定义的、物理上准确的合成3D数据来训练神经网络。

去年6月,英伟达开始推出一系列开放式AI模型,这些模型可生成合成训练数据,供开发人员用于构建或微调大语言模型。这些迷你模型被称为Nemotron-4 340B,开发人员可以使用它们为自己的大语言模型收集合成数据,涉及“医疗保健、金融、制造、零售和其他所有行业”。

二、合成数据能补充数据集,增强隐私保护

在昨日主题演讲中,英伟达创始人兼CEO黄仁勋谈到行业在以经济高效的方式快速扩展AI方面所面临的挑战。

“我们重点关注三个问题,”他说。“第一,如何解决数据问题?如何以及在哪里创建训练AI所需的数据?第二,模型架构是什么?第三,Scaling Laws是什么?”黄仁勋继续描述了该公司目前如何在其机器人平台上使用合成数据生成。

瑞士洛桑联邦理工学院研究合成数据隐私的博士后研究员Ana-Maria Cretu说,合成数据至少能以几种不同的方式使用。它可以采用表格数据的形式,例如人口统计或医疗数据,这可以解决数据稀缺问题或创建更多样化的数据集。

Cretu举了一个例子:如果一家医院想要建立一个AI模型来追踪某种类型的癌症,但正在处理的数据集只有1000名患者,那么可以使用合成数据来填充数据集,消除偏见,并匿名化真实人类的数据。

“这还可以提供一些隐私保护,因为您不能向利益相关者或软件合作伙伴披露真实数据。”Cretu说。

但Cretu补充说,在大语言模型领域,合成数据也已成为“我们如何才能随着时间的推移增加大语言模型的数据量?”的一个无所不包的阶段。

三、重复训练可能导致质量显著下降

专家们担心,在不久的将来,AI公司将无法像以前一样自由地获取人类创造的互联网数据来训练他们的AI模型。去年,麻省理工学院数据来源计划的一份报告显示,对开放网络内容的限制正在增加。

理论上,合成数据可以提供一个简单的解决方案。但2024年7月《自然》杂志上的一篇文章强调,当AI语言模型用其他模型生成的数据反复微调时,它们可能会“崩溃”,即质量显著下降。

换句话说,如果你只给机器喂它自己生成的输出,理论上它就会开始自食其力,结果吐出残渣。

AI数据标注公司Scale AI的首席执行官Alexandr Wang分享了《自然》杂志关于X的文章中的发现,他写道:“虽然当今许多研究人员将合成数据视为AI的哲学之石,但天下没有免费的午餐。” 他在后来的发帖中称,这就是他坚信混合数据方法的原因。

Gretel的一位联合创始人反驳了《自然》杂志的这篇论文,他在一篇博客文章中指出,对纯合成数据进行重复训练的“极端场景”并不代表“现实世界的AI开发实践”。

认知科学家兼研究员加里·马库斯(Gary Marcus)大声批评AI炒作,他当时同意Alexandr Wang的“诊断,但不同意他的处方”。他认为,通过开发新的AI模型架构,而不是专注于数据集的特性,该行业将向前发展。

在给《连线》杂志的一封电子邮件中,马库斯谈道,“像(OpenAI的)o1/o3这样的系统似乎在编码和数学等领域表现更好,因为在这些领域,你可以生成和验证大量合成数据。在开放式领域的通用推理方面,它们效率较低。”

Cretu认为,围绕模型崩溃的科学理论是合理的。但她指出,大多数研究人员和计算机科学家都在使用合成数据和真实数据进行训练。“通过在每一轮新训练中使用新数据,你或许能够避免模型崩溃。”她说。

结语:大模型龙头和科技巨头已积极转向合成数据

对模型崩溃的担忧,并没有阻止AI行业加入合成数据潮流,即便他们这样做时非常谨慎。

据报道,在最近的摩根士丹利技术会议上,OpenAI联合创始人兼首席执行官Sam Altman吹捧OpenAI使用现有AI模型创建更多数据的能力。

Anthropic首席执行官Dario Amodei相信可能可以构建“一个无限的数据生成引擎”,通过在训练过程中注入少量新信息来保持其质量。

大型科技公司也开始转向合成数据。

Meta谈到了如何使用合成数据训练其最先进的大语言模型Llama 3,其中一些合成数据来自Meta的上一个模型Llama 2。

亚马逊云科技的Amazon Bedrock平台允许开发人员使用Anthropic Claude来生成合成数据。

微软Phi-3小型语言模型部分是在合成数据上进行训练的,该公司警告称,“预训练过的大语言模型生成的合成数据有时会降低准确性并增加下游任务的偏差。”

谷歌DeepMind也一直在使用合成数据,但这再次凸显了开发用于生成和维护真正私密的合成数据的管道的复杂性。

“我们知道所有大型科技公司都在研究合成数据的某些方面,”音乐授权初创公司Rightsify的创始人Alex Bestall说,该公司还负责生成AI音乐并将其目录授权给AI模型。“但在我们的交易中,人类数据通常是合同要求。他们可能想要一个60%由人类生成、40%由合成的数据集。”

来源:《连线》

特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相关推荐
热点推荐
真死亡之组!F组4队全出局:荷兰被点杀日本遭绝杀 瑞典3球惨败

真死亡之组!F组4队全出局:荷兰被点杀日本遭绝杀 瑞典3球惨败

念洲
2026-07-01 07:39:20
135公里刀片刺绳,泰山到底在防谁?

135公里刀片刺绳,泰山到底在防谁?

民言民语
2026-06-30 10:00:28
世界杯头号水货!利物浦 1.4 亿巨星全场隐身,被防到球都摸不到

世界杯头号水货!利物浦 1.4 亿巨星全场隐身,被防到球都摸不到

澜归序
2026-07-01 07:35:54
Shams:詹姆斯已告知湖人他将离队,他不会退役

Shams:詹姆斯已告知湖人他将离队,他不会退役

懂球帝
2026-07-01 00:28:05
东部格局大乱!热火连签两大射手!辅佐字母哥!

东部格局大乱!热火连签两大射手!辅佐字母哥!

柚子说球
2026-07-01 09:00:23
和平精英高校电竞派对x快乐向前冲-齐鲁工业大学站圆满结束

和平精英高校电竞派对x快乐向前冲-齐鲁工业大学站圆满结束

互联生活圈
2026-06-30 16:22:29
岚图卢放问“广告法为啥对这几个人没效呢”,这几个人到底是谁?

岚图卢放问“广告法为啥对这几个人没效呢”,这几个人到底是谁?

电科技网
2026-06-30 23:50:24
许家印18亿豪宅被英国流浪汉占领,国外对空置房屋归属如何规定?

许家印18亿豪宅被英国流浪汉占领,国外对空置房屋归属如何规定?

贵重物品爱美食
2026-06-30 17:01:17
中国男篮输10分!爆发大规模冲突,3人罚出场,1人摔重伤

中国男篮输10分!爆发大规模冲突,3人罚出场,1人摔重伤

老吴说体育
2026-06-30 23:15:20
8万人见证法国真核诞生:开天眼4场5助攻将队友喂到吐 单季31助攻

8万人见证法国真核诞生:开天眼4场5助攻将队友喂到吐 单季31助攻

风过乡
2026-07-01 07:27:20
女护士与“银行男子”开房,被医院认为涉嫌卖淫开除;法院:可能是恋人行为,赔偿11万余元

女护士与“银行男子”开房,被医院认为涉嫌卖淫开除;法院:可能是恋人行为,赔偿11万余元

大风新闻
2026-06-30 19:17:49
土耳其总统呼吁摧毁以色列,内塔尼亚胡:不能当做儿戏,要向美国告状,以色列前总理:土耳其就是下一个伊朗

土耳其总统呼吁摧毁以色列,内塔尼亚胡:不能当做儿戏,要向美国告状,以色列前总理:土耳其就是下一个伊朗

极目新闻
2026-06-30 10:19:27
哈兰德:我实在踢不动加时赛了;挪威对阵巴西胜算非常小

哈兰德:我实在踢不动加时赛了;挪威对阵巴西胜算非常小

懂球帝
2026-07-01 07:33:52
49岁的她穿条睡裤去看球,竟把全场贵妇装秒成了渣

49岁的她穿条睡裤去看球,竟把全场贵妇装秒成了渣

娱圈观察员
2026-07-01 00:54:24
武汉一男子劝阻他人带狗进餐饮店被殴打,当事人认为店家未尽到管理义务,应为此负责,相关部门:已立案调查,正在处置中

武汉一男子劝阻他人带狗进餐饮店被殴打,当事人认为店家未尽到管理义务,应为此负责,相关部门:已立案调查,正在处置中

大风新闻
2026-06-30 20:11:32
民警张义文,牺牲在女儿高考前一个月

民警张义文,牺牲在女儿高考前一个月

深圳晚报
2026-06-30 17:55:34
杭州宋城演员“小豆子”去世,年仅32岁,被称“第一美女”

杭州宋城演员“小豆子”去世,年仅32岁,被称“第一美女”

九方鱼论
2026-06-30 14:36:37
印度一家五口揣9万卢比来上海,以为能买半条街,一顿火锅后傻了!

印度一家五口揣9万卢比来上海,以为能买半条街,一顿火锅后傻了!

犀利强哥
2026-07-01 01:49:42
第86分钟绝杀!哈兰德3场5球紧追梅西,挪威2:1挺进16强约战巴西

第86分钟绝杀!哈兰德3场5球紧追梅西,挪威2:1挺进16强约战巴西

阿超他的体育圈
2026-07-01 03:02:09
收的是20块避雨费,丢的是一座城市的温度

收的是20块避雨费,丢的是一座城市的温度

清哲木观察
2026-06-30 16:25:33
2026-07-01 09:44:49
智东西 incentive-icons
智东西
智东西,AI产业新媒体,专注报道人工智能的前沿技术发展,和技术应用带来的千行百业产业变革。
12157文章数 117113关注度
往期回顾 全部

科技要闻

美国放行,Anthropic两款顶级模型将恢复

头条要闻

哈兰德奉献绝杀创纪录 主帅称其"当今足坛最伟大射手"

头条要闻

哈兰德奉献绝杀创纪录 主帅称其"当今足坛最伟大射手"

体育要闻

德国足球,脸都不要了

娱乐要闻

黄晓明沦陷!羡慕周杰伦能降住昆凌

财经要闻

文件:特朗普去年炒币大赚12亿美元

汽车要闻

奇瑞风云A9探店 五个理由一定来看看

态度原创

数码
亲子
本地
时尚
公开课

数码要闻

传英伟达取消GeForce RTX 5050 9GB版本 转而重启RTX 3060 12GB项目

亲子要闻

夏天带娃防晒,90% 家长会踩这个大坑!

本地新闻

贵州小城的新目标:举办“村超”世界杯!

Meiinpsn的穿衣风格,清新又叛逆

公开课

李玫瑾:为什么性格比能力更重要?

无障碍浏览 进入关怀版