网易首页 > 网易号 > 正文 申请入驻

继续加码合成数据,英伟达数亿美元买下这家小公司

0
分享至

来源:DeepTech深科技

近日,据科技新闻网站 Wired 援引消息人士的话报道,英伟达以九位数美元的价格收购了一家合成数据初创公司 Gretel。

(来源:Wired)

消息人士称,此次收购价格超过了 Gretel 最近一次 3.2 亿美元的估值(由此可知交易金额在 3.2-10 亿美元之间),不过具体的收购条款尚未公开。

与此同时,Gretel 公司的约 80 名员工将被并入英伟达,而该公司的技术将成为英伟达基于云的生成式 AI 服务套件的一部分,为开发者提供支持。

对于此次的收购交易,英伟达和 Gretel 公司的发言人均未做出回应。

基于模型微调生成合成数据

Gretel 公司成立于 2019 年,总部位于美国加利福尼亚州圣地亚哥,由 Ali Golshan、John Myers、Laszlo Bock 和 Alex Watson 联合创立,其中 Ali Golshan 担任公司 CEO。

据 Pitchbook 统计数据显示,在被英伟达收购之前,Gretel 已经获得了超过 6,700 万美元的投资,投资机构包括 Moonshots Capital、Greylock、Anthos Capital 等。

作为一家合成数据开发商,Gretel 为开发者提供了合成数据平台及 API,旨在帮助那些希望构建生成式 AI 模型但缺乏足够训练数据或对使用真实人物数据存在隐私顾虑的开发者。

(来源:Gretel)

技术层面,Gretel 采用对开源模型(比如 LLaMA、Stable Diffusion 等)进行针对性微调的技术路线,通过添加隐私保护层和差异化功能模块,生成满足特定行业需求的合成数据。比如,通过调整模型参数生成金融、医疗等领域的匿名化数据,解决敏感信息泄露风险‌。

其核心技术包含差分隐私、数据匿名化等模块,可在生成数据时自动剥离敏感信息,满足 HIPAA、GDPR 等法规要求‌。比如,在医疗数据生成中通过混淆患者身份信息生成可用于模型训练的非敏感数据集‌。

需要注意的是,Gretel 的技术路线并不依赖自研前沿模型,而是通过微调现有模型并叠加专有技术(比如访问权限控制、动态数据脱敏等)并将这些模型打包出售,进而降低技术开发成本,能够快速适配行业需求‌。

Gretel 支持生成文本、表格、图像等多种数据形式,并通过统计方法或生成式 AI 模拟真实数据特征,确保合成数据在质量与分布上与真实数据高度接近‌。

与此同时,Gretel 也提供 API 接口,让开发者自定义数据生成规则(比如模拟极端场景、调整数据分布等),提升生成数据的实用性和多样性‌。

通过收购补齐“AI 全栈”生态的数据层

AI 发展的三大要素是算力、算法和数据。大模型性能表现不断刷新全球认知的背后,除了算法的演进、算力的提升,数据(尤其是高质量数据)始终是绕不开的话题。很大程度上,没有海量数据的“投喂”就不会有大模型的出色表现。

然而,真实世界数据正在逐渐枯竭。正如 OpenAI 联合创始人兼前首席科学家 Ilya Sutskever 此前所指出的,“算力在增长,但数据却没有增长,因为我们只有一个互联网。数据就好比化石燃料,而燃料终将耗尽。”

就在目前正在举办的英伟达 GTC 2025 开发者大会上,联合创始人兼 CEO 黄仁勋在主题演讲中也提到,行业在快速且成本有效地扩大 AI 规模方面所面临的挑战。“首先,数据问题,即从哪里以及如何创建必要的数据来训练 AI 模型;其次,模型架构;最后,扩展法则。”他说道。

(来源:英伟达)

合成数据,已被视为缓解 AI 行业数据稀缺问题的关键方案。

所谓合成数据(Synthetic Data),即由计算机生成的数据,可以通过模型和算法创建,用于补充或替代自现实世界中采集的真实数据。

借助合成数据,可以让构建 AI 模型所需的数据生成过程更加可扩展、劳动密集度更低,并且对于较小或资源较少的 AI 开发者来说更加易于获取。理论层面,合成数据可以创造近乎无限的 AI 训练数据来源。除此之外,隐私保护也是合成数据的一大优势,这对于医疗、银行以及政府机构等行业非常适用。

比如,在自动驾驶领域,‌合成数据可模拟复杂路况、极端天气等长尾场景,加速自动驾驶算法的迭代,减少实地测试成本。

再比如,一家医院希望构建一个用于追踪某种类型癌症的 AI 模型,但只有来自 1,000 名患者的少量数据集,那么就可以使用合成数据来补充数据集、消除偏差,并对真实人类的数据进行匿名化处理,从而实现更好的隐私保护。

看到这里,那英伟达为什么要收购这样一家公司呢?简单总结一句话就是:补齐自家“AI 全栈”生态的数据层。

Gretel 专注于为开发者提供合成数据平台及 API,通过微调开源模型并添加隐私保护功能,解决 AI 训练中真实数据不足或隐私敏感性问题‌。收购 Gretel 后有望补足英伟达在合成数据生成领域的布局,与其已有工具形成协同,完善从硬件到软件、数据系统的“AI 全栈”生态链‌。

通过整合 Gretel 的合成数据技术,英伟达可直接为开发者提供高质量训练数据,缓解大模型对真实数据的依赖,尤其适用于隐私敏感领域(比如金融、医疗等)‌,解决生成式 AI 数据瓶颈,并增强开发者服务能力。

要知道,英伟达近年来为开发者提供不少合成数据工具。比如,在 2022 年推出的合成数据工具 Omniverse Replicator,此次通过收购 Gretel,结合其技术平台能强化从 2D 到 3D、从单一模态到多模态的完整数据生成体系‌。

除此之外,Gretel 的 API 接口和微调能力可无缝接入英伟达的生成式 AI 服务套件,帮助开发者快速构建行业定制化模型,进而降低 AI 开发门槛‌。

随着真实世界数据日渐枯竭,大型科技公司也都在转向合成数据,包括 Meta、OpenAI、Anthropic 以及微软等巨头早已开始使用合成数据来训练 AI 模型。

比如,Meta 使用合成数据训练其先进的大语言模型 Llama 3,其中不少数据是由前一代模型 Llama 2 生成的;微软的 Phi-3 小语言模型部分基于合成数据进行训练。

随着 Meta、微软等巨头纷纷加速布局合成数据,英伟达通过收购 Gretel 进一步巩固技术优势,可为硬件(比如 H100/H200 GPU)和软件生态提供差异化竞争力‌。

参考资料:

1.https://www.wired.com/story/nvidia-gretel-acquisition-synthetic-training-data/

2.https://gretel.ai/

3.https://gretel.ai/blog

4.https://gretel.ai/navigator

5.https://gretel.ai/tabular-fine-tuning

6.https://gretel.ai/solutions/safe-data-sharing

7.https://gretel.ai/solutions/improve-ml-robustness

8.https://gretel.ai/solutions/power-generative-ai

运营/排版:何晨龙

特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相关推荐
热点推荐
程序员哭泣:被阿里裁员3年了,收入巅峰永远停在2022年了,125万

程序员哭泣:被阿里裁员3年了,收入巅峰永远停在2022年了,125万

黯泉
2026-04-08 20:26:04
这就是回家要脱裤子才能上床的原因!网友:看完天都塌了!

这就是回家要脱裤子才能上床的原因!网友:看完天都塌了!

夜深爱杂谈
2026-02-07 19:05:55
“走人福 休假1天”!四川一店铺张贴告示登上热搜,网友:懵圈了

“走人福 休假1天”!四川一店铺张贴告示登上热搜,网友:懵圈了

火山詩话
2026-04-09 09:22:00
医生告诫:每天睡前玩手机的人,不用半年时间,睡眠或有这6变化

医生告诫:每天睡前玩手机的人,不用半年时间,睡眠或有这6变化

白话电影院
2026-04-05 15:34:47
杨振宁去世5个月后,49岁翁帆现状:剪了头发染了色,仍独居国内

杨振宁去世5个月后,49岁翁帆现状:剪了头发染了色,仍独居国内

照见古今
2026-03-26 19:06:28
伦敦世乒赛选手向鹏在太原挑战赛中,被姆拉德维奇0封,止步首轮

伦敦世乒赛选手向鹏在太原挑战赛中,被姆拉德维奇0封,止步首轮

佳佳说奇事故事
2026-04-09 19:49:19
“留学回来,15次相亲失败”,杭州女孩被拆穿:连繁殖能力都没有

“留学回来,15次相亲失败”,杭州女孩被拆穿:连繁殖能力都没有

离离言几许
2026-04-09 17:04:00
看到“浪姐”曾沛慈热度断层第一,才发现原来当年和我一样“中二”过的人这么多……

看到“浪姐”曾沛慈热度断层第一,才发现原来当年和我一样“中二”过的人这么多……

新民周刊
2026-04-08 19:19:21
海水制氢突破:真正革命不是氢便宜,而是人类开始 “开采海洋”

海水制氢突破:真正革命不是氢便宜,而是人类开始 “开采海洋”

临云史策
2026-04-08 15:10:20
美国媒体发出警告,特朗普对伊发动战争,正在把亚洲拱手输给中国

美国媒体发出警告,特朗普对伊发动战争,正在把亚洲拱手输给中国

通鉴史智
2026-04-09 09:57:30
英国45驱逐舰意外故障,疑似被中国外贸反舰导弹击中

英国45驱逐舰意外故障,疑似被中国外贸反舰导弹击中

恋人眼中的女孩
2026-04-09 12:17:42
上海交大130周年校庆,校方为姚明定制专属加大版椅子,校友晒图: 坐下感觉跟别人站着一样高

上海交大130周年校庆,校方为姚明定制专属加大版椅子,校友晒图: 坐下感觉跟别人站着一样高

大象新闻
2026-04-09 16:45:13
美伊战争打醒了所有人!原来中国真正的“护城河”,竟然是山西!

美伊战争打醒了所有人!原来中国真正的“护城河”,竟然是山西!

阿凫爱吐槽
2026-04-09 07:20:28
陈丽华3个子女颜值高,儿子儿媳太孝顺,和迟重瑞关系被扒!

陈丽华3个子女颜值高,儿子儿媳太孝顺,和迟重瑞关系被扒!

古希腊掌管松饼的神
2026-04-08 15:32:20
伦纳德:雷霆能成为冠军是有原因的 他们一整个赛季都高度专注

伦纳德:雷霆能成为冠军是有原因的 他们一整个赛季都高度专注

北青网-北京青年报
2026-04-09 19:30:54
王毅外长访问朝鲜,2天行程3个重点!金正恩此次邀请有何深意?

王毅外长访问朝鲜,2天行程3个重点!金正恩此次邀请有何深意?

安珈使者啊
2026-04-09 09:49:55
发现一个不争的事实:一个女人越是不爱打扮、不爱说话、不爱凑热闹,往往这3个方面越是让人佩服

发现一个不争的事实:一个女人越是不爱打扮、不爱说话、不爱凑热闹,往往这3个方面越是让人佩服

LULU生活家
2026-04-09 15:09:50
属马人注意:家中两样东西绝不能动,尤其是羊年容易闹翻天

属马人注意:家中两样东西绝不能动,尤其是羊年容易闹翻天

宝哥精彩赛事
2026-04-09 17:32:57
全红婵遭网暴,细节令人不寒而栗

全红婵遭网暴,细节令人不寒而栗

燕梳楼频道
2026-04-09 14:44:17
兵分四路发起总攻,世界第二大军事集团归来,美媒:以色列犯大错

兵分四路发起总攻,世界第二大军事集团归来,美媒:以色列犯大错

阿尢说历史
2026-04-08 12:17:05
2026-04-09 20:35:00
新浪财经 incentive-icons
新浪财经
新浪财经是一家创建于1999年8月的财经平台
2812985文章数 6519关注度
往期回顾 全部

财经要闻

停火首日,霍尔木兹仅有4艘船通过

头条要闻

媒体:"浑身是血"的美军上校藏身山缝 15分钟内被转移

头条要闻

媒体:"浑身是血"的美军上校藏身山缝 15分钟内被转移

体育要闻

8万人面前心脏骤停 现在他还站在球场上

娱乐要闻

金莎官宣结婚 与老公孙丞潇相差18岁

科技要闻

Meta凌晨首发闭源大模型 扎克伯格又行了?

汽车要闻

文飞掌舵,给神行者带来了什么?

态度原创

房产
时尚
本地
手机
数码

房产要闻

利润暴跌44%!那个春节被骂惨了的海峡股份 正在经历什么?

ED网红病,正在掏空年轻女性

本地新闻

12吨巧克力有难,全网化身超级侦探添乱

手机要闻

苹果iOS 26.4.1发布:修复iCloud终端BUG,自动开启“失窃保护”

数码要闻

微星 MEG X870E UNIFY-X MAX 暗影主板评测

无障碍浏览 进入关怀版