网易首页 > 网易号 > 正文 申请入驻

带标签图像数据无限生成!GPT-3+DALL-E 2联合,或彻底解决CV界的「粮食危机」

0
分享至

新智元报道

编辑:LRS

【新智元导读】没有优质数据,再强大的模型也无法发挥作用。最近有研究人员发现,GPT-3+DALL-E 2模型如果结合在一起,就能自动生成海量的带标签数据,可以用来扩增和平衡数据集、抵御对抗攻击等。

巧妇难为无米之炊,没有数据何以训模型?

根据2022年Datagen对300个计算机视觉研发团队的调研结果,99%的CV团队因为训练数据不足而取消了该机器学习项目。

与此同时,收集数据带来的模型训练延迟也无处不在,100%的团队报告说由于训练数据不足而导致过严重的项目延迟。

研究还表明,训练数据相关的问题还不止是数据不足的问题,其他主要问题如标注质量不佳 (48%)、域覆盖度不足 (47%) 等都困扰着CV模型研发团队。

不过报告中指出,96%的CV团队都已经开始采用合成图像来补充数据集辅助模型训练。但合成数据的质量、来源和比例在领域内还存在较大差异,目前只有6%的团队专门使用合成数据进行训练。

与此同时,OpenAI最近更新了多模态模型DALL-E 2,只要能给出一段文本描述,模型就能生成对应的图像。

新模型采用了更先进的深度学习技术、更大的算力提升了图像的质量和分辨率,并且相比一代也有了更多功能,例如编辑图像或者基于给定图像进行二次创作。

DALL-E 2一出,由于效果太好,获得了大量的AI爱好者和研究人员在社交媒体上的称赞。

新模型除了根据文本来生成图像以外,或许还能用来解决「计算机视觉领域的最大挑战」——数据不足。

报告认为2022年合成数据的研究将取得突破性进展,现在看来,DALL-E 2或许是开出的第一枪。

CV的短板

计算机视觉AI应用领域十分广泛,从检测CT扫描中的良性肿瘤到实现自动驾驶都需要CV算法,但这些应用都有一个共同点:需要大量的数据来训练。

深度学习算法能取得远超其他模型性能的一个重要原因就是能吃下大容量的数据集,例如谷歌内部用于训练图像分类模型的数据集JFT就包含了3亿张图像和3.75亿个标签。

想象一下图像分类模型的工作流程:神经网络将像素颜色转化为代表其特征的一组数字,也称为输入的embedding。然后这些特征被映射到输出层,其中包含模型要检测的每一类图像的概率值。在训练过程中,神经网络试图学习能够区分不同类别的最佳特征表示,例如,杜宾犬与贵宾犬的尖耳朵特征。

理想情况下,机器学习模型可以学会在不同的照明条件、角度和背景环境下进行泛化。但更多时候,深度学习模型会因为数据量多样性不足而过拟合,导致学习到错误的表征。

虽说「大力出奇迹」,加大数据量就能解决这个问题,但你需要收集所有需要的样本。然后,你还需要确保每个类别有足够的标签数据,以防止模型对某些类别过拟合或欠拟合。最后,你需要给每张图片贴上标签,说明哪张图片对应于哪个类别。

在一个更好的模型问世前,这三步通常是实现sota的有效措施。

但即使如此,计算机视觉模型也很容易被欺骗,尤其是遭受到对抗性攻击(adversarial attacks)。解决的方法也很简单:继续加入更多有标签的、精心挑选的、多样化的数据。

DALL-E 2救世

拿一个「狗品种分类器」举例,有一个非常难找的图片类别——达尔马提亚犬(Dalmatian),也叫斑点狗、大麦町犬。

如果用DALL-E 2该怎么解决斑点狗数据量不足的问题?

1、正常使用(Vanilla use),将类的名称作为文本提示的一部分反馈给DALL-E,并将生成的图像添加到该类的标签中。例如输入文本为「一只大麦町犬在公园里追赶一只鸟」。

2、更改文本,在保持同一类别的情况下,搭配不同的环境和风格来提高模型的泛化能力。例如文本修改为「一只大麦町的狗在海滩上追逐一只鸟」。切换图像风格的输入文本可以是「卡通风格,一只大麦町狗在公园里追赶一只鸟」。

3、对抗性样本。使用类的名称来创建一个对抗性例子的数据集,例如「一辆类似大麦町的汽车」。

4、DALL-E 2的新功能之一就是可以根据输入图像生成多种变化后的图像,扩增数据集的时候可以将每张图像的突出点融合起来。也就是可以编写一个脚本,将数据集中的所有现成图像都作为DALL-E 2的输入,为每个类别生成几十种变化。

5、图像修复。DALL-E 2还可以对现有图像进行逼真的编辑,在考虑到阴影、反射和纹理的情况下添加和删除元素。这也可以成为一种强大的数据增强技术来进一步训练和增强基础模型。

除了生成更多的训练数据,使用DALL-E 2的一个好处是,新生成的图像已经被贴上了标签,无需再次标注一遍图像。

虽然生成对抗网络等图像生成技术已经存在了相当长的时间,但DALL-E 2的区别在于其1024×1024的高分辨率,将文本转化为图像的多模态性质和其强大的语义一致性,能够正确理解特定图像中不同物体之间的关系。

GPT-3助阵

DALL-E的输入是期望生成图像的文本提示。

但从文本模板里生成的话就太慢了,多样性也不强,我们可以利用文本生成模型GPT-3,为每个类别生成几十个文本提示,然后用DALL-E生成几十个图像并标记为对应的类别。

根据模板A [class_name] [gpt3_generated_actions],可以给GPT-3提供一个类名,让其补全为具体的场景提示,就可以得到输入文本为「一只躺在地上的大麦町犬」。

为了进一步提高对新增加的样本的信心,人们可以设置一个确定性阈值,只选择在指定排名前的生成文本。

合成图像并非银弹

如果DALL-E不加以审查,其生成的结果可能是不准确的、或局限在某个领域内的图像,排除特定的种族群体或忽略可能导致偏见的特征。比如用man生成的人脸图像,可能最后训出来的模型只能针对男性的人脸图像进行检测。

此外,在病理学或自动驾驶汽车等特定领域,使用由DALL-E生成的图像可能会有很大的风险,因为在这些领域,假阴性的代价是非常大的。

DALL-E 2也还存在一些局限性,比如对物体的构成性(compositionality)认知不是特别好。如果仅依靠提示,就假设生成图像中物体的位置是正确的,可能存在一定风险。

缓解这种情况的方法包括人工采样,即由人类专家随机选择样本来检查其有效性。为了优化过程,也可以采用主动学习的方法,对于一个给定的标题,得到最低CLIP排名的图像会被优先审查。

结语

DALL-E 2是OpenAI的又一激动人心的研究成果,它为更广泛的应用场景打开了大门,能够生成海量数据集来解决计算机视觉的最大瓶颈之一。

OpenAI表示,它将在今年夏天的某个时候发布DALL-E,也可能是分阶段发布,为感兴趣的用户进行预选。

对于那些等不及的人,或者没有能力支付这项服务的人,可以使用开源的替代品,如DALL-E Mini。

虽然许多基于DALL-E的应用程序的商业案例将取决于OpenAI为其API用户设定的定价和政策,但它们都肯定会使图像生成向前迈进一大步。

参考资料:

https://venturebeat.com/2022/04/16/how-dall-e-2-could-solve-major-computer-vision-challenges/

特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相关推荐
热点推荐
王石被限制出境

王石被限制出境

料道new
2026-03-30 16:29:44
郑丽文称两岸不是终须一战,卢秀燕紧急切割:个人意见不代表全部

郑丽文称两岸不是终须一战,卢秀燕紧急切割:个人意见不代表全部

影孖看世界
2026-03-30 23:13:51
鲁山舅舅娶亡姐大结局!新华社通报调查结果,这次终于真相大白了

鲁山舅舅娶亡姐大结局!新华社通报调查结果,这次终于真相大白了

青橘罐头
2026-03-31 07:11:50
晴天霹雳!武汉孕期女子哭诉丈夫突然被裁,房贷4500,生活或停摆

晴天霹雳!武汉孕期女子哭诉丈夫突然被裁,房贷4500,生活或停摆

火山詩话
2026-03-30 07:26:27
打破欧美日垄断数十年!张雪机车WSBK夺冠 张雪:五年吃掉国际大牌50%以上份额

打破欧美日垄断数十年!张雪机车WSBK夺冠 张雪:五年吃掉国际大牌50%以上份额

快科技
2026-03-31 07:22:06
张雪峰反复提的这7所大学,毕业就是铁饭碗,关键分数还不高!

张雪峰反复提的这7所大学,毕业就是铁饭碗,关键分数还不高!

优墨出品
2026-03-30 19:24:31
Claude Code创始人:我所有的代码都是AI写的

Claude Code创始人:我所有的代码都是AI写的

顶级大佬思维
2026-03-30 11:42:17
苹果在中国意外推出Apple Intelligence 已紧急移除

苹果在中国意外推出Apple Intelligence 已紧急移除

CNMO科技
2026-03-31 07:15:16
哈佛大学研究显示:每月性行为频次≥21次,可以大幅降低患癌风险

哈佛大学研究显示:每月性行为频次≥21次,可以大幅降低患癌风险

黯泉
2026-03-29 12:00:55
全红婵哽咽谈体重减不下来:饿到不行,希望大家不要再骂我了!

全红婵哽咽谈体重减不下来:饿到不行,希望大家不要再骂我了!

新民周刊
2026-03-30 15:38:07
突发!伊朗,危险了!

突发!伊朗,危险了!

财经要参
2026-03-31 07:04:55
59岁尹乃菁陪郑丽文赴江苏,这位镇江籍央视评论员又要“回家”了

59岁尹乃菁陪郑丽文赴江苏,这位镇江籍央视评论员又要“回家”了

阿讯说天下
2026-03-31 12:09:49
央视紧急曝光:全是假货!别再往家里拎了,很多人天天在用!

央视紧急曝光:全是假货!别再往家里拎了,很多人天天在用!

兴史兴谈
2026-03-30 15:15:11
郑丽文将访问大陆,重启什么,开创什么?

郑丽文将访问大陆,重启什么,开创什么?

新民周刊
2026-03-31 09:08:20
大战一触即发,特朗普准备豪赌

大战一触即发,特朗普准备豪赌

南风窗
2026-03-30 15:29:40
一定要大量读书:经常读书的人,一眼就能看出来

一定要大量读书:经常读书的人,一眼就能看出来

欣辰读书
2026-03-29 22:35:04
伊朗最大岛屿遭美以袭击,致8人死亡,位于霍尔木兹海峡北侧

伊朗最大岛屿遭美以袭击,致8人死亡,位于霍尔木兹海峡北侧

鲁中晨报
2026-03-31 09:57:01
释放维护两岸和平坚定信号,回应台湾主流民意殷殷期盼,大陆宣布国民党主席4月来访

释放维护两岸和平坚定信号,回应台湾主流民意殷殷期盼,大陆宣布国民党主席4月来访

环球网资讯
2026-03-31 07:12:04
新旧三幻神,你怎么选?

新旧三幻神,你怎么选?

贵圈真乱
2026-03-31 12:16:05
国足被打懵!8分钟连丢2球,颜骏凌不满,媒体人:怎么这么菜

国足被打懵!8分钟连丢2球,颜骏凌不满,媒体人:怎么这么菜

奥拜尔
2026-03-31 14:19:49
2026-03-31 15:03:00
新智元 incentive-icons
新智元
AI产业主平台领航智能+时代
14857文章数 66728关注度
往期回顾 全部

科技要闻

尚未正式宣发,国行苹果AI半夜"意外闪现"

头条要闻

美方:伊朗前领导人对特朗普"撒谎" 所以我们杀了他们

头条要闻

美方:伊朗前领导人对特朗普"撒谎" 所以我们杀了他们

体育要闻

县城修车工,用20年成为世界冠军

娱乐要闻

丝芭传媒举报鞠婧祎:瞒报收入竟达85%

财经要闻

高薪内推藏陷阱!"招转培"骗局盯上求职者

汽车要闻

腾势Z9GT到底GT在哪?

态度原创

房产
家居
时尚
手机
本地

房产要闻

14亿!电竞巨头出手,海棠湾“超级运动综合体”来了!

家居要闻

新婚爱巢 甜蜜情趣拉满

妈妈们的人生,不该只有一个选项

手机要闻

四曲面屏重出江湖!iPhone 20将搭载1.1毫米极窄边框

本地新闻

用Color Walk的方式解锁城市春日

无障碍浏览 进入关怀版