网易首页 > 网易号 > 正文 申请入驻

2023年小型计算机视觉总结

0
分享至

在过去的十年中,出现了许多涉及计算机视觉(CV)的项目,无论是小型的概念验证项目还是更大规模的生产应用。应用计算机视觉的方法是相当标准化的:

1、定义问题(分类、检测、跟踪、分割)、输入数据(图片的大小和类型、视野)和类别(正是我们想要的)

2、注释一些图片

3、选择一个网络架构,训练-验证,得到一些统计数据

4、构建推理系统并进行部署

到2023年底,人工智能领域迎来了生成式人工智能的新成功:大型语言模型(llm)和图像生成模型。每个人都在谈论它,它们对小型计算机视觉应用有什么改变吗?

本文将探索是否可以利用它们来构建数据集,利用新的架构和新的预训练权重,或者从大模型中提取知识。

小型计算机视觉

在这里,我们通常感兴趣的是可以以相对较小的规模构建和部署的应用程序:

开发成本不应该太高

它不应该需要一个庞大的基础设施来训练(想想计算能力和数据规模)

‍它不需要很强的研究技能,而是应用现有的技术

⚡推理应该是轻量级和快速的,以便它可以嵌入或部署在CPU服务器上

总体环境足迹应该很小(考虑计算能力,模型/数据的一般大小,没有特定的硬件要求)

这显然不是当今人工智能的趋势,因为我们在今年看到的都是具有数十亿个参数的模型,并且这些模型开始成为某些应用程序的标准。但重要的是:关心更小的规模是至关重要的,并不是所有的项目都应该遵循谷歌、Meta、OpenAI或微软的规模趋势并且我们也不可能有它们那么大的资金。

目前来看大多数有趣的计算机视觉项目实际上也比那些大公司的项目规模要小得多,但这并不意味着我们就要缩小我们的应用程序,而是说我们应该更加关心开发和推理成本。所以考虑到这一点,我们还能在应用中利用人工智能的最新发展吗?

首先看看基础模型

计算机视觉中的基础模型

新的大型语言模型(LLM)已经很流行,因为你可以很容易地在应用程序中使用基础模型(许多是开源的,或者可以通过API使用)。把GPT、Bert、Llama看作这样的模型。基础模型是一个非常大的通用神经网络,它是大多数下游任务的基础。它包含了非常广泛的主题,语义,语法,不同的语言等知识。

在计算机视觉中,这样的模型已经存在了很长一段时间了:使用ImageNet(100万张标记图像)上预训练的神经网络作为下游任务的“基础”模型是标准的。你可以在它的基础上构建你的神经网络,如果需要的话,还可以根据你自己的数据对它进行微调。



ImageNet预训练网络和llm之间有两个主要的概念区别:

训练的数据类型:ImageNet依赖于纯粹的监督学习:一个大规模的分类任务,而LLM是生成模型:它们以一种使用原始文本的自监督方式训练(任务只是预测下一个单词)。

基础模型对新任务的适应:ImageNet预训练网络系统地需要一个新的学习过程来适应新的任务。但是对于llm,虽然可以对模型进行微调,但模型已经足够强大,无需任何进一步的训练就可以用于下游任务,只需用正确的信息提示模型,使其对新任务有用。

目前大多数计算机视觉应用,如分类,目标检测,分割仍然使用ImageNet预训练网络。下面我们回顾一下可能用于计算机视觉任务的或即将出现的新模型。

计算机视觉的新基础模型综述

在计算机视觉的世界里,除了ImageNet,有很多自监督网络的例子,其中一些是生成模型(比如GAN和最近的扩散模型)。它们只接受原始图像或图像-文本对(例如图像及其描述)的训练。它们有时被称为LVM(大视觉模型)。

(弱)有监督的视觉模型:

1、DINOv2 (Meta) -一个大型ViT(1B参数)的集合,以完全自监督的方式进行训练。



2、SAM Segment Anything (Meta) -一个用于高分辨率图像的ViT,专门设计用于分割,并可以进行零样本分割(不需要注释来生成新的分割蒙版)。另一个用例是使用SAM作为医学图像分割的附加输入。



基于图像-文本对训练的视觉语言基础模型:

CLIP (OpenAI) -图像和简短描述的对齐,非常适合于拍摄分类,并在实践中用作各种下游CV任务的基础模型



大型生成模型,现在是多模态的(包括能够在其架构中理解复杂文本的大型语言模型):

StableDiffusion

Dall-E (OpenAI)

视觉专用多任务大型模型

Florence-2:统一计算机视觉(Microsoft)



大型闭源坏模型

只能通过api获得:大型多用途模型,不以视觉为中心,但展示了出色的视觉能力,以及生成能力;

GPT-4V (OpenAI)

Gemini (Google)

除了闭源以外,还有许多开源的、更小的、多用途的视觉+文本聊天模型正在开发中,例如LlaVA。

所有这些模型都是强大的基础模型,涵盖了许多视觉领域,在许多情况下都能很好地完成判别或生成任务。如何在我们特定的小型环境中利用它们呢?

构建训练数据集

使用这些新模型的一个实用的想法是保持我们的标准训练管道,例如广泛使用的Yolo检测器,通过生成新的训练图像和/或生成注释来改进我们的数据集。流程如下:

标准数据集由一组带注释的训练和验证图像组成

增强数据集将使用强大的通用模型来添加自动注释:

1)对未标记图像的新注释⇒这需要一个已经适合任务的模型。可以使用一个非常大的通用模型,仔细地添加示例或提示,进行零标注,或者根据现有的人工注释对非常大的模型进行微调。

2)在现有标注的基础上增加一层新的信息,例如使用SAM从边界框信息中自动添加分割标注



生成的数据集由生成的图像及其注释组成。构建一个由图像和/或文本组成的提示,以生成数千个图像及其注释。可以直接使用API来生成这些带注释的图像(与寻找好的图像和收集人工注释相比,成本应该很小)。

将验证集与生成的或增强的集分开,因为要在精心标记的数据上度量实际性能。这意味着在实践中,即使我们选择了新的生成技术或基础模型,仍然需要对真实图像进行一些手动标记。

扩充数据集的例子

可以从现有的图像开始,通过丰富它们或使它们更容易注释来改进标签。现在有几个数据标注平台提出使用SAM或DINOv2,通过对图片中的物体进行预分割来提高标注效率。

生成的数据集示例

虽然生成数据集的想法已经存在很长时间并且被广泛用于训练LLM,但找到真正的小型应用程序来有效地利用生成的数据(自动注释或纯合成数据)是相当具有挑战性的。

不使用基础模型,而是使用简单的渲染管道,或者使用类似的技术使用3D渲染来生成数据,这些结果目前看起来还很粗糙

https://github.com/921kiyo/3d-dl



使用生成模型完全生成图片和注释,以下图片是使用Dall-E 生成图片的样例



还可以使用CV处理构建数据集(例如将对象粘贴到背景中进行分割任务),但是这里的问题是,数据的质量将在很大程度上取决于生成图像的质量,因此将不得不在构建正确的渲染步骤上投入大量精力(在3D中甚至更多)。

目前还没有太多使用纯生成模型生成数据集的成功例子,但考虑到最近图像生成AI模型的渲染质量和可操作性,我个人认为这只是时间的问题。比如有可能使用ControlNet从现有的分割蒙版或轮廓开始生成已经有标签的新图片,但目前还不清楚它是否能很好地与非分布类(即不是标准的COCO类)一起工作,或者分辨率是否足够好。

下面这篇论文提出了一个类似的想法,即修改现有的标记图片以生成共享分割掩码的新图片,从而产生增压的语义数据增强。

https://liu.diva-portal.org/smash/get/diva2:1779399/FULLTEXT01.pdf



但是当生成成千上万的图像而不是手动管理和标记它们时,应该考虑成本,因为改进并不明显!

最后

通过训练带有人类注释数据的模型来实现现代计算机视觉的方式即将被新的大型基础模型彻底改变。

大型基础模型有时具有“纳米级”版本,用于在低端服务器甚至嵌入式应用程序上进行推理。但是对于这些应用来说,它们仍然太大了,并且对于新任务的调整也不是那么便宜。因为目前,我们还是不会边缘设备上使用500M+参数的VIT模型,而是选择更小,更专业的模型。

但是对于小型的推理和低资源开发,我们也可以使用大型基础模型,或者通过使用api /本地推理直接调用这些模型,或者使用这些模型的一些知识。今天主要通过帮助标记数据,明天通过其他方式知识转移-例如,蒸馏。



没有标准的程序或普遍的方法来从这些大型或生成模型中转移这些知识,但它可能会在2024年有所发展!

作者:Charles Ollion

特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相关推荐
热点推荐
金喜善因女儿丑被质疑整容,称长开就好了,结果12年后却被打脸!

金喜善因女儿丑被质疑整容,称长开就好了,结果12年后却被打脸!

简读视觉
2024-05-01 01:50:21
痛心!青岛小伙不幸溺亡!他去救别人的儿子,去救别人的妈妈,而他的妻子、儿子站在岸边,眼睁睁看着失去他

痛心!青岛小伙不幸溺亡!他去救别人的儿子,去救别人的妈妈,而他的妻子、儿子站在岸边,眼睁睁看着失去他

鲁中晨报
2024-05-07 11:15:10
蔡依林打卡重庆李子坝穿楼,穿着太潮了吧!

蔡依林打卡重庆李子坝穿楼,穿着太潮了吧!

阿芒娱乐说
2024-05-08 09:55:08
美女密码:090

美女密码:090

娱乐的小灶
2024-05-06 07:50:26
23点,郭艾伦宣布重要决定,辽篮生死战再生变故!恭喜杜锋朱芳雨

23点,郭艾伦宣布重要决定,辽篮生死战再生变故!恭喜杜锋朱芳雨

小鬼头体育
2024-05-08 15:58:37
沙特大满贯女单16强对阵:孙颖莎陷入内战,陈梦遭日本三主力阻击

沙特大满贯女单16强对阵:孙颖莎陷入内战,陈梦遭日本三主力阻击

骑马寺的少年
2024-05-08 14:17:29
反转!高亚麟抚养协议曝光,女方分走深圳一套房,闹掰原因曝光!

反转!高亚麟抚养协议曝光,女方分走深圳一套房,闹掰原因曝光!

柠檬有娱乐
2024-05-08 11:04:42
央视直播六场!乒乓球沙特大满贯5月8日赛程,CCTV5 CCTV5+直播

央视直播六场!乒乓球沙特大满贯5月8日赛程,CCTV5 CCTV5+直播

刘哥谈体育
2024-05-08 12:36:32
辟谣:敏昂莱捡到无人机,一个小时洗了亲美克钦军三个营是假的

辟谣:敏昂莱捡到无人机,一个小时洗了亲美克钦军三个营是假的

泸沽湖
2024-05-08 10:46:59
曝足协罚单出炉:大连广州全罚,球员最多3场停赛,大连或空场2轮

曝足协罚单出炉:大连广州全罚,球员最多3场停赛,大连或空场2轮

小金体坛大视野
2024-05-08 12:39:53
蓝鲸一次排便可达2吨!方圆百米遮天蔽日,竟被称为自然的恩赐?

蓝鲸一次排便可达2吨!方圆百米遮天蔽日,竟被称为自然的恩赐?

青栀伊人
2024-05-01 22:04:40
无缘四强,六次参加世界杯最差战绩,“小胖”到了最危险时刻!

无缘四强,六次参加世界杯最差战绩,“小胖”到了最危险时刻!

全眼看体育
2024-04-19 21:40:30
能升级了吗!微软偷偷让步:让更多Windows 10用户升级Win11 23H2

能升级了吗!微软偷偷让步:让更多Windows 10用户升级Win11 23H2

快科技
2024-05-06 17:58:11
同是85岁,岳父乡书记退休金8200,父亲村书记每月补贴260,公平吗

同是85岁,岳父乡书记退休金8200,父亲村书记每月补贴260,公平吗

户外阿崭
2024-05-07 16:59:07
巩俐携老公受邀出席爱丽舍宫晚宴倍有面子,气场完胜法国第一夫人

巩俐携老公受邀出席爱丽舍宫晚宴倍有面子,气场完胜法国第一夫人

室内设计师阿喇
2024-05-08 15:11:41
打脸质疑者!雷霆掀翻独行侠,季后赛5战全胜,青春风暴来袭

打脸质疑者!雷霆掀翻独行侠,季后赛5战全胜,青春风暴来袭

天涯沦落人
2024-05-08 11:59:06
飙涨近4亿!皇马赚麻了:5大才俊羡煞全欧,25岁铁人仅投了500万

飙涨近4亿!皇马赚麻了:5大才俊羡煞全欧,25岁铁人仅投了500万

叁炮体育
2024-05-08 10:08:53
再见莱昂纳德!勇士快船最新交易曝光,1换2交易达成,各自利好

再见莱昂纳德!勇士快船最新交易曝光,1换2交易达成,各自利好

巅峰球坛
2024-05-07 16:45:03
阿拉法特的错误,造成了巴勒斯坦的苦难,中国数十年前曾劝告未果

阿拉法特的错误,造成了巴勒斯坦的苦难,中国数十年前曾劝告未果

博览历史
2024-05-07 16:40:05
哈尔滨一男子雪天消失,妻子找寻八年无果,却在打车时坐上自家车

哈尔滨一男子雪天消失,妻子找寻八年无果,却在打车时坐上自家车

神秘历史故事
2024-04-19 10:46:16
2024-05-08 17:08:49
deephub
deephub
CV NLP和数据挖掘知识
1333文章数 1414关注度
往期回顾 全部

科技要闻

M4芯片直接让iPad Pro秒杀了所有AI PC!

头条要闻

85后国企老总妄想靠赌球暴富 第一次受贿躲卫生间数钱

头条要闻

85后国企老总妄想靠赌球暴富 第一次受贿躲卫生间数钱

体育要闻

没戈贝尔没问题 森林狼的防守强到离谱

娱乐要闻

玄彬为孙艺珍拍吃饭照片 甜蜜溢出屏幕

财经要闻

金徽酒业绩未达标!管理层薪酬却翻倍

汽车要闻

绝不被驯服 福特烈马是台纯粹的越野玩具!

态度原创

艺术
房产
本地
手机
公开课

艺术要闻

中国嘉德2024春拍第一阶段预展揭幕!吴大羽油画力作亮相

房产要闻

真猛!底价拿地,央企又要加码三亚!

本地新闻

不懂就问,站姐转黑为什么是明星的第一酷刑

手机要闻

小米折叠屏新品 MIX Fold 4 手机细节曝光:双电池设计、大底潜望

公开课

父亲年龄越大孩子越不聪明?

无障碍浏览 进入关怀版