网易首页 > 网易号 > 正文 申请入驻

CV岗位面试题:简单说下YOLOv1,v2,v3,v4各自的特点与发展史

0
分享至

文 | 七月在线 编 | 小七

解析:


文章目录一、任务描述
二、设计思想
三、发展历程
1. YOLOv1
2. YOLOv2
3. YOLOv3
4. YOLOv4
四、总结

一、任务描述
目标检测是为了解决图像里的物体是什么,在哪里的问题。输入一幅图像,输出的是图像里每个物体的类别和位置,其中位置用一个包含物体的框表示。

需要注意,我们的目标,同时也是论文中常说的感兴趣的物体,指我们关心的类别(行人检测只检测人,交通检测只关心交通工具等),或者数据集包含的类别,并不是图像里所有的物体都是目标,比如建筑,草坪也是物体,但他们常常是背景。

从计算机视觉的角度看,目标检测是分类+定位,从机器学习的角度看,目标检测是分类+回归。
二、设计思想
目标检测架构分为两种,一种是two-stage,一种是one-stage,区别就在于 two-stage 有region proposal 过程,类似于一种海选过程,网络会根据候选区域生成位置和类别,而 one-stage 直接从图片生成位置和类别。
今天提到的 YOLO 就是一种 one-stage 方法。YOLO 是 You Only Look Once 的缩写,意思是神经网络只需要看一次图片,就能输出结果。

YOLO 一共发布了四个版本,其中 YOLOv1 奠定了整个系列的基础,后面的系列就是在第一版基础上的改进,只为提升性能。

YOLOv1 的检测方法如下:
①将输入图像划分为 S×S 网格(grid),比如这里划分成 7×7=49 个 grid,如果目标的中心落入网格单元,则该网格单元负责检测该目标。注意不是整个物体落入单元格,只需要物体中心在即可。
把图片划分成 49 个网格

②每个网格单元预测 B(文中 B=2) 个边界框和这些框的置信度得分。这个分数反映这个框包含物体的概率 Pr(Object) 以及预测框的位置准确性 IOU,所以置信分数也由这两部分定义;

③每个 bounding box 都要包含 5 个预测值,x, y, w, h, confidence。(x,y)框中心是相对于网格单元的坐标,w 和 h 是框相当于整幅图的宽和高,confidence 代表该框与 ground truth 之间的 IOU(框里没有物体分数直接为 0 )

定位:每个网格都要预测 B = 2 个框框,49 个网格就会输出 98 个边界框,每个框还有它的分数

④因为位置和类别需要同时预测,所以每个单元格除了输出 bounding box 也输出物体的条件概率(该物体属于某一类的概率,当然这些概率以包含对象的网格单元为条件)。每个网格单元输出一个概率集合,不考虑这个 grid 预测几个 bounding box。

分类:每个网格输出一个类别概率,也就是说一个网格只能属于概率最大的那一类

④测试阶段,在测试时,我们将条件分类概率与各个框的置信度预测相乘,作为每个框特定于每个类的置信分数(这个分数编码了类别和位置两部分信息)。

与 R-CNN 系列方法相比:
i) R-CNN 及其变体采用 region proposals 而不是滑动窗口法找物体,是一种多阶段方法。调网络的时候需要分开调,运行慢。
ii)YOLO 与 R-CNN 相似的地方是在网格单元找可能的边界框,用 CNN 提取特征。不同的是,加在网格单元的空间限制有助于防止同一个目标的重复检测,预测的边界框也少(98 个),还有把多个阶段结合成一个阶段。
三、发展历程
1、YOLOv1
问题背景
之前 two-stage 方法如 R-CNN 把检测问题分成两部分,先生成候选区域(region proposal),再用分类器对区域分类,多阶段训练导致不易优化。

创新点
把检测当作回归问题,用一个网络输出位置和类别,实现了一个 unified system,从检测的角度是 one-stage的

训练流程
和 R-CNN 差不多
首先 ImageNet 1000类 竞赛数据集上对卷积层进行预训练
然后再把网络根据检测任务微调

检测流程
a) 输入一幅多目标图像
b) 将图像划分成多个网格
c) 通过网络得到每个网格的分类概率,以及各网格预测的框+置信度
d) 针对每个框,把概率与置信分数相乘,作为每个框特定于每个类的置信分数
e) 输出位置和类别信息

优点
快。因为回归问题没有复杂的流程(pipeline)。

可以基于整幅图像预测(看全貌而不是只看部分)。与基于滑动窗口和区域提议的技术不同,YOLO在训练和测试期间会看到整个图像,因此它隐式地编码有关类及其外观的上下文信息。因为能看到图像全貌,与 Fast R-CNN 相比,YOLO 预测背景出错的次数少了一半。
学习到物体的通用表示(generalizable representations),泛化能力好。因此,当训练集和测试集类型不同时,YOLO 的表现比 DPM 和 R-CNN 好得多,应用于新领域也很少出现崩溃的情况。

缺点
空间限制:一个单元格只能预测两个框和一个类别,这种空间约束必然会限制预测的数量;
难扩展:模型根据数据预测边界框,很难将其推广到具有新的或不同寻常的宽高比或配置的对象。由于输出层为全连接层,因此在检测时,YOLO 训练模型只支持与训练图像相同的输入分辨率。
网络损失不具体:无论边界框的大小都用损失函数近似为检测性能,物体 IOU 误差和小物体 IOU 误差对网络训练中 loss 贡献值接近,但对于大边界框来说,小损失影响不大,对于小边界框,小错误对 IOU 影响较大,从而降低了物体检测的定位准确性。

2. YOLOv2
问题背景
YOLOv1 检测性能低
当前的检测任务受数据集标签的限制(数据集必须有标签或通过分类赋予标签)。但是,标记检测图像比标记分类图像昂贵得多,所以检测数据和分类数据不是一个规模。

创新点
针对第一个问题,使用一些方法提升 YOLOv1 的性能,得到 YOLOv2。
针对第二个问题,提出了 ImageNet 和 COCO 数据集的结合方法,以及联合训练方法,训练 YOLOv2 后得到的模型叫 YOLO9000。

提升性能的方法
Accuracy: Batch Normalization, High Resolution Classifier, Convolutional With Anchor Boxes, , Direct location prediction, Fine-Grained Features, Multi-Scale Training
Speed: 提出一个新网络 Darknet-19

训练流程
论文提出了一种联合训练算法,该算法可以在检测和分类数据上训练目标检测器。利用标记的检测图像来学习精准定位,同时使用分类图像来增加其“词汇量”和健壮性。
一、分类检测数据集结合方法:
检测数据集的标签少且普通,分类数据集的标签多且具体,如果我们想在两个数据集上训练,就得把它们的标签合并起来。很多分类方法都用一个 softmax layer ,但它的前提是假设所有类互斥,但我们的数据集类别是不都是互斥的(有可能是包含关系,例如狗和金毛犬),所以我们使用了一个多标签模型来组合数据集(无互斥的要求),及使用多个 softmax 。大多数分类方法都假定标签采用扁平结构,但是对于组合数据集我们需要层次化的结构。
ImageNet 标签采用有向图结构。在这里,作者把数据集的结构简化为结构树(hierarchical tree)。通过改造图,最后得到一个 WordTree,这样每个节点/标签都有自己的概率,解决了类别之间不互斥的问题,就能在检测集和分类集上联合训练。

二、联合训练方法:
把检测和分类数据混合,训练过程中遇到带标签的检测图像,就基于 YOLOv2 整个损失函数进行反向传播,遇到分类图像,只反向传播网络的分类损失。

3. YOLOv3
问题背景
YOLOv3 的提出不是为了解决什么问题,整篇论文其实是技术报告。
YOLOv3 在 YOLOv2 基础上做了一些小改进,文章篇幅不长,核心思想和 YOLOv2、YOLO9000差不多。

模型改进
边界框预测:定位任务采用 anchor box 预测边界框的方法,YOLOv3 使用逻辑回归为每个边界框都预测了一个分数 objectness score,打分依据是预测框与物体的重叠度。如果某个框的重叠度比其他框都高,它的分数就是 1,忽略那些不是最好的框且重叠度大于某一阈值(0.5)的框 类别预测:和 YOLOv2 一样,YOLOv3 仍然采取多标签分类
多尺度预测使用新网络 Darknet-53 提取特征

4. YOLOv4
问题背景
YOLO 原作者之前宣布退出CV界,YOLOv4 的作者其实不是前三篇 YOLO 的一作
YOLOv4 是对 YOLOv3 的一个改进。它的改进方法就是总结了几乎所有的检测技巧,又提出一点儿技巧,然后经过筛选,排列组合,挨个实验(ablation study)哪些方法有效。
值得注意的是文章第二部分相关工作,简直就是目标检测的一个简单综述,阅读该部分,你就能了解模型及方法,如果它提到的每个方法你都了解,说明你在这个方向的研究较全面深入(我没达到)。

框架方法
下面这幅论文中的图介绍了 YOLOv4 检测器的构成及使用的训练方法,这些是经过大量实验选出的性能最好的组合
四、总结回顾 YOLO 系列的发展,我们可以看出 YOLO 后期没有提出新颖的想法,更重视应用落地。

【深度学习 特训课】三大专家级讲师联合授课,从基础的神经网络入手,逐步往各大热门应用领域深入,理论和实践完美结合,带你迅速、高效的入门深度学习。

不论你是在校生,还是已经工作的算法工程师,或者是打算转行深度学习相关岗位的人,这门课都是深度学习路上的必修课程。

特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相关推荐
热点推荐
记者:高下立判,阿隆索34场6负下课,阿韦洛亚23场7负仍留任

记者:高下立判,阿隆索34场6负下课,阿韦洛亚23场7负仍留任

懂球帝
2026-04-26 19:19:07
炸锅!iPhone18标准版开启顶配时代,老用户直呼买早了!

炸锅!iPhone18标准版开启顶配时代,老用户直呼买早了!

时尚的弄潮
2026-04-26 19:08:48
ESPN:内马尔无故缺席桑托斯周日训练,俱乐部已与球员联系

ESPN:内马尔无故缺席桑托斯周日训练,俱乐部已与球员联系

懂球帝
2026-04-27 05:06:03
剧本重现!郑钦文1-2莱巴金娜,输球原因揭晓,一数据太拉胯!

剧本重现!郑钦文1-2莱巴金娜,输球原因揭晓,一数据太拉胯!

大秦壁虎白话体育
2026-04-27 07:24:39
日韩股市创新高,日经225突破60000点,首尔半导体猛拉24%

日韩股市创新高,日经225突破60000点,首尔半导体猛拉24%

21世纪经济报道
2026-04-27 08:52:28
保时捷也是尽力了,中国的卡宴EV是全球最低价!

保时捷也是尽力了,中国的卡宴EV是全球最低价!

米粒说车唯一呀
2026-04-26 17:04:14
时光匆匆!济南双截棍掌门武桂东去世,年仅53岁,知情人曝死因!

时光匆匆!济南双截棍掌门武桂东去世,年仅53岁,知情人曝死因!

嫹笔牂牂
2026-04-27 07:47:51
46号令正式生效!1996至2026彻查,退休不再是保护伞

46号令正式生效!1996至2026彻查,退休不再是保护伞

童童聊娱乐啊
2026-04-27 08:38:59
下架视频并封号!3人被拘留!警方:没有一句是实话

下架视频并封号!3人被拘留!警方:没有一句是实话

南方都市报
2026-04-26 09:09:00
伟大传承!赵心童赢球后主动握手致敬丁俊晖 央媒:意义超越胜负

伟大传承!赵心童赢球后主动握手致敬丁俊晖 央媒:意义超越胜负

念洲
2026-04-26 20:15:54
沦为弃子!法媒:博格巴无法立足摩纳哥 赛季出场57分钟体能剩20分钟

沦为弃子!法媒:博格巴无法立足摩纳哥 赛季出场57分钟体能剩20分钟

新英体育
2026-04-27 10:31:02
此论调不可取:整个北约打不过俄罗斯?把德国逼下场会让俄军绝望

此论调不可取:整个北约打不过俄罗斯?把德国逼下场会让俄军绝望

寰球经纬所
2026-04-24 15:00:27
《八千里路云和月》大结局,黄瞎子演技封神,塑造别样“军统”

《八千里路云和月》大结局,黄瞎子演技封神,塑造别样“军统”

花煜寒
2026-04-27 10:23:27
俄罗斯罕见让步!中国30年心结一朝化解!美媒:欧盟帮了中国大忙

俄罗斯罕见让步!中国30年心结一朝化解!美媒:欧盟帮了中国大忙

阿离家居
2026-04-26 18:21:33
俞敏洪还是不够杀伐果断:慈不掌兵,个人意志必须服从公司需要!

俞敏洪还是不够杀伐果断:慈不掌兵,个人意志必须服从公司需要!

老方
2026-04-26 14:57:57
李提香:没有人愿意输球,如果保持这种状态就不会赢得胜利

李提香:没有人愿意输球,如果保持这种状态就不会赢得胜利

懂球帝
2026-04-26 21:58:39
前东方甄选主播天权回应离职:公司管理层、直播间风格、办公氛围均在过去四个月发生改变,自己的价值与公司需求似乎不再匹配

前东方甄选主播天权回应离职:公司管理层、直播间风格、办公氛围均在过去四个月发生改变,自己的价值与公司需求似乎不再匹配

极目新闻
2026-04-26 18:06:40
事态升级,中方军舰越聚越多,四川舰和辽宁舰汇合,菲日休想闹事

事态升级,中方军舰越聚越多,四川舰和辽宁舰汇合,菲日休想闹事

潮鹿逐梦
2026-04-25 19:02:47
比越南还要白眼狼!中国决定撤离援助后,该国家居然立即翻脸

比越南还要白眼狼!中国决定撤离援助后,该国家居然立即翻脸

瞻史
2026-04-27 09:24:25
赵明也来造车,放话“干翻特斯拉”,车圈彻底乱了

赵明也来造车,放话“干翻特斯拉”,车圈彻底乱了

老特有话说
2026-04-19 15:12:39
2026-04-27 11:35:00
七月在线
七月在线
AI与智能网联汽车职教平台
837文章数 37关注度
往期回顾 全部

科技要闻

打1折!DeepSeek输入缓存降价

头条要闻

伊朗外长折返伊斯兰堡内情披露:阿曼提出重要提议

头条要闻

伊朗外长折返伊斯兰堡内情披露:阿曼提出重要提议

体育要闻

最抽象的天才,正在改变瓜迪奥拉

娱乐要闻

《奔跑吧14》刚播就把一手好牌打稀烂

财经要闻

DeepSeek融资、字节加码 AI开始真烧钱了

汽车要闻

限量630台 兰博基尼Urus SE特别版官图发布

态度原创

时尚
旅游
教育
手机
本地

比起买大件,这些“小装备”更派得上用场!

旅游要闻

五一“赶黄河大集·狮子刘好时节”盛宴启幕!

教育要闻

秋·思辨课首发!算法时代孩子最需要提升的思维元能力(含报名优惠、课程大纲)

手机要闻

荣耀畅玩80 Plus现身中国电信终端产品库,内置7500mAh电池

本地新闻

云游中国|逛世界风筝都 留学生探秘中国传统文化

无障碍浏览 进入关怀版