网易首页 > 网易号 > 正文 申请入驻

CV岗位面试题:简单说下YOLOv1,v2,v3,v4各自的特点与发展史

0
分享至

文 | 七月在线 编 | 小七

解析:


文章目录一、任务描述
二、设计思想
三、发展历程
1. YOLOv1
2. YOLOv2
3. YOLOv3
4. YOLOv4
四、总结

一、任务描述
目标检测是为了解决图像里的物体是什么,在哪里的问题。输入一幅图像,输出的是图像里每个物体的类别和位置,其中位置用一个包含物体的框表示。

需要注意,我们的目标,同时也是论文中常说的感兴趣的物体,指我们关心的类别(行人检测只检测人,交通检测只关心交通工具等),或者数据集包含的类别,并不是图像里所有的物体都是目标,比如建筑,草坪也是物体,但他们常常是背景。

从计算机视觉的角度看,目标检测是分类+定位,从机器学习的角度看,目标检测是分类+回归。
二、设计思想
目标检测架构分为两种,一种是two-stage,一种是one-stage,区别就在于 two-stage 有region proposal 过程,类似于一种海选过程,网络会根据候选区域生成位置和类别,而 one-stage 直接从图片生成位置和类别。
今天提到的 YOLO 就是一种 one-stage 方法。YOLO 是 You Only Look Once 的缩写,意思是神经网络只需要看一次图片,就能输出结果。

YOLO 一共发布了四个版本,其中 YOLOv1 奠定了整个系列的基础,后面的系列就是在第一版基础上的改进,只为提升性能。

YOLOv1 的检测方法如下:
①将输入图像划分为 S×S 网格(grid),比如这里划分成 7×7=49 个 grid,如果目标的中心落入网格单元,则该网格单元负责检测该目标。注意不是整个物体落入单元格,只需要物体中心在即可。
把图片划分成 49 个网格

②每个网格单元预测 B(文中 B=2) 个边界框和这些框的置信度得分。这个分数反映这个框包含物体的概率 Pr(Object) 以及预测框的位置准确性 IOU,所以置信分数也由这两部分定义;

③每个 bounding box 都要包含 5 个预测值,x, y, w, h, confidence。(x,y)框中心是相对于网格单元的坐标,w 和 h 是框相当于整幅图的宽和高,confidence 代表该框与 ground truth 之间的 IOU(框里没有物体分数直接为 0 )

定位:每个网格都要预测 B = 2 个框框,49 个网格就会输出 98 个边界框,每个框还有它的分数

④因为位置和类别需要同时预测,所以每个单元格除了输出 bounding box 也输出物体的条件概率(该物体属于某一类的概率,当然这些概率以包含对象的网格单元为条件)。每个网格单元输出一个概率集合,不考虑这个 grid 预测几个 bounding box。

分类:每个网格输出一个类别概率,也就是说一个网格只能属于概率最大的那一类

④测试阶段,在测试时,我们将条件分类概率与各个框的置信度预测相乘,作为每个框特定于每个类的置信分数(这个分数编码了类别和位置两部分信息)。

与 R-CNN 系列方法相比:
i) R-CNN 及其变体采用 region proposals 而不是滑动窗口法找物体,是一种多阶段方法。调网络的时候需要分开调,运行慢。
ii)YOLO 与 R-CNN 相似的地方是在网格单元找可能的边界框,用 CNN 提取特征。不同的是,加在网格单元的空间限制有助于防止同一个目标的重复检测,预测的边界框也少(98 个),还有把多个阶段结合成一个阶段。
三、发展历程
1、YOLOv1
问题背景
之前 two-stage 方法如 R-CNN 把检测问题分成两部分,先生成候选区域(region proposal),再用分类器对区域分类,多阶段训练导致不易优化。

创新点
把检测当作回归问题,用一个网络输出位置和类别,实现了一个 unified system,从检测的角度是 one-stage的

训练流程
和 R-CNN 差不多
首先 ImageNet 1000类 竞赛数据集上对卷积层进行预训练
然后再把网络根据检测任务微调

检测流程
a) 输入一幅多目标图像
b) 将图像划分成多个网格
c) 通过网络得到每个网格的分类概率,以及各网格预测的框+置信度
d) 针对每个框,把概率与置信分数相乘,作为每个框特定于每个类的置信分数
e) 输出位置和类别信息

优点
快。因为回归问题没有复杂的流程(pipeline)。

可以基于整幅图像预测(看全貌而不是只看部分)。与基于滑动窗口和区域提议的技术不同,YOLO在训练和测试期间会看到整个图像,因此它隐式地编码有关类及其外观的上下文信息。因为能看到图像全貌,与 Fast R-CNN 相比,YOLO 预测背景出错的次数少了一半。
学习到物体的通用表示(generalizable representations),泛化能力好。因此,当训练集和测试集类型不同时,YOLO 的表现比 DPM 和 R-CNN 好得多,应用于新领域也很少出现崩溃的情况。

缺点
空间限制:一个单元格只能预测两个框和一个类别,这种空间约束必然会限制预测的数量;
难扩展:模型根据数据预测边界框,很难将其推广到具有新的或不同寻常的宽高比或配置的对象。由于输出层为全连接层,因此在检测时,YOLO 训练模型只支持与训练图像相同的输入分辨率。
网络损失不具体:无论边界框的大小都用损失函数近似为检测性能,物体 IOU 误差和小物体 IOU 误差对网络训练中 loss 贡献值接近,但对于大边界框来说,小损失影响不大,对于小边界框,小错误对 IOU 影响较大,从而降低了物体检测的定位准确性。

2. YOLOv2
问题背景
YOLOv1 检测性能低
当前的检测任务受数据集标签的限制(数据集必须有标签或通过分类赋予标签)。但是,标记检测图像比标记分类图像昂贵得多,所以检测数据和分类数据不是一个规模。

创新点
针对第一个问题,使用一些方法提升 YOLOv1 的性能,得到 YOLOv2。
针对第二个问题,提出了 ImageNet 和 COCO 数据集的结合方法,以及联合训练方法,训练 YOLOv2 后得到的模型叫 YOLO9000。

提升性能的方法
Accuracy: Batch Normalization, High Resolution Classifier, Convolutional With Anchor Boxes, , Direct location prediction, Fine-Grained Features, Multi-Scale Training
Speed: 提出一个新网络 Darknet-19

训练流程
论文提出了一种联合训练算法,该算法可以在检测和分类数据上训练目标检测器。利用标记的检测图像来学习精准定位,同时使用分类图像来增加其“词汇量”和健壮性。
一、分类检测数据集结合方法:
检测数据集的标签少且普通,分类数据集的标签多且具体,如果我们想在两个数据集上训练,就得把它们的标签合并起来。很多分类方法都用一个 softmax layer ,但它的前提是假设所有类互斥,但我们的数据集类别是不都是互斥的(有可能是包含关系,例如狗和金毛犬),所以我们使用了一个多标签模型来组合数据集(无互斥的要求),及使用多个 softmax 。大多数分类方法都假定标签采用扁平结构,但是对于组合数据集我们需要层次化的结构。
ImageNet 标签采用有向图结构。在这里,作者把数据集的结构简化为结构树(hierarchical tree)。通过改造图,最后得到一个 WordTree,这样每个节点/标签都有自己的概率,解决了类别之间不互斥的问题,就能在检测集和分类集上联合训练。

二、联合训练方法:
把检测和分类数据混合,训练过程中遇到带标签的检测图像,就基于 YOLOv2 整个损失函数进行反向传播,遇到分类图像,只反向传播网络的分类损失。

3. YOLOv3
问题背景
YOLOv3 的提出不是为了解决什么问题,整篇论文其实是技术报告。
YOLOv3 在 YOLOv2 基础上做了一些小改进,文章篇幅不长,核心思想和 YOLOv2、YOLO9000差不多。

模型改进
边界框预测:定位任务采用 anchor box 预测边界框的方法,YOLOv3 使用逻辑回归为每个边界框都预测了一个分数 objectness score,打分依据是预测框与物体的重叠度。如果某个框的重叠度比其他框都高,它的分数就是 1,忽略那些不是最好的框且重叠度大于某一阈值(0.5)的框 类别预测:和 YOLOv2 一样,YOLOv3 仍然采取多标签分类
多尺度预测使用新网络 Darknet-53 提取特征

4. YOLOv4
问题背景
YOLO 原作者之前宣布退出CV界,YOLOv4 的作者其实不是前三篇 YOLO 的一作
YOLOv4 是对 YOLOv3 的一个改进。它的改进方法就是总结了几乎所有的检测技巧,又提出一点儿技巧,然后经过筛选,排列组合,挨个实验(ablation study)哪些方法有效。
值得注意的是文章第二部分相关工作,简直就是目标检测的一个简单综述,阅读该部分,你就能了解模型及方法,如果它提到的每个方法你都了解,说明你在这个方向的研究较全面深入(我没达到)。

框架方法
下面这幅论文中的图介绍了 YOLOv4 检测器的构成及使用的训练方法,这些是经过大量实验选出的性能最好的组合
四、总结回顾 YOLO 系列的发展,我们可以看出 YOLO 后期没有提出新颖的想法,更重视应用落地。

【深度学习 特训课】三大专家级讲师联合授课,从基础的神经网络入手,逐步往各大热门应用领域深入,理论和实践完美结合,带你迅速、高效的入门深度学习。

不论你是在校生,还是已经工作的算法工程师,或者是打算转行深度学习相关岗位的人,这门课都是深度学习路上的必修课程。

特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相关推荐
热点推荐
特朗普访华谈什么?件件都影响你生活:波音大豆牛肉,中东稀土AI

特朗普访华谈什么?件件都影响你生活:波音大豆牛肉,中东稀土AI

浪子阿邴聊体育
2026-05-14 21:12:02
最高院:提供 “口交” “肛交”等进入式性服务,是否属卖淫行为?

最高院:提供 “口交” “肛交”等进入式性服务,是否属卖淫行为?

周军律师聊案子
2026-04-21 09:50:16
斯基拉:内马尔已成功获得意大利国籍,正式成为意大利公民

斯基拉:内马尔已成功获得意大利国籍,正式成为意大利公民

懂球帝
2026-05-15 17:39:48
没给日本的,中方都给了特朗普,除了21响礼炮,还有一个重要承诺

没给日本的,中方都给了特朗普,除了21响礼炮,还有一个重要承诺

肖兹探秘说
2026-05-15 13:42:33
中纪委再标红线!公职人员下班后吃饭,这5种行为将被严肃处理!

中纪委再标红线!公职人员下班后吃饭,这5种行为将被严肃处理!

细说职场
2026-05-14 16:44:30
俄多地爆炸,近400架乌克兰无人机袭击俄罗斯

俄多地爆炸,近400架乌克兰无人机袭击俄罗斯

山河路口
2026-05-15 20:02:31
美国主持人北京报道因违停被罚,恼羞成怒吐槽监控,反遭网友群嘲

美国主持人北京报道因违停被罚,恼羞成怒吐槽监控,反遭网友群嘲

译言
2026-05-15 06:06:28
无缘20分逆转北京输在哪?数据一目了然,4主力拖后腿,1人要担责

无缘20分逆转北京输在哪?数据一目了然,4主力拖后腿,1人要担责

后仰大风车
2026-05-15 22:57:27
特朗普访华首日,大陆宣布统一后安排!岛内学者:台军应消灭台独

特朗普访华首日,大陆宣布统一后安排!岛内学者:台军应消灭台独

浪子阿邴聊体育
2026-05-14 21:15:28
狼来了?外资将杀入电信业,三大运营商瑟瑟发抖?资费要降价了!

狼来了?外资将杀入电信业,三大运营商瑟瑟发抖?资费要降价了!

世界圈
2026-05-15 09:16:34
王皓夺冠回京就提新车,妻子穿平底鞋比他还高

王皓夺冠回京就提新车,妻子穿平底鞋比他还高

军武英雄
2026-05-15 18:38:29
6战5胜!泰国公开赛国羽战报:石宇奇决胜局险胜,陈雨菲横扫晋级

6战5胜!泰国公开赛国羽战报:石宇奇决胜局险胜,陈雨菲横扫晋级

郝小小看体育
2026-05-15 18:38:06
泽连斯基称俄罗斯可能从白俄罗斯发起进攻,并袭击乌克兰决策中心

泽连斯基称俄罗斯可能从白俄罗斯发起进攻,并袭击乌克兰决策中心

山河路口
2026-05-15 23:16:45
俄方三大红线被捅破,俄军起杀心了:1500枚导弹无人机横扫乌克兰

俄方三大红线被捅破,俄军起杀心了:1500枚导弹无人机横扫乌克兰

近史博览
2026-05-15 04:01:26
活久见,某工程公司因工程款未到账,流动资金不足居然想出了这招

活久见,某工程公司因工程款未到账,流动资金不足居然想出了这招

黯泉
2026-05-15 16:19:10
钟南山发现:能活到90岁的老人,基本在60岁,就已经不做这6事了

钟南山发现:能活到90岁的老人,基本在60岁,就已经不做这6事了

医学科普汇
2026-05-13 23:30:08
再见湖人!再见东契奇!詹姆斯新合同曝光,网友:白菜价

再见湖人!再见东契奇!詹姆斯新合同曝光,网友:白菜价

野渡舟山人
2026-05-15 18:19:22
网红烤串店主动退款110万 近5万桌顾客收到钱 只因“口感未达最佳” 门店已全面整改设备 重新培训员工

网红烤串店主动退款110万 近5万桌顾客收到钱 只因“口感未达最佳” 门店已全面整改设备 重新培训员工

闪电新闻
2026-05-15 18:55:34
建议你一定养一个:顶嘴、拖拉、爱发脾气的孩子,长大有好处

建议你一定养一个:顶嘴、拖拉、爱发脾气的孩子,长大有好处

禾禾妈爱学习
2026-05-15 14:42:17
再次对话为190元榴莲“仅退款”千里讨公道商家:收到《行政处罚决定书》,只要她敢于认错我能选择原谅

再次对话为190元榴莲“仅退款”千里讨公道商家:收到《行政处罚决定书》,只要她敢于认错我能选择原谅

红星新闻
2026-05-15 22:29:15
2026-05-16 00:04:49
七月在线
七月在线
AI与智能网联汽车职教平台
837文章数 37关注度
往期回顾 全部

科技要闻

直降千元起步!苹果华为率先开启618让利

头条要闻

特朗普称中方同意购买200架波音飞机 外交部回应

头条要闻

特朗普称中方同意购买200架波音飞机 外交部回应

体育要闻

德约科维奇买的球队,从第6级联赛升入法甲

娱乐要闻

方媛为何要来《桃花坞6》没苦硬吃?

财经要闻

腾讯掉队,马化腾戳破真相

汽车要闻

高尔夫GTI刷新纽北纪录 ID. Polo GTI迎全球首秀

态度原创

旅游
家居
本地
公开课
军事航空

旅游要闻

别只冬天去哈尔滨,五月花海才是正确打开方式!

家居要闻

110㎡淡而有致的生活表达

本地新闻

用苏绣的方式,打开江西婺源

公开课

李玫瑾:为什么性格比能力更重要?

军事要闻

乌克兰首都基辅遭空袭 死亡人数增至12人

无障碍浏览 进入关怀版