当前位置：首页 > news >正文

做网站在哪个程序做网站搜索

news 2026/4/7 12:49:07

做网站在哪个程序做,网站搜索,jquery网站开发实例,wordpress用什么写的9.1.3 简单介绍单阶段模型YOLO、YOLOv2、YOLO9000、YOLOv3的发展过程前情回顾：9.1.2 简单介绍两阶段模型R-CNN、SPPNet、Fast R-CNN、Faster R-CNN的发展过程摘要 YOLOYOLOv2YOLO9000YOLOv3基本思想使用一个端到端的卷积神经网络直接预测目标的类别和位置针对YOL…

9.1.3 简单介绍单阶段模型YOLO、YOLOv2、YOLO9000、YOLOv3的发展过程

前情回顾：9.1.2 简单介绍两阶段模型R-CNN、SPPNet、Fast R-CNN、Faster R-CNN的发展过程

摘要

	YOLO	YOLOv2	YOLO9000	YOLOv3
基本思想	使用一个端到端的卷积神经网络直接预测目标的类别和位置	针对YOLOv1的两个缺点进行改进	可以实时地检测超过9000种物体，其主要贡献是使用检测数据集和分类数据集进行联合训练。	在YOLOv2基础上进行改进，优化模型效果
优点	相对于两阶段模型，YOLO实时性高，但检测精度稍低		使用检测数据集和分类数据集进行联合训练	采用在YOLOv2基础上进行改进，优化模型效果进行联合训练，使其在小物体上也能获得很好的检测效果
输入图像	448×448	416×416
具体做法	将输入图片划分成SxS的方格，每个方格需要检测出中心点位于该方格内的物体。在具体实施时，每个方格会预测B个边界框（包括位置、尺寸和置信度）	1.批归一化（BN）层 2.在高精度的图片上调优（fine-tune）10个批次（batch） 3.k-means算法 4.直接在预先设定的锚框上提取特征 5.输入图像的尺寸：416×416 6.将不同大小的特征图结合起来进行物体检测 7.训练每隔10个批次就改变输入图片大小 8.DarkNet-19	字典树	损失函数：二元交叉熵损失函数
主体网络	参考 GoogLeNet，由24个卷积层和2个全连接层组成	DarkNet-19 采用3x3的卷积核，共有19个卷积层和5个池化层		DarkNet-53（53个卷积层）借鉴了残差网络的快捷连接（shortcut）结构
缺点	低召回率、低定位准确率

1.YOLO

基本思想：是使用一个端到端的卷积神经网络直接预测目标的类别和位置。
优点：相对于两阶段模型，YOLO实时性高，但检测精度稍低。
做法：YOLO将输入图片划分成SxS的方格，每个方格需要检测出中心点位于该方格内的物体。在具体实施时，每个方格会预测B个边界框（包括位置、尺寸和置信度）。
主体：YOLO的主体网络结构参考 GoogLeNet，由24个卷积层和2个全连接层组成。
缺点：低召回率、低定位准确率

2.YOLOv2

YOLOv2针对YOLO的两个缺点，即低召回率和低定位准确率，进行了一系列的改进，下面简单介绍其中的几点。
（1）YOLOv2在卷积层后面添加了批归一化（BN）层，以加快收敛速度，防止过拟合。
（2）YOLOv2的卷积特征提取器在进行检测任务前，先在高精度的图片上调优（fine-tune）10个批次（batch），这样能使检测模型提前适应高分辨率图像。
（3）YOLOv2采用k-means算法进行聚类获取先验锚框，并且聚类没有采用欧氏距离，而是有针对性地改进了距离的定义，即
$d (b o x, ce n t ro i d) = 1 - I O U (b o x, ce n t or i d)$
使其更适合于检测任务。
（4）YOLOv2直接在预先设定的锚框上提取特征。YOLO使用卷积神经网络作为特征提取器，在卷积神经网络之后加上全连接层来预测边界框的中心位置、大小和置信度；而YOLOv2借鉴了Faster R-CNN的思路，用卷积神经网络直接在锚点框上预测偏移量和置信度，该方法要比 YOLO更简单、更容易学习。
（5）YOLOv2将输入图像的尺寸从448x448变成416x416，这是因为在真实场景中，图片通常是以某个物体为中心，修改输入图像的尺寸后，将整幅图像经过卷积层后变成13x13（416／32＝13）的特征图，长宽都是奇数，可以有效地识别出中心。
（6）YOLOv2在13x13的特征图上检测物体，对于小物体检测这个精度还远远不够。因此，YOLOv2还将不同大小的特征图结合起来进行物体检测。具体来说，YOLOv2将最后一个池化层的输入26×26×512经过直通层变成13×13×2048的特征图，再与池化后的13×13×1024特征图结合在一起进行物体检测。
（7）YOLOv2 使用不同尺寸的图片同时训练网络。为了增强模型的鲁棒性，模型在训练过程中，每隔10个批次就改变输入图片的大小。
（8）YOLOv2使用新的卷积特征提取网络DarkNet-19。当时大多数检测模型的特征提取部分都采用VGGNet-16作为网络主体，VGGNet-16 虽然效果良好，但是参数过多，运行缓慢。DarkNet-19采用3x3的卷积核，共有19个卷积层和5个池化层。

3.YOLO9000

YOLO9000可以实时地检测超过9000种物体，其主要贡献是使用检测数据集和分类数据集进行联合训练。

检测数据集特点：相对于分类数据集来说，数据量小、类别少、类别粒度粗且获取困难，因此研究人员考虑使用分类和检测数据集进行联合训练，提高模型的泛化能力。
问题及解决：然而，一般分类数据集的标签粒度要远小于检测数据集的标签粒度，为了能够联合训练，YOLO9000 模型构建了字典树，合并 ImageNet的分类数据集标签与COCO的检测数据集标签。

4.YOLOv3

YOLOv3在YOLOv2的基础上进行了一些小的改动来优化模型的效果。

首先，检测数据可能存在一些语义上重叠的标签（如女人和人），但Softmax 函数基于一个假设，即每个检测框内的物体只存在一个类别。因此，YOLOv3使用二元交叉熵损失函数，而不是Softmax函数，这样可以更好地支持多标签的检测。
其次，YOLOv3采用了更深的网络作为特征提取器，即DarkNet-53，它包含了53个卷积层。
为了避免深层网络带来的梯度消失问题，DarkNet-53 借鉴了残差网络的快捷连接（shortcut）结构。
同时，YOLOv3还采用了3个不同大小的特征图进行联合训练，使其在小物体上也能获得很好的检测效果。

下集预告：9.1.4 有哪些措施可以增强模型对于小物体的检测效果？

参考文献：

《百面深度学习》诸葛越江云胜主编

出版社：人民邮电出版社（北京）

ISBN：978-7-115-53097-4

2020年7月第1版（2020年7月北京第二次印刷）

推荐阅读：

//好用小工具↓

分享一个免费的chat工具

分享一个好用的读论文的网站

// 深度学习经典网络↓

LeNet网络（1989年提出,1998年改进）

AlexNet网络（2012年提出）

VGGNet网络（2014年提出）

LeNet、AlexNet、VGGNet总结

GoogLeNet网络（2014年提出）

ResNet网络（2015年提出）