当前位置：首页 > news >正文

网站开发模板免费下载域名多少钱一年

news 2026/4/14 13:12:20

网站开发模板免费下载,域名多少钱一年,湖南招标网官网,苏州无名网络科技有限公司#x1f680; 在此之前主要介绍了YOLO v5源码的安装和使用#xff08;YOLO v5安装教程#xff09;#xff0c;接下来将探索YOLO的实现原理#xff0c;作为一个金典的单阶段目标检测算法#xff0c;应该深度的理解它的构建思想#xff1b;所以本系列文章将从LOVO v1出发到… 在此之前主要介绍了YOLO v5源码的安装和使用YOLO v5安装教程接下来将探索YOLO的实现原理作为一个金典的单阶段目标检测算法应该深度的理解它的构建思想所以本系列文章将从LOVO v1出发到LOVO v9进行深度理解包括代码以及论文。 1前导知识 1.1 单阶段和两阶段也许我们耳熟能详的是yolo系列它是一个单阶段one stage的目标检测那何为单阶段呢 example: one-stage 对于单阶段来说就是将图片扔入神经网络中神经网络只干一件事就是得到目标物体的坐标即将其转化位一个回归问题。无预选阶段精度较低速度快原文摘要中的一句话we frame object detection as a regression problem to spatially separated bounding boxes and associated class probabilities. 即转化为回归问题直接预测框的坐标和类别的概率。 two stage 对于两阶段的目标检测算法来说其就是干两件事第一件事先通过网络得到一定比率最佳的即候选框 proposal最后再通过网络选择出来一个最后的候选框。有了预选精度上会比较高。 1.2 评价指标MAP 和 IOU MAP MAP就是用于综合衡量检测算法效果的一个指标。它具体如何计算等会再说这里只需要理解MAP是衡量检测算法效果的。精度precision: 就是检测的精准度重点在于精准度所表达的意思像这句话一抓一个准即抓住的都是准确的就是精度高。召回率racall: 就是检测比率重点在于能否全检测出来所表达的意思像这句话宁可错杀一千不可放过一个即就是想全抓住不想漏掉一个。是否可以只使用精度或者召回率来评价模型呢显然是不行的: 若只使用精度来评价模型精度是说只管抓的准不准若有1000个目标只抓了2个俩个都抓对了精度分常高一抓一个准可是还有998个都没有被抓住显然模型是不太行但是使用精度来评价该模型的话得出来的结论却是该模型是很好的精度非常的高。若只使用来评价模型召回率是说只管能不能全抓住若有2个目标却抓了1000个俩个都抓到了召回率分常高都全部抓住了可以还有998个都抓错了显然模型不太行但是使用召回率来评价该模型的话得出来的结论却是该模型是很好的召回率非常的高。所以单是使用精度或则召回率来评价模型是不行的一个指标高另外一个指标就会低所以就需要一个综合的评价指标既要评价精度又要评价召回率即使用MAP来评价。通过绘制PR图来评价图中的每一个点都代表在该点处的精度和召回率而所谓的MAP值就是PR图中线所围成的面积显然MAP越接近于1的模型的综合能力就会越强。 IOU 如下图所示其中蓝色框为真实值即标签值即 label 值其中黄色框为模型的预测值prediction 。IOU的值就是重合区域Area of Overlap的值比上二者区域的总和Area of Union面积显然对于IOU来说比值越接近于1的话就会越好。 2YOLO v1 2.1 精读 YOLO v1 论文部分摘要Abstract 我们提出了一种新的目标检测方法YOLO。先前的目标检测工作重新使用分类器来执行检测。相反我们将目标检测看成回归问题从空间上定位边界框和预测相关别的概率。使用单个神经网络在一次评估中直接从完整图像中预测边界框和类别概率。由于整个检测管道是一个单一的网络因此可以直接对检测性能进行端到端的优化。我们的统一架构非常快。我们的基本YOLO模型以每秒45帧的速度实时处理图像。一个更小版本的网络Fast -YOLO每秒处理惊人的155帧同时仍然达到其他实时探测器的两倍mAP。与最先进的检测系统相比YOLO虽然有更多的定位错误但几乎不会将背景预测为目标。最后YOLO可以学习到泛化性很强的目标特征。当从自然图像推广到其他领域(如艺术品)时会优于其他检测方法包括DPM和R-CNN在内的其他检测方法。在摘要部分总结为三句话 ①YOLO将目标检测看成回归问题直接从完整图像中预测边界框和类别概率是单阶段的。 ②是端到端的目标检测算法速度快但精度较低。③YOLO可以学习到泛化性很强的目标特征。一、介绍Introduction 人类瞥一眼图像立即知道图像中有什么物体它们在哪里以及它们是如何相互作用的。人类的视觉系统快速而准确使我们能够在无意识的情况下完成复杂的任务比如开车。快速、准确的目标检测算法将允许计算机在没有专门传感器的情况下驾驶汽车使辅助设备能够向人类用户传递实时场景信息并释放通用、响应式机器人系统的潜力。当前的目标检测系统通过重用分类器来执行检测。为了检测一个对象这些系统为该对象设置一个分类器并在测试图像的不同位置和尺度上对其进行评估。像deformable parts models ( 可变形部件模型(DPM) ) 等系统使用滑动窗口方法其中分类器在整个图像上均匀间隔的位置运行[10]。最近的一些方法如R-CNN使用区域候选方法region proposal首先在图像中生成可能的边界框bounding box然后在这些可能的框上运行分类器。分类后进行后处理对边界框进行细化消除重复检测并根据场景中的其他物体对边界框进行重新定位[13]。这些复杂的管道运行缓慢且难以优化因为每个单独的组件必须单独训练。我们将目标检测重新定义为一个单一的回归问题直接从图像像素到边界框坐标和类概率。使用我们的系统You Only Look Once (YOLO)图像就可预测得到什么物体存在和他们在哪里。 YOLO非常简单:参见图1。单个卷积网络同时预测多个边界框和这些框的类概率。YOLO在完整图像上进行训练并直接优化检测性能。与传统的目标检测方法相比这种统一的模型有几个优点。 1、调整输入图像为448×448分割得到7×7的网格2、通过CNN提取特征并预测3、使用非极大值抑制NMS进行筛选第一YOLO非常快。因为我们把检测作为一个回归问题我们不需要复杂的管道。在测试时只需要在新图像上运行神经网络来预测。在Titan X GPU上没有批处理我们的基本网络以每秒45帧的速度运行快速版本的运行速度超过150 fps。这意味着我们可以实时处理流媒体视频延迟不到25毫秒。此外YOLO的平均精度是其他实时系统的两倍以上。有关我们的系统在网络摄像头上实时运行的演示请参阅我们的项目网页:http://pjreddie.com/yolo/. 第二YOLO在进行预测时对图像进行全局推理。与滑动窗口和基于区域提议的技术不同YOLO在训练和测试期间看整个图像因此它隐式地编码有关类及其外观的上下文信息。Fast R-CNN是一种很好的检测方法[14]由于无法看到更大的背景它会将图像中的背景斑块误认为是物体。与Fast R-CNN相比YOLO的背景误检数量少了一半。第三YOLO能学习到目标的泛化表征。当在自然图像上进行训练并在艺术品上进行测试时YOLO的性能远远超过DPM和R-CNN等顶级检测方法。由于YOLO具有高度的通用性因此在应用于新领域或意外输入时不太可能出现故障。 YOLO在精度上仍然落后于最先进的检测系统。虽然它可以快速识别图像中的物体但很难精确定位某些物体尤其是小物体。我们在实验中进一步考察精度和时间的权衡。我们所有的训练和测试代码都是开源的。各种预训练的模型也可以下载。在介绍部分总结为三句话 ①之前的研究使用分类器来执行检测采用滑动窗口的方法让分类器在整个图像上均匀间隔的位置运行。 ②最近方法——R-CNN使用区域候选在候选区域运行分类器。 ③而YOLO使用单个卷积网络同时预测多个边界框和这些框中类概率速度快同时YOLO训练和测试都是全局推理可以学习到目标的泛化特征但精度较低。二、统一检测Unified Detection 我们将目标检测的独立部分the separate components 统一到一个单一的神经网络中。我们的网络使用整个图像的特征来预测每个边界框。它还可以同时预测图像的所有类的所有边界框。这意味着我们的网络对整个图像和图像中的所有对象进行全局推理reason globally。YOLO设计实现端到端训练和实时速度同时保持高平均精度。我们的系统将输入图像分成S × S网格。如果一个物体的中心落在一个网格单元grid cell中这个网格单元就负责检测这个物体。每个网格单元预测B个边界框和这些框的置信度得分。这些置信度分数反映了模型对框内有一个物体的置信度以及它认为盒子里有一个物体的预测有多准确。形式上我们将置信度定义为 P r ( O b j e c t ) ∗ I O U p r e d t r u t h Pr(Object) * IOU^{truth}_ {pred} Pr(Object)∗IOUpredtruth。如果该单元格中不存在对象即Predection(Object) 0则置信度分数应为零。否则即Predection(Object) 1我们希望置信度分数等于预测框predict box与真实值ground truth之间的交集。每个边界框由5个预测组成:x, y, w, h和置信度。(xy)坐标表示相对于网格单元边界的框的中心。宽度和高度是相对于整个图像预测的。最后置信度预测表示预测框与任何真实框之间的IOU。每个网格单元还预测C个条件类概率 P r ( C l a s s i ∣ O b j e c t ) Pr(Class_i | Object) Pr(Classi∣Object)。这些概率以包含目标的网格单元为条件去预测每个网格单元属于哪一组分类的概率而不考虑框B的数量。在测试时我们将条件类概率和单个盒子置信度预测相乘 P r ( C l a s s i ∣ O b j e c t ) ∗ P r ( O b j e c t ) ∗ I O U p r e d t r u t h P r ( C l a s s i ) ∗ I O U p r e d t r u t h ( 1 ) Pr(Class_i | Object)∗Pr(Object)∗IOU^{truth}_{pred} Pr(Class_i)∗IOU^{truth}_{pred}(1) Pr(Classi∣Object)∗Pr(Object)∗IOUpredtruthPr(Classi)∗IOUpredtruth(1)它给出了每个box特定于类的置信度分数。这些分数编码了该类别出现在框中的概率以及预测框与该对象的匹配程度。解释 P r ( C l a s s i ∣ O b j e c t ) ∗ P r ( O b j e c t ) Pr(Class_i | Object)∗Pr(Object) Pr(Classi∣Object)∗Pr(Object)是类条件概率 P r ( O b j e c t ) ∗ I O U p r e d t r u t h Pr(Object)∗IOU^{truth}_{pred} Pr(Object)∗IOUpredtruth是置信度 P r ( C l a s s i ) Pr(Classi) Pr(Classi)表示是某类别的概率。根据条件概率公式可得某类别得概率为 P r ( C l a s s i ∣ O b j e c t ) ∗ P r ( O b j e c t ) Pr(Class_i | Object)∗Pr(Object) Pr(Classi∣Object)∗Pr(Object) P r ( C l a s s i ) Pr(Class_i ) Pr(Classi) 该模型。我们的系统将检测建模为回归问题。它将图像划分为S × S网格并为每个网格单元预测B个边界框、这些框的置信度和C类概率。这些预测被编码为S × S × (B * 5 C)张量。为了评估YOLO在PASCAL VOC上的表现我们使用S 7图片被分成7×7的网格即49个grid , B 2一个 grid 预测两个 bounding box。PASCAL VOC有20个标签类所以C 20每个bounding box分别得到置信度。我们最终的预测是一个7 × 7 × ( 2*5 20 ) 7 × 7 × 30张量。在统一检测开头部分总结为四句话 ①将图片分成 S×S的网格即得到S×S个网格在每个网格中设定的B个区域内进行预测。假设B为2即每个网格有两个设定好的框着的区域 ②同时预测每个框着的区域是物体的概率以及相对于设定好的框的一个偏移量即微调框即预测xywh置信度。这时候选择置信度较高的框根据预测的xywh值进行微调框这时候已经可以将物体给框出来了。 ③为了得到框出来的物体的类别所以还需要同时预测条件概率Pr(Class_i | Object)由于预测xywh置信度和框出来的物体的类别是同时进行的所以有C种类别那个格子就得有20个条件概率值即该点处是物体的条件下是某类别的概率。 ④通过2选出来物体通过3判断出来了物体的类别。 2.1网络设计Network Design 我们将该模型实现为卷积神经网络并在PASCAL VOC检测数据集上对其进行评估[9]。网络的初始卷积层从图像中提取特征而全连接层预测输出概率和坐标。我们的网络架构受到GoogLeNet图像分类模型的启发[34]。我们的网络有24个卷积层后面是2个完全连接的层。我们没有使用GoogLeNet使用的初始模块而是简单地使用1 × 1约简层然后是3 × 3卷积层类似于Lin等人[22]。完整的网络如图3所示。图3:结构。我们的检测网络有24个卷积层后面是2个全连接层。交替的1 × 1卷积层减少了前一层的特征空间。我们在ImageNet分类任务上以一半的分辨率(224 × 224输入图像)预训练卷积层然后将分辨率提高一倍用于检测。我们还训练了一个快速版本的YOLO旨在推动快速目标检测的界限。快速YOLO使用了一个卷积层更少的神经网络(9层而不是24层)这些层中的过滤器更少。除了网络的大小YOLO和Fast YOLO的所有训练和测试参数都是相同的。我们网络的最终输出是7 × 7 × 30的预测张量。网络设计部分 ①YOLO网络结构借鉴GoogLeNet由24个卷积层和2个全连接层组成24个卷积层提取特征2个全连接层预测得到xywhc× bounding box的数量20个类别的条件概率 ②进一步理解网络的每一步输入图像是448×448经过24次卷积操作后得到了7×7×1024的特征图7×7×1024的特征图经过两个全连接层得到7×7×30的向量如何理解7×7×30的向量的作用呢7×7的原因是最开始就将图片分成7×7的网格每个网格grid有两个B2bounding box因为要对所有bounding box选中的东西进行预测其是否有物体即置信度以及对于bounding box的修正xywh还有每种类别的条件概率类别是20所以一个网格要预测30个参数有7×7个网格所以最后得到的张量是7×7×30。 2.2 训练 training 我们在ImageNet的1000类竞争数据集上预训练卷积层[30]。对于预训练我们使用图3中的前20个卷积层然后是平均池化层和完全连接层。我们对该网络进行了大约一周的训练并在ImageNet 2012验证集上实现了单个作物前5名的准确率达到88%与Caffe的Model Zoo中的GoogLeNet模型相当[24]。我们使用Darknet框架进行所有训练和推理[26]。然后我们将模型转换来执行检测。Ren等人表明在预训练网络中同时添加卷积层和连接层可以提高性能[29]。按照他们的例子我们添加了四个卷积层和两个随机初始化权重的完全连接层。检测通常需要细粒度的视觉信息因此我们将网络的输入分辨率从224 × 224提高到448 × 448。最后一层预测类概率和边界框坐标。我们通过图像的宽度和高度对边界框的宽度和高度进行标准化使它们落在0和1之间。我们将边界框的x和y坐标参数化为特定网格单元格位置的偏移量因此它们也被限定在0和1之间。我们对最后一层使用线性激活函数所有其他层使用Leaky-ReLU 我们对模型输出的平方和误差sum-squared error 进行优化。我们使用和平方误差因为它很容易优化但它并不完全符合我们最大化平均精度average precision的目标。它将定位误差与分类误差等同地加权这可能不是理想的。此外在每张图像中许多网格单元不包含任何对象。这使得这些单元格的“置信度”得分趋近于零通常压制了包含目标的单元格的梯度。这可能导致模型不稳定从而导致训练在早期就发散diverge。为了解决这个问题我们增加了边界框坐标预测的损失减少了不包含对象的框的置信度预测的损失。我们使用两个参数 λ c o o r d λ_coord λcoord和 λ n o o b j λ_noobj λnoobj来实现这一点。设 λ c o o r d λ_coord λcoord 5 λ n o o b j λ_noobj λnoobj0.5。也是让损失更加关注物体部分平方和误差在大框和小框中的权重也相等。我们的误差指标error metric应该反映出大框里的小偏差重要性不如小框的小偏差重要性。为了部分解决这个问题我们直接预测边界框宽度和高度的平方根而不是直接预测宽度和高度。让小框得到的高和宽更加 YOLO为每个网格单元格预测多个边界框。在训练时我们只希望一个边界框预测器负责每个对象。若哪个预测具有最高的当前IOU值就指定一个预测器“负责”预测一个对象。这导致了边界框预测器之间的专业化。每个预测器在预测特定尺寸、长宽比或物体类别方面都做得更好从而提高了整体召回率recall。在训练过程中我们优化了以下多部分损失函数: 请注意如果目标存在于该网络的网络单元中前面讨论的条件类别概率则损失函数只惩罚分类错误。如果该预测器是“负责”地面真值框(即在该网格单元中具有最高的IOU的任何预测器)它也只惩罚边界框坐标错误我们在PASCAL VOC 2007年和2012年的训练和验证数据集上训练了大约135个epoch的网络。因为我们仅在Pascal VOC 2012上进行测试所以我们在训练集里包含了Pascal VOC 2007的测试数据。在整个训练过程中我们使用batch64momentum0:9decay0.0005。我们的学习率learning rate计划如下:对于第一个epoch我们缓慢地将学习率从 1 0 − 3 10^{−3} 10−3提高到 1 0 − 2 10^{−2} 10−2。如果我们从一个高学习率开始我们的模型经常由于不稳定的梯度而偏离。我们继续用 1 0 − 2 10^{−2} 10−2训练75个epoch然后用 1 0 − 3 10^{−3} 10−3训练30个epoch最后用 1 0 − 4 10^{−4} 10−4训练30个epoch。为了避免过拟合我们使用dropout和广泛的数据增强。在第一个连接层之后设置速率为0.5的dropout层可以防止层与层之间的共适应[18]。对于数据增强我们引入了原始图像大小的20%的随机缩放和平移。我们还在HSV色彩空间中随机调整图像的曝光和饱和度最高可达1:5。网络训练部分 ①在这一部分最主要的就是得了解YOLO它的损失函数是怎么设计以及这么设计的理由YOLO的损失函数主体分为四个部分由位置误差、置信度误差含物体、置信度误差不含物体、分类误差。 ②位置误差 i 0 i0 i0 到 S 2 S^2 S2是有 S 2 S^2 S2个网格 j 0 j0 j0 到 B 是每个网格有B个框而 1 i j o b j 1^{obj}_{ij} 1ijobj 是表示被选择的第 i i i 个网格和第 j j j 个框。因为并不是求所有的只有被选择通过IOU 即真实值和设定好的框计算得到的IOU值留下的框才会被加入计算损失然后根据损失微调被留下的框的位置误差。位置误差是xywh的误差对于x和y的误差来说是框中心点的定位误差w和h是框的高度和宽度误差为什么xywh都是使用平方和误差来表示而w和h却要加个根号呢看下图所示对于小的框而言w和h的误差稍微大点的话是没事的但是对于小框来说w和h的误差稍微大一点点就会有更大的误差所以小框的w和h应该作的更加精确一点即wh值很小的时候应该让wh的值更准确那如何让较小wh的值更准确且同时可以容忍较大的wh稍微有点误差? 为了实现严格对待小框的wh的损失宽松对待大框的wh的损失这一目标从而引进了根号具体分析一下为什么加了根号就能达到这个效果。通过根号的映射就可将相同的误差根据大小框分别映射使其更能容忍大框的误差。 ② 置信度误差含物体即选出来的框在进行微调的时候要让置信度与真实IOU越接近越好。 ③置信度误差不含物体即让不含物体的框置信度越接近零。在前面还乘了一个 λ n o o b j λ_{noobj} λnoobj在论文中提到将 λ n o o b j λ_{noobj} λnoobj设置为0.5同时 λ c o o r d λ_{coord} λcoord设置为5就是因为想让损失函数更加关注物体的损失减小对于图片背景的损失。 ④分类误差 i 0 i0 i0 到 S 2 S^2 S2是有 S 2 S^2 S2个网格真实的每一个格子出现的某种类别的概率与预测得到的概率越接近越好。 2.4 推论Inference 就像在训练中一样预测测试图像的检测只需要一次网络评估。在PASCAL VOC上网络预测每张图像的98个边界框和每个框的类概率。YOLO在测试时非常快因为它只需要一次网络评估不像基于分类器的方法。网格设计在边界框预测中加强了空间多样性。通常情况下一个对象落在哪个网格单元是很清楚的网络只预测每个对象的一个框。然而一些较大的物体或靠近多个单元边界的物体可以被多个单元很好地定位。非最大抑制可以用来固定这些多重检测。虽然不像R-CNN或DPM那样对性能至关重要但非最大抑制在mAP中增加了2-3%。推论部分 ①YOLO只用一次网络速度快。 ②对于多个单元边界的物体使用非最大抑制但用了非极大值一直。其mAP仅仅增加2-3%。 2.5 YOLO的局限性Limitations of YOLO YOLO 对边界框预测施加了很强的空间约束因为每个网格单元只能预测两个框并且只能有一个类。这个空间约束限制了我们的模型可以预测的附近物体的数量。我们的模型难以处理成群出现的小物体比如鸟群。由于我们的模型学习从数据中预测边界框它很难泛化到新的或不寻常的长宽比或配置的对象。我们的模型还使用相对粗糙的特征来预测边界框因为我们的架构在输入图像中有多个下采样层downsampling layers。最后我们的训练基于一个逼近检测性能的损失函数这个损失函数无差别地处理小边界框与大边界框的误差。大边界框的小误差通常是无关要紧的但小边界框的小误差对IOU的影响要大得多。我们的主要错误来自于不正确的定位。 YOLO的局限性 ①对于小目标的检测效果较差因为在第一代yolo中通过24层的卷积操作提取到的特征感受野已经很大了很难感知局部信息所以对于小目标的检测效果较差。 ②每一个网格只能预测一个物体多目标检测不行。三、与其他检测系统比较Comparison to Other Detection Systems 目标检测是计算机视觉中的一个核心问题。检测流程通常是首先从输入图像中提取一组鲁棒特征 (Haar [25] SIFT [23] HOG[4]卷积特征[6] )。然后使用分类器[36,21,13,10]或定位器[1,32]来识别特征空间中的对象。这些分类器或定位器要么以滑动窗口的方式在整个图像上运行要么在图像中的某些区域子集上运行[35,15,39]。我们将YOLO检测系统与几个顶级检测框架进行了比较突出了关键的相似性和差异性。可变形零件模型Deformable parts models。可变形部件模型(DPM)使用滑动窗口方法进行对象检测[10]。DPM使用一个不相交的流程来提取静态特征对区域进行分类预测高分区域的边界框等。我们的系统用一个卷积神经网络取代了所有这些不同的部分。网络同时执行特征提取、边界盒预测、非最大值抑制和上下文推理。网络的特征feature是在在线(in-line)训练出来的而不是静态因此可以根据特定的检测任务进行优化。我们的统一架构带来了比DPM更快、更准确的模型。 R-CNN。 R-CNN及其变体使用区域候选而不是滑动窗口来查找图像中的对象。SelectiveSearch[35]生成潜在的边界框卷积网络提取特征支持向量机对边界框进行评分线性模型调整边界框非最大抑制消除重复检测。这个复杂的流水线的每个阶段都必须精确地独立调整结果系统非常慢在测试时每张图像需要40多秒[14]。 YOLO与R-CNN有一些相似之处。每个网格单元提出潜在的边界框并使用卷积特征对这些框进行评分。然而我们的系统对网格单元候选框施加了空间约束这有助于减少对同一目标的多次检测。我们的系统提出的边界框也少得多每张图像只有98个而选择性搜索大约有2000个。最后我们的系统将这些单独的组件组合成一个单一的、共同优化的模型。其他检测器。R-CNN专注于通过共享计算和使用神经网络提出区域而不是选择性搜索来加速R-CNN框架[14][28]。虽然它们在速度和准确性上都比R-CNN有所提高但两者的实时性仍然不足。许多研究的重点是加快DPM流程[31][38][5]。它们加速HOG计算使用级联并将计算推给gpu。然而实际上只有30Hz DPM[31]是实时运行的。 YOLO不是试图优化大型检测流程的单个组件而是完全抛弃了大型检测流程并且通过设计来提高速度。人脸或人等单一类别的检测器可以高度优化因为它们只需要处理较少的多样性[37]。YOLO是一个通用的检测器学习同时检测各种物体。 Deep MultiBox。与R-CNN不同Szegedy等人训练卷积神经网络来预测感兴趣的区域[8]而不是使用选择性搜索。MultiBox还可以通过用单个类预测代替置信度预测来执行单个对象检测。然而MultiBox不能进行一般的目标检测仍然只是更大的检测流程中的一部分需要进一步的图像补丁分类。 YOLO和MultiBox都使用卷积网络来预测图像中的边界框但YOLO是一个完整的检测系统。 OverFeat。 Sermanet等人训练卷积神经网络进行定位并调整该定位器进行检测[32]。OverFeat可以有效地进行滑动窗口检测但仍然是一个不相交的系统。OverFeat优化的是定位而不是检测性能。与DPM一样本地化器在进行预测时只看到本地信息。OverFeat不能对全局环境进行推理因此需要大量的后处理来产生连贯的检测。 **MultiGrasp。**我们的工作在设计上与Redmon等人的抓握检测工作相似[27]。我们对边界框预测的网格方法是基于MultiGrasp系统对抓点的回归。然而抓握检测是一个比物体检测简单得多的任务。MultiGrasp只需要为包含一个对象的图像预测单个可抓取区域。它不需要估计物体的大小、位置或边界也不需要预测物体的类别只需要找到一个适合抓取的区域。YOLO预测图像中多个类别的多个对象的边界框和类别概率。与其他检测系统比较 DPM 用传统的HOG特征方法也用的是传统的支持向量机SVM分类器然后人工造一个模板再用滑动窗口方法不断的暴力搜索整个待识别图去套那个模板。这个方法比较大的问题就是在于设计模板计算量巨大而且是个静态的没办法匹配很多变化的东西鲁棒性差。 R-CNN 第一阶段每个图片使用选择性搜索SS方法提取2000个候选框。第二阶段将每个候选框送入CNN网络进行分类(使用的SVM)。 YOLO对比他们俩都很强YOLO和R-CNN也有相似的地方比如也是提取候选框YOLO的候选框就是上面说过的那98个 bounding boxes也是用到了NMS非极大值抑制也用到了CNN提取特征。 Other Fast Detectors Fast和Faster R-CNN 这俩模型都是基于R-CNN的改版速度和精度都提升了很多但是也没办法做到实时监测也就是说FPS到不了30作者在这里并没有谈准确度的问题实际上YOLO的准确度在这里是不占优势的甚至于比他们低。 Deep MultiBox 训练卷积神经网络来预测感兴趣区域而不是使用选择性搜索。多盒也可以用单个类预测替换置信预测来执行单个目标检测。YOLO和MultiBox都使用卷积网络来预测图像中的边界框但YOLO是一个完整的检测系统。 OverFeat OverFeat有效地执行滑动窗口检测优化了定位而不是检测性能。与DPM一样定位器在进行预测时只看到本地信息。OverFeat不能推理全局环境。 MultiGrasp YOLO在设计上与Redmon等人的抓取检测工作相似。边界盒预测的网格方法是基于多重抓取系统的回归到抓取。这里的总结来自于与其他检测系统比较四、实验Experiments 首先我们将YOLO与其他基于PASCAL VOC 2007的实时检测系统进行了比较。为了理解YOLO和R-CNN变体之间的差异我们探讨了YOLO和Fast R-CNN在VOC 2007上的错误Fast R-CNN是R-CNN表现最好的版本之一[14]。基于不同的误差分布我们表明YOLO可以用于快速R-CNN检测的重分并减少背景假阳性的误差从而显着提高性能。我们还介绍了VOC 2012的结果并将mAP与当前最先进的方法进行了比较。最后我们在两个艺术品数据集上证明了YOLO比其他检测器更好地泛化到新的领域 4.1 与其他实时系统的比较Comparison to Other Real-Time Systems 许多目标检测的研究工作都集中在使标准检测流程快速。[5][38][31][14][17][28]然而只有Sadeghi等人真正生产出了实时运行(每秒30帧或更高)的检测系统[31]。我们将YOLO与其运行在30Hz或100Hz的DPM的GPU实现进行比较。虽然其他努力没有达到实时里程碑但我们也比较了它们的相对mAP和速度以检查目标检测系统中可用的准确性和性能权衡。 Fast YOLO是PASCAL上最快的目标检测方法;据我们所知它是现存最快的物体探测器。mAP为52:7%比之前的实时检测精度提高了两倍多。普通版本YOLO将mAP推至63:4%同时仍然保持实时性能。我们还使用VGG-16训练YOLO。这个模型比普通版本更准确但也比YOLO慢得多。这对于与其他依赖于VGG-16的检测系统进行比较是有用的但由于它比实时慢本文的其余部分将重点放在我们更快的模型上。最快的DPM在不牺牲太多mAP的情况下有效地加快了DPM的速度但它仍然失去了2倍的实时性能[38]。与神经网络方法相比DPM的检测精度相对较低这也限制了它的发展。减去R的R-CNN用静态侯选边界框取代选择性搜索[20]。虽然速度比R-CNN更快但它仍然无法实时并且由于该方法无法找到好的边界框准确性受到了严重影响。 Fast R-CNN加快了R-CNN的分类阶段但它仍然依赖于选择性搜索每个图像需要大约2秒才能生成边界候选框。因此它虽然具有较高的mAP但的速度是0.5 fps仍然远未达到实时。最近的Faster R-CNN用神经网络替代了选择性搜索来候选边界框类似于Szegedy等人[8]的方法。在我们的测试中他们最准确的模型达到了 7fps而较小的、不太准确的模型以18 fps运行。 Faster R-CNN的VGG-16版本比YOLO高出10mAP但比YOLO慢了6倍。 Zeiler-Fergus 版本的Faster R-CNN只比YOLO慢2.5倍但也不如YOLO准确。与其他实时系统比较 YOLO精度高Fast YOLO速度更快。 4.2 VOC 2007误差分析VOC 2007 Error Analysis 为了进一步研究YOLO和最先进的检测器之间的区别我们将详细分析VOC 2007的结果。我们将YOLO与Fast RCNN进行比较因为Fast R-CNN是PASCAL上性能最高的检测器之一而且它的检测是公开可用的。我们使用Hoiem等人[19]的方法和工具对于测试时的每个类别我们查看该类别的前N个预测。每个预测要么是正确的要么根据错误的类型进行分类: 正确: 正确的类和 IOU 0.5正确分类并且预测框和真实框之间的IOU大于0.5的定位: 正确类0.1 IOU 0.5正确分类但预测框与真实框的IOU在0.1和0.5即虽然预测对了类别但预测框的位置不是特别合理不过可以接受。相似: 类相似IOU 0.1预测成了相近的类别预测框与真实框的IOU大于0.1。即预测的类别虽不正确但相近预测框的位置还可以接受。其他: 类错误IOU 0.1预测类别错误预测框与真实框的IOU大于0.1。即预测的类别不正确但预测框还还可以。背景: IOU 0.1对于任何对象预测框与真实框的IOU小于0.1即该预测框的位置为背景没有目标。图4显示了在所有20个类中平均的每种错误类型的细分。 YOLO很难正确定位对象。定位错误在YOLO错误中所占的比重超过了所有其他来源的总和。快速R-CNN的定位错误要少得多但背景错误要多得多。13.6%的最高检测结果是假阳性不包含任何对象。快速R-CNN预测背景检测的错误几乎是YOLO的3倍。 VOC 2007误差分析 YOLO的定位错误率高而Fast-Rcnn的背景错误率较高 4.3 Fast R-CNN和YOLO结合Combining Fast R-CNN and YOLO YOLO比Fast R-CNN犯的背景错误少得多。通过使用YOLO来消除Fast R-CNN的背景检测我们可以显著提高性能。对于R-CNN预测的每个边界框我们检查YOLO是否预测了一个类似的框。如果是这样我们根据YOLO预测的概率和两个框之间的重叠来提高预测。最好的Fast R-CNN模型在VOC 2007测试集上实现了71.8%的mAP。当与YOLO结合在一起时它是mAP上升3.2%至75.0%。我们还尝试将顶级的Fast R-CNN模型与其他几个版本的Fast R-CNN模型结合起来。这些组合在mAP中产生了0.3%到0.6%之间的小幅增长详见表2。 YOLO的提升并不仅仅是模型整合的副产品因为不同版本的Fast R-CNN组合在一起几乎没有什么好处。更确切地说正是因为YOLO在测试时犯了不同类型的错误它才如此有效地提高了Fast R-CNN的表现。不幸的是这种组合并没有从YOLO的速度中受益因为我们分别运行每个模型然后再组合结果。然而由于YOLO是如此之快与fast R-CNN相比它不会增加任何显著的计算时间。 Fast R-CNN和YOLO结合 YOLO和Fast-Rcnn结合后其准确率会提高但是由于YOLO的快速并没有提高整体的结合起来的检测速度。 4.4 VOC 2012 结果VOC 2012 Results 在VOC 2012测试集中YOLO的mAP得分为57.9%。这比目前的技术水平要低更接近于使用VGG-16的原始R-CNN见表3。与最接近的竞争对手相比我们的系统在处理小物体方面遇到了困难。在奶瓶、绵羊和电视/监视器等类别上YOLO的得分比R-CNN或Feature Edit低8-10%。然而在猫和训练等其他类别上YOLO的表现更高。我们的组合快速R-CNN YOLO模型是性能最高的检测方法之一。Fast R-CNN与YOLO的结合提高了2.3%在公共排行榜上上升了5个名次。 VOC 2012 结果 Fast R-CNN从与YOLO的组合在公共排行榜上提升了5个百分点。 4.5泛化性-图像中人物检测Generalizability: Person Detection in Artwork 用于目标检测的学术数据集从相同的分布中提取训练和测试数据。在现实世界的应用中很难预测所有可能的用例并且测试数据可能与系统之前看到的不同[3]。我们将YOLO与毕加索数据集[12]和人-艺术数据集[3]上的其他检测系统进行比较这两个数据集用于测试艺术品上的人检测。图5显示了YOLO和其他检测方法的性能对比。作为参考我们给出了对人的VOC 2007检测AP其中所有模型仅根据VOC 2007数据进行训练。在毕加索模型上他们接受VOC 2012的培训而在人物艺术上他们接受VOC 2010的培训。 R-CNN 2007年VOC的AP含量很高。然而当应用于艺术品时R-CNN下降相当大。R-CNN使用选择性搜索来搜索针对自然图像进行调整的边界框建议。R-CNN的分类器步骤只看到小区域需要好的建议。当DPM应用于艺术作品时它能很好地保持AP。先前的工作理论认为DPM之所以表现良好是因为它具有很强的物体形状和布局的空间模型。虽然DPM不像R-CNN那样退化但它从较低的AP开始。 YOLO对VOC 2007有良好的性能在处理艺术品时其AP的降解率低于其他方法。与DPM一样YOLO建模对象的大小和形状以及对象之间的关系和对象通常出现的位置。艺术品和自然图像在像素水平上非常不同但它们在物体的大小和形状方面是相似的因此YOLO仍然可以预测良好的边界框和检测。泛化性-图像中人物检测 YOLO 效果都不错。五、野外实时检测Real-Time Detection In The Wild YOLO是一种快速准确的目标检测器使其成为计算机视觉应用的理想选择。我们将YOLO连接到一个网络摄像头并验证它保持实时性能包括从相机获取图像和显示检测结果的时间。由此产生的系统具有互动性和吸引力。虽然YOLO可以单独处理图像但当它连接到网络摄像头时它就像一个跟踪系统可以检测物体的移动和外观变化。系统的演示和源代码可以在我们的项目网站上找到: http://pjreddie.com/yolo/. 六、结论Conclusion 介绍了目标检测的统一模型YOLO。我们的模型构造简单可以直接在完整的图像上进行训练。与基于分类器的方法不同YOLO是在直接对应于检测性能的损失函数上进行训练的并且整个模型是联合训练的。快速YOLO是文献中最快的通用对象检测器YOLO推动了最先进的实时对象检测。YOLO还可以很好地推广到新的领域使其成为依赖于快速、健壮的对象检测的应用程序的理想选择。

查看全文

http://www.hkea.cn/news/14261421/