yolo的目标检测论文

发布时间：2024-07-05 10:03:47

yolo的目标检测论文

|声明：遵循CC BY-SA版权协议建立在YOLOv1的基础上，经过Joseph Redmon等的改进，YOLOv2和YOLO9000算法在2017年CVPR上被提出，并获得最佳论文提名，重点解决YOLOv1召回率和定位精度方面的误差。在提出时，YOLOv2在多种监测数据集中都要快过其他检测系统，并可以在速度与精确度上进行权衡。 YOLOv2采用Darknet-19作为特征提取网络，增加了批量标准化（Batch Normalization）的预处理，并使用224×224和448×448两阶段训练ImageNet，得到预训练模型后fine-tuning。相比于YOLOv1是利用FC层直接预测Bounding Box的坐标，YOLOv2借鉴了FSR-CNN的思想，引入Anchor机制，利用K-Means聚类的方式在训练集中聚类计算出更好的Anchor模板，在卷积层使用Anchor Boxes操作，增加Region Proposal的预测，同时采用较强约束的定位方法，大大提高算法召回率。同时结合图像细粒度特征，将浅层特征与深层特征相连，有助于对小尺寸目标的检测。下图所示是YOLOv2采取的各项改进带了的检测性能上的提升： YOLO9000 的主要检测网络也是YOLO v2，同时使用WordTree来混合来自不同的资源的训练数据，并使用联合优化技术同时在ImageNet和COCO数据集上进行训练，目的是利用数量较大的分类数据集来帮助训练检测模型，因此，YOLO 9000的网络结构允许实时地检测超过9000种物体分类，进一步缩小了检测数据集与分类数据集之间的大小代沟。下面将具体分析YOLOv2的各个创新点: BN概述：对数据进行预处理（统一格式、均衡化、去噪等）能够大大提高训练速度，提升训练效果。BN正是基于这个假设的实践，对每一层输入的数据进行加工。 BN是2015年Google研究员在论文《Batch Normalization: Accelerating Deep Network Training by Reducing Internal Covariate Shift》一文中提出的，同时也将BN应用到了2014年的GoogLeNet上，也就是Inception-v2。 BN层简单讲就是对网络的每一层的输入都做了归一化，这样网络就不需要每层都去学数据的分布，收敛会更快。YOLOv1算法（采用的是GoogleNet网络提取特征）是没有BN层的，而在YOLOv2中作者为每个卷积层都添加了BN层。使用BN对网络进行优化，让网络提高了收敛性，同时还消除了对其他形式的正则化（regularization）的依赖，因此使用BN后可以从模型中去掉Dropout，而不会产生过拟合。 BN优点：神经网络每层输入的分布总是发生变化，加入BN，通过标准化上层输出，均衡输入数据分布，加快训练速度，因此可以设置较大的学习率（Learning Rate）和衰减（Decay）；通过标准化输入，降低激活函数（Activation Function）在特定输入区间达到饱和状态的概率，避免梯度弥散（Gradient Vanishing）问题；输入标准化对应样本正则化，BN在一定程度上可以替代 Dropout解决过拟合问题。 BN算法：在卷积或池化之后，激活函数之前，对每个数据输出进行标准化，方式如下图所示：公式很简单，前三行是 Batch内数据归一化（假设一个Batch中有每个数据），同一Batch内数据近似代表了整体训练数据。第四行引入了附加参数 γ 和 β，此二者的取值算法可以参考BN论文，在此不再赘述。 fine-tuning：用已经训练好的模型，加上自己的数据集，来训练新的模型。即使用别人的模型的前几层，来提取浅层特征，而非完全重新训练模型，从而提高效率。一般新训练模型准确率都会从很低的值开始慢慢上升，但是fine-tuning能够让我们在比较少的迭代次数之后得到一个比较好的效果。 YOLO模型分为两部分，分类模型和检测模型，前者使用在ImageNet上预训练好的模型，后者在检测数据集上fine-tuning。 YOLOv1在预训练时采用的是224*224的输入（在ImageNet数据集上进行），然后在检测的时候采用448*448的输入，这会导致从分类模型切换到检测模型的时候，模型还要适应图像分辨率的改变。 YOLOv2则将预训练分成两步：先用224*224的输入在ImageNet数据集训练分类网络，大概160个epoch（将所有训练数据循环跑160次）后将输入调整到448*448，再训练10个epoch（这两步都是在ImageNet数据集上操作）。然后利用预训练得到的模型在检测数据集上fine-tuning。这样训练得到的模型，在检测时用448*448的图像作为输入可以顺利检测。 YOLOv1将输入图像分成7*7的网格，每个网格预测2个Bounding Box，因此一共有98个Box，同时YOLOv1包含有全连接层，从而能直接预测Bounding Boxes的坐标值，但也导致丢失较多的空间信息，定位不准。 YOLOv2首先将YOLOv1网络的FC层和最后一个Pooling层去掉，使得最后的卷积层可以有更高分辨率的特征，然后缩减网络，用416*416大小的输入代替原来的448*448，使得网络输出的特征图有奇数大小的宽和高，进而使得每个特征图在划分单元格（Cell）的时候只有一个中心单元格（Center Cell）。为什么希望只有一个中心单元格呢？由于图片中的物体都倾向于出现在图片的中心位置，特别是比较大的物体，所以有一个单元格单独位于物体中心的位置用于预测这些物体。 YOLOv2通过引入Anchor Boxes，通过预测Anchor Box的偏移值与置信度，而不是直接预测坐标值。YOLOv2的卷积层采用32这个值来下采样图片，所以通过选择416*416用作输入尺寸最终能输出一个13*13的特征图。若采用FSRCNN中的方式，每个Cell可预测出9个Anchor Box，共13*13*9=1521个（YOLOv2确定Anchor Boxes的方法见是维度聚类，每个Cell选择5个Anchor Box）。在FSRCNN中，以一个51*39大小的特征图为例，其可以看做一个尺度为51*39的图像，对于该图像的每一个位置，考虑9个可能的候选窗口：3种面积3种比例。这些候选窗口称为Anchor Boxes。下图示出的是51*39个Anchor Box中心，以及9种Anchor Box示例。 YOLOv1和YOLOv2特征图数据结构： YOLOv1：S*S* (B*5 + C) => 7*7（2*5+20）其中B对应Box数量，5对应边界框的定位信息（w,y,w,h）和边界框置信度（Confidience）。分辨率是7*7，每个Cell预测2个Box，这2个Box共用1套条件类别概率（1*20）。 YOLOv2：S*S*K* (5 + C) => 13*13*9（5+20）分辨率提升至13*13，对小目标适应性更好，借鉴了FSRCNN的思想，每个Cell对应K个Anchor box（YOLOv2中K=5），每个Anchor box对应1组条件类别概率（1*20）。聚类：聚类是指事先没有“标签”而通过某种成团分析找出事物之间存在聚集性原因的过程。即在没有划分类别的情况下，根据数据相似度进行样本分组。在FSR-CNN中Anchor Box的大小和比例是按经验设定的，然后网络会在训练过程中调整Anchor Box的尺寸，最终得到准确的Anchor Boxes。若一开始就选择了更好的、更有代表性的先验Anchor Boxes，那么网络就更容易学到准确的预测位置。 YOLOv2使用K-means聚类方法类训练Bounding Boxes，可以自动找到更好的宽高维度的值用于一开始的初始化。传统的K-means聚类方法使用的是欧氏距离函数，意味着较大的Anchor Boxes会比较小的Anchor Boxes产生更多的错误，聚类结果可能会偏离。由于聚类目的是确定更精准的初始Anchor Box参数，即提高IOU值，这应与Box大小无关，因此YOLOv2采用IOU值为评判标准，即K-means 采用的距离函数（度量标准）为： d(box,centroid) = 1 - IOU(box,centroid) 如下图，左边是聚类的簇个数和IOU的关系，两条曲线分别代表两个不同的数据集。分析聚类结果并权衡模型复杂度与IOU值后，YOLOv2选择K=5，即选择了5种大小的Box 维度来进行定位预测。其中紫色和灰色也是分别表示两个不同的数据集，可以看出其基本形状是类似的。更重要的是，可以看出聚类的结果和手动设置的Anchor Box位置和大小差别显著——结果中扁长的框较少，而瘦高的框更多（更符合行人的特征）。 YOLOv2采用的5种Anchor的Avg IOU是61，而采用9种Anchor Boxes的Faster RCNN的Avg IOU是，也就是说本文仅选取5种box就能达到Faster RCNN的9中box的效果。选择值为9的时候，AVG IOU更有显著提高。说明K-means方法的生成的boxes更具有代表性。直接对Bounding Boxes求回归会导致模型不稳定，其中心点可能会出现在图像任何位置，有可能导致回归过程震荡，甚至无法收敛，尤其是在最开始的几次迭代的时候。大多数不稳定因素产生自预测Bounding Box的中心坐标（x,y）位置的时候。 YOLOv2的网络在特征图（13*13）的每一个单元格中预测出5个Bounding Boxes（对应5个Anchor Boxes），每个Bounding Box预测出5个值（tx,ty,tw,th,t0），其中前4个是坐标偏移值，t0是置信度结果（类似YOLOv1中的边界框置信度Confidence）。YOLOv2借鉴了如下的预测方式，即当Anchor Box的中心坐标和宽高分别是（xa,ya）和（wa,wh）时，Bounding Box坐标的预测偏移值（tx,ty,tw,th）与其坐标宽高（x,y,w,h）的关系如下： tx = (x-xa)/wa ty= (y-ya)/ha tw = log(w/wa) th = log(h/ha) 基于这种思想，YOLOv2在预测Bounding Box的位置参数时采用了如下强约束方法：上图中，黑色虚线框是Anchor Box，蓝色矩形框就是预测的Bounding Box结果，预测出的Bounding Box的坐标和宽高为（bx,by）和（bw,bh），计算方式如图中所示，其中：对每个Bounding Box预测出5个值（tx,ty,tw,th,t0），Cell与图像左上角的横纵坐标距离为（cx,cy），σ定义为sigmoid激活函数（将函数值约束到［0,1］），该Cell对应的Anchor Box对应的宽高为（pw,ph）。简而言之，（bx,by）就是（cx,cy）这个Cell附近的Anchor Box针对预测值（tx,ty）得到的Bounding Box的坐标预测结果，同时可以发现这种方式对于较远距离的Bounding Box预测值（tx,ty）能够得到很大的限制。 YOLOv2通过添加一个转移层，把高分辨率的浅层特征连接到低分辨率的深层特征（把特征堆积在不同Channel中）而后进行融合和检测。具体操作是先获取前层的26*26的特征图，将其同最后输出的13*13的特征图进行连接，而后输入检测器进行检测（检测器的FC层起到了全局特征融合的作用），以此来提高对小目标的检测能力。为了适应不同尺度下的检测任务，YOLOv2在训练网络时，其在检测数据集上fine-tuning时候采用的输入图像的size是动态变化的。具体来讲，每训练10个Batch，网络就会随机选择另一种size的输入图像。因为YOLOv2用到了参数是32的下采样，因此也采用32的倍数作为输入的size，即采用{320,352,…,608}的输入尺寸（网络会自动改变尺寸，并继续训练的过程）。这一策略让网络在不同的输入尺寸上都能达到较好的预测效果，使同一网络能在不同分辨率上进行检测。输入图片较大时，检测速度较慢，输入图片较小时，检测速度较快，总体上提高了准确率，因此多尺度训练算是在准确率和速度上达到一个平衡。上表反映的是在检测时，不同大小的输入图片情况下的YOLOv2和其他目标检测算法的对比。可以看出通过多尺度训练的检测模型，在测试的时候，输入图像在尺寸变化范围较大的情况下也能取得mAP和FPS的平衡。 YOLOv1采用的训练网络是GoogleNet，YOLOv2采用了新的分类网络Darknet-19作为基础网络，它使用了较多的3*3卷积核，并把1*1的卷积核置于3*3的卷积核之间，用来压缩特征，同时在每一次池化操作后把通道（Channels）数翻倍（借鉴VGG网络）。 YOLOv1采用的GooleNet包含24个卷积层和2个全连接层，而Darknet-19包含19个卷积层和5个最大池化层（Max Pooling Layers），后面添加Average Pooling层（代替v1中FC层），而Softmax分类器作为激活被用在网络最后一层，用来进行分类和归一化。在ImageNet数据集上进行预训练，主要分两步（采用随机梯度下降法）：输入图像大小是224*224，初始学习率（Learning Rate）为，训练160个epoch，权值衰减（Weight Decay）为，动量（Momentum）为，同时在训练时采用标准的数据增强（Data Augmentation）方式如随机裁剪、旋转以及色度、亮度的调整。 fine-tuning：第1步结束后，改用448*448输入（高分辨率模型），学习率改为，训练10个epoch，其他参数不变。结果表明：fine-tuning后的top-1准确率为，top-5准确率为，若按照原来的训练方式，Darknet-19的top-1准确率是，top-5准确率为。可以看出，两步分别从网络结构和训练方式方面入手提高了网络分类准确率。预训练之后，开始基于检测的数据集再进行fine-tuning。首先，先把最后一个卷积层去掉，然后添加3个3*3的卷积层，每个卷积层有1024个卷积核，并且后面都连接一个1*1的卷积层，卷积核个数（特征维度）根据需要检测的类数量决定。（比如对VOC数据，每个Cell需要预测5个Boungding Box，每个Bounding Box有4个坐标值、1个置信度值和20个条件类别概率值，所以每个单元格对应125个数据，此时卷积核个数应该取125。）然后，将最后一个3*3*512的卷积层和倒数第2个卷积层相连（提取细粒度特征），最后在检测数据集上fine-tuning预训练模型160个epoch，学习率采用，并且在第60和90个epoch的时候将学习率除以10，权值衰减、动量和数据增强方法与预训练相同。 YOLO9000通过结合分类和检测数据集，使得训练得到的模型可以检测约9000类物体，利用带标注的分类数据集量比较大的特点，解决了带标注的检测数据集量比较少的问题。具体方法是：一方面采用WordTree融合数据集，另一方面联合训练分类数据集和检测数据集。分类数据集和检测数据集存在较大差别：检测数据集只有粗粒度的标记信息，如“猫”、“狗”，而分类数据集的标签信息则更细粒度，更丰富。比如“狗”就包括“哈士奇”、“金毛狗”等等。所以如果想同时在检测数据集与分类数据集上进行训练，那么就要用一种一致性的方法融合这些标签信息。用于分类的方法，常用Softmax（比如v2），Softmax意味着分类的类别之间要互相独立的，而ImageNet和COCO这两种数据集之间的分类信息不相互独立（ImageNet对应分类有9000种，而COCO仅提供80种目标检测），所以使用一种多标签模型来混合数据集，即假定一张图片可以有多个标签，并且不要求标签之间独立，而后进行Softmax分类。由于ImageNet的类别是从WordNet选取的，作者采用以下策略重建了一个树形结构（称为WordTree）：遍历ImageNet的标签，然后在WordNet中寻找该标签到根节点(所有的根节点为实体对象)的路径；如果路径只有一条，将该路径直接加入到WordTree结构中；否则，从可选路径中选择一条最短路径，加入到WordTree结构中。 WordTree的作用就在于将两种数据集按照层级进行结合。如此，在WordTree的某个节点上就可以计算该节点的一些条件概率值，比如在terrier这个节点，可以得到如下条件概率值：进而，如果要预测此节点的概率（即图片中目标是Norfolk terrier的概率），可以根据WordTree将该节点到根节点的条件概率依次相乘得到，如下式：其中： YOLO9000在WordTree1k（用有1000类别的ImageNet1k创建）上训练了Darknet-19模型。为了创建WordTree1k作者添加了很多中间节点（中间词汇），把标签由1000扩展到1369。训练过程中GroundTruth标签要顺着向根节点的路径传播：为了计算条件概率，模型预测了一个包含1369个元素的向量，而且基于所有“同义词集”计算Softmax，其中“同义词集”是同一概念下的所属词。现在一张图片是多标记的，标记之间不需要相互独立。在训练过程中，如果有一个图片的标签是“Norfolk terrier”，那么这个图片还会获得“狗”以及“哺乳动物”等标签。如上图所示，之前的ImageNet分类是使用一个大Softmax进行分类，而现在WordTree只需要对同一概念下的同义词进行Softmax分类。然后作者分别两个数据集上用相同训练方法训练Darknet-19模型，最后在ImageNet数据集上的top-1准确率为，top-5准确率为；在WordTree数据集上的top-1准确率为，top-5准确率为。这种方法的好处是有“退而求其次”的余地：在对未知或者新的物体进行分类时，性能损失更低，比如看到一个狗的照片，但不知道是哪种种类的狗，那么就预测其为“狗”。以上是构造WordTree的原理，下图是融合COCO数据集和ImageNet数据集以及生成它们的WordTree的示意图（用颜色区分了COCO数据集和ImageNet数据集的标签节点），混合后的数据集对应的WordTree有9418个类。另一方面，由于ImageNet数据集太大，YOLO9000为了平衡两个数据集之间的数据量，通过过采样（Oversampling）COCO数据集中的数据，使COCO数据集与ImageNet数据集之间的数据量比例达到1：4。对YOLO9000进行评估，发现其mAP比DPM高，而且YOLO有更多先进的特征，YOLO9000是用部分监督的方式在不同训练集上进行训练，同时还能检测9000个物体类别，并保证实时运行。虽然YOLO9000对动物的识别性能很好，但是对衣服或者装备的识别性能不是很好（这跟数据集的数据组成有关）。 YOLO9000的网络结构和YOLOv2类似，区别是每个单元格只采用3个Anchor Boxes。 YOLO9000提出了一种在分类数据集和检测数据集上联合训练的机制，即使用检测数据集（COCO）的图片去学习检测相关的信息即查找对象（例如预测边界框坐标、边界框是否包含目标及目标属于各个类别的概率），使用仅有类别标签的分类数据集（ImageNet）中的图片去扩展检测到的对象的可识别种类。具体方法是：当网络遇到一个来自检测数据集的图片与标记信息，就把这些数据用完整的损失函数（v2和9000均沿用了v1网络的损失函数）反向传播，而当网络遇到一个来自分类数据集的图片和分类标记信息，只用代表分类误差部分的损失函数反向传播这个图片。 YOLO v2 在大尺寸图片上能够实现高精度，在小尺寸图片上运行更快，可以说在速度和精度上达到了平衡，具体性能表现如下所示。 coco数据集 voc2012数据集

作为计算机视觉三大任务（图像分类、目标检测、图像分割）之一，目标检测任务在于从图像中定位并分类感兴趣的物体。传统视觉方案涉及霍夫变换、滑窗、特征提取、边界检测、模板匹配、哈尔特征、DPM、BoW、传统机器学习（如随机森林、AdaBoost）等技巧或方法。在卷积神经网络的加持下，目标检测任务在近些年里有了长足的发展。其应用十分广泛，比如在自动驾驶领域，目标检测用于无人车检测其他车辆、行人或者交通标志牌等物体。

目标检测的常用框架可以分为两类，一类是 two-stage/two-shot 的方法，其特点是将兴趣区域检测和分类分开进行，比较有代表性的是R-CNN，Fast R-CNN，Faster R-CNN；另一类是 one-stage/one-shot 的方法，用一个网络同时进行兴趣区域检测和分类，以YOLO（v1,v2,v3）和SSD为代表。

Two-stage的方式面世比较早，由于需要将兴趣区域检测和分类分开进行，虽然精度比较高，但实时性比较差，不适合自动驾驶无人车辆感知等应用场景。因而此次我们主要介绍一下SSD和YOLO系列框架。

SSD与2016年由W. Liu et al.在 SSD: Single Shot MultiBox Detector 一文中提出。虽然比同年提出的YOLO（v1）稍晚，但是运行速度更快，同时更加精确。

SSD的框架在一个基础CNN网络（作者使用VGG-16，但是也可以换成其他网络）之上，添加了一些额外的结构，从而使网络具有以下特性：

用多尺度特征图进行检测作者在VGG-16后面添加了一些特征层，这些层的尺寸逐渐减小，允许我们在不同的尺度下进行预测。越是深层小的特征图，用来预测越大的物体。

用卷积网络进行预测不同于YOLO的全连接层，对每个用于预测的通道特征图，SSD的分类器全都使用了卷积进行预测，其中是每个单元放置的先验框的数量，是预测的类别数。

设置先验框对于每一个特征图上的单元格，我们都放置一系列先验框。随后对每一个特征图上的单元格对应的每一个先验框，我们预测先验框的维偏移量和每一类的置信度。例如，对于一个的特征图，若每一个特征图对应个先验框，同时需要预测的类别有类，那输出的大小为。（具体体现在训练过程中）其中，若用表示先验框的中心位置和宽高，表示预测框的中心位置和宽高，则实际预测的维偏移量是分别是：

下图是SSD的一个框架，首先是一个VGG-16卷积前5层，随后级联了一系列卷积层，其中有6层分别通过了卷积（或者最后一层的平均池化）用于预测，得到了一个的输出，随后通过极大值抑制（NMS）获得最终的结果。

图中网络用于检测的特征图有个，大小依次为，，，，，；这些特征图每个单元所对应的预置先验框分别有 , , , , , 个，所以网络共预测了个边界框，（进行极大值抑制前）输出的维度为。

未完待续

参考： chenxp2311的CSDN博客：论文阅读：SSD: Single Shot MultiBox Detector 小小将的知乎专栏：目标检测|SSD原理与实现 littleYii的CSDN博客：目标检测论文阅读：YOLOv1-YOLOv3（一）

作者的其他相关文章：图像分割：全卷积神经网络（FCN）详解 PointNet：基于深度学习的3D点云分类和分割模型详解基于视觉的机器人室内定位

改进yolov5能发小论文。

主做目标检测的，正好最近在用yolov5，说点个人看法吧，不一定对。

首先yolo系列发展到现在，思想已经很成熟了，像具体的改进，其实4和5也有很多异曲同工的地方，无论是backbone还是neck。

目前很多改进yolov5发论文的，一些是在backone上做轻量化处理，一些是加入注意力机制，一些是改进neck，或者调整head，还有改损失函数或者nms过程的。

主要是因为yolo本身的思想已经很成熟了，在这个框架下的确很难做出些通用性的创新和提升。至于把各种成熟的模块塞进去发论文，这种仁者见仁智者见智吧。个人感觉还是结合某个方向改进yolo，会有方向一些。毕竟不同的数据集和尺度上，同样的改进有时候效果也是不同的。

Yolov5 目标检测的损失函数由三部分组成，分别是矩形框预测损失函数、置信度预测损失函数以及类别预测损失函数，在上节中分析了目标检测损失函数GIoU 的缺陷及其改进，使用 CIoU 以及带有调节因子的二元交叉熵函数替代原网络的损失函数。

实验验证此次改进，与原算法结果对比如下表所示。根据上表数据可以看到，针对本文的损失函数的改进在实验时得到了的准确率，提升了，可以证明对损失函数的改进可以对目标检测的性能提升提供很大帮助。

目标检测的论文

论文原文：

YOLO（you only look once）是继RCNN、faster-RCNN之后，又一里程碑式的目标检测算法。yolo在保持不错的准确度的情况下，解决了当时基于深度学习的检测中的痛点---速度问题。下图是各目标检测系统的检测性能对比：

如果说faster-RCNN是真正实现了完全基于深度学习的端到端的检测，那么yolo则是更进一步，将目标区域预测与目标类别判断整合到单个神经网络模型中。各检测算法结构见下图：

每个网格要预测B个bounding box，每个bounding box除了要回归自身的位置之外，还要附带预测一个confidence值。这个confidence代表了所预测的box中含有object的置信度和这个box预测的有多准两重信息，其值是这样计算的：

其中如果有object落在一个grid cell里，第一项取1，否则取0。第二项是预测的bounding box和实际的groundtruth之间的IoU值。

每个bounding box要预测(x, y, w, h)和confidence共5个值，每个网格还要预测一个类别信息，记为C类。即SxS个网格，每个网格除了要预测B个bounding box外，还要预测C个categories。输出就是S x S x (5*B+C)的一个tensor。（注意：class信息是针对每个网格的，即一个网格只预测一组类别而不管里面有多少个bounding box，而confidence信息是针对每个bounding box的。）

举例说明: 在PASCAL VOC中，图像输入为448x448，取S=7，B=2，一共有20个类别(C=20)。则输出就是7x7x30的一个tensor。整个网络结构如下图所示：

在test的时候，每个网格预测的class信息和bounding box预测的confidence信息相乘，就得到每个bounding box的class-specific confidence score:

等式左边第一项就是每个网格预测的类别信息，第二三项就是每个bounding box预测的confidence。这个乘积即encode了预测的box属于某一类的概率，也有该box准确度的信息。

得到每个box的class-specific confidence score以后，设置阈值，滤掉得分低的boxes，对保留的boxes进行NMS（非极大值抑制non-maximum suppresssion）处理，就得到最终的检测结果。

1、每个grid因为预测两个bounding box有30维（30=2*5+20），这30维中，8维是回归box的坐标，2维是box的confidence，还有20维是类别。其中坐标的x,y用bounding box相对grid的offset归一化到0-1之间，w,h除以图像的width和height也归一化到0-1之间。

2、对不同大小的box预测中，相比于大box预测偏一点，小box预测偏一点肯定更不能被忍受的。而sum-square error loss中对同样的偏移loss是一样。为了缓和这个问题，作者用了一个比较取巧的办法，就是将box的width和height取平方根代替原本的height和width。这个参考下面的图很容易理解，小box的横轴值较小，发生偏移时，反应到y轴上相比大box要大。其实就是让算法对小box预测的偏移更加敏感。

3、一个网格预测多个box，希望的是每个box predictor专门负责预测某个object。具体做法就是看当前预测的box与ground truth box中哪个IoU大，就负责哪个。这种做法称作box predictor的specialization。

4、损失函数公式见下图：

在实现中，最主要的就是怎么设计损失函数，坐标（x,y,w,h），confidence，classification 让这个三个方面得到很好的平衡。简单的全部采用sum-squared error loss来做这件事会有以下不足：

解决方法：

只有当某个网格中有object的时候才对classification error进行惩罚。只有当某个box predictor对某个ground truth box负责的时候，才会对box的coordinate error进行惩罚，而对哪个ground truth box负责就看其预测值和ground truth box的IoU是不是在那个cell的所有box中最大。

作者采用ImageNet 1000-class 数据集来预训练卷积层。预训练阶段，采用网络中的前20卷积层，外加average-pooling层和全连接层。模型训练了一周，获得了top-5 accuracy为（ImageNet2012 validation set），与GoogleNet模型准确率相当。

然后，将模型转换为检测模型。作者向预训练模型中加入了4个卷积层和两层全连接层，提高了模型输入分辨率（224×224->448×448）。顶层预测类别概率和bounding box协调值。bounding box的宽和高通过输入图像宽和高归一化到0-1区间。顶层采用linear activation，其它层使用 leaky rectified linear。

作者采用sum-squared error为目标函数来优化，增加bounding box loss权重，减少置信度权重，实验中，设定为\lambda _{coord} =5 and\lambda _{noobj}= 。

作者在PASCAL VOC2007和PASCAL VOC2012数据集上进行了训练和测试。训练135轮，batch size为64，动量为，学习速率延迟为。Learning schedule为：第一轮，学习速率从缓慢增加到（因为如果初始为高学习速率，会导致模型发散）；保持速率到75轮；然后在后30轮中，下降到；最后30轮，学习速率为。

作者还采用了dropout和 data augmentation来预防过拟合。dropout值为；data augmentation包括：random scaling，translation，adjust exposure和saturation。

YOLO模型相对于之前的物体检测方法有多个优点：

1、 YOLO检测物体非常快

因为没有复杂的检测流程，只需要将图像输入到神经网络就可以得到检测结果，YOLO可以非常快的完成物体检测任务。标准版本的YOLO在Titan X 的 GPU 上能达到45 FPS。更快的Fast YOLO检测速度可以达到155 FPS。而且，YOLO的mAP是之前其他实时物体检测系统的两倍以上。

2、 YOLO可以很好的避免背景错误，产生false positives

不像其他物体检测系统使用了滑窗或region proposal，分类器只能得到图像的局部信息。YOLO在训练和测试时都能够看到一整张图像的信息，因此YOLO在检测物体时能很好的利用上下文信息，从而不容易在背景上预测出错误的物体信息。和Fast-R-CNN相比，YOLO的背景错误不到Fast-R-CNN的一半。

3、 YOLO可以学到物体的泛化特征

当YOLO在自然图像上做训练，在艺术作品上做测试时，YOLO表现的性能比DPM、R-CNN等之前的物体检测系统要好很多。因为YOLO可以学习到高度泛化的特征，从而迁移到其他领域。

尽管YOLO有这些优点，它也有一些缺点：

1、YOLO的物体检测精度低于其他state-of-the-art的物体检测系统。

2、YOLO容易产生物体的定位错误。

3、YOLO对小物体的检测效果不好（尤其是密集的小物体，因为一个栅格只能预测2个物体）。

原文： Scalable Object Detection using Deep Neural Networks——学术范最近，深度卷积神经网络在许多图像识别基准上取得了最先进的性能，包括ImageNet大规模视觉识别挑战(ILSVRC-2012)。在定位子任务中获胜的模型是一个网络，它预测了图像中每个对象类别的单个边界框和置信度得分。这样的模型捕获了围绕对象的整幅图像上下文，但如果不天真地复制每个实例的输出数量，就无法处理图像中同一对象的多个实例。在这篇论文中提出了一个显著性启发的神经网络检测模型，它预测了一组与类无关的边界框，每个框有一个分数，对应于它包含任何感兴趣的对象的可能性。该模型自然地为每个类处理数量可变的实例，并允许在网络的最高级别上进行跨类泛化。目标检测是计算机视觉的基本任务之一。一个解决这个问题的通用范例是训练在子图像上操作的对象检测器，并在所有的场所和尺度上以详尽的方式应用这些检测器。这一范例被成功地应用于经过区别训练的可变形零件模型(DPM)中，以实现检测任务的最新结果。对所有可能位置和尺度的穷举搜索带来了计算上的挑战。随着类数量的增加，这个挑战变得更加困难，因为大多数方法都训练每个类单独的检测器。为了解决这个问题，人们提出了多种方法，从检测器级联到使用分割提出少量的对象假设。关于对象检测的文献非常多，在本节中，我们将重点讨论利用类不可知思想和解决可伸缩性的方法。许多提出的检测方法都是基于基于部件的模型，最近由于有区别学习和精心设计的特征，已经取得了令人印象深刻的性能。然而,这些方法依赖于在多个尺度上详尽地应用零件模板，这是非常昂贵的。此外，它们在类的数量上是可伸缩的，这对像ImageNet这样的现代数据集来说是一个挑战。为了解决前一个问题，Lampert等人使用分支绑定策略来避免计算所有可能的对象位置。为了解决后一个问题，Song et al.使用了一个低维部件基，在所有对象类中共享。基于哈希算法的零件检测也取得了良好的结果。另一种不同的工作，与我们的工作更接近，是基于对象可以本地化的想法，而不必知道它们的类。其中一些方法建立在自底向上无阶级分割[9]的基础上。通过这种方式得到的片段可以使用自上而下的反馈进行评分。基于同样的动机，Alexe等人使用一种廉价的分类器对对象假设是否为对象进行评分，并以这种方式减少了后续检测步骤的位置数量。这些方法可以被认为是多层模型，分割作为第一层，分割分类作为后续层。尽管它们编码了已证明的感知原理，但我们将表明，有更深入的模型，充分学习可以导致更好的结果。最后，我们利用了DeepLearning的最新进展，最引人注目的是Krizhevsky等人的工作。我们将他们的边界盒回归检测方法扩展到以可扩展的方式处理多个对象的情况。然而，基于dnn的回归已经被Szegedy等人应用到对象掩模中。最后一种方法实现了最先进的检测性能，但由于单个掩模回归的成本，不能扩展到多个类。我们的目标是通过预测一组表示潜在对象的边界盒来实现一种与类无关的可扩展对象检测。更准确地说，我们使用了深度神经网络(DNN)，它输出固定数量的包围盒。此外，它为每个盒子输出一个分数，表示这个盒子包含一个对象的网络信任度。为了形式化上述思想，我们将i-thobject框及其相关的置信度编码为最后一网层的节点值: Bounding box: 我们将每个框的左上角和右下角坐标编码为四个节点值，可以写成vectorli∈R4。这些坐标是归一化的w. r. t.图像尺寸，以实现图像绝对尺寸的不变性。每个归一化坐标是由最后一层的线性变换产生的。 Confidence: 置信度:包含一个对象的盒子的置信度得分被编码为单个节点valueci∈[0,1]。这个值是通过最后一个隐藏层的线性变换产生的，后面跟着一个sigmoid。我们可以组合边界盒位置sli,i∈{1，…K}为一个线性层。同样，我们可以将所有置信区间ci,i∈{1，…K}作为一个s型层的输出。这两个输出层都连接到最后一个隐藏层在推理时，我们的算法生成kbound盒。在我们的实验中，我们使用ek = 100和K= 200。如果需要，我们可以使用置信分数和非最大抑制在推理时获得较少数量的高置信框。这些盒子应该代表对象。因此，它们可以通过后续的分类器进行分类，实现目标检测。由于盒子的数量非常少，我们可以提供强大的分类器。在我们的实验中，我们使用另一个dnn进行分类。我们训练一个DNN来预测每个训练图像的边界框及其置信度得分，以便得分最高的框与图像的groundtruth对象框很好地匹配。假设对于一个特定的训练例子，对象被标记为boundingboxesgj,j∈{1，…，M}。在实践中，pre- dictionary的数量远远大于groundtruthboxm的数量。因此，我们试图只优化与地面真实最匹配的预测框子集。我们优化他们的位置，以提高他们的匹配度，最大化他们的信心。与此同时，我们将剩余预测的置信度最小化，这被认为不能很好地定位真实对象。为了达到上述目的，我们为每个训练实例制定一个分配问题。Wexij∈{0,1}表示赋值:xij= 1，如果第i个预测被赋值给第j个真对象。这项任务的目标可以表示为其中，我们使用标准化边界框坐标之间的el2距离来量化边界框之间的不同。此外，我们希望根据分配x优化盒子的可信度。最大化指定预测的置信度可以表示为最终的损失目标结合了匹配损失和信心损失受式1的约束。α平衡了不同损失条款的贡献。对于每个训练例子，我们通过解决一个最佳的赋值x*的预测到真实的盒子约束执行赋值解决方案。这是二部匹配的一种变体，是一种多项式复杂度匹配。在我们的应用程序中，匹配是非常便宜的——每幅图像中标记的对象的数量少于一打，而且在大多数情况下只有很少的对象被标记。然后，通过反向传播优化网络参数。例如，反向传播算法的一阶导数计算w、r、t、l和c 尽管上述定义的损失在原则上是足够的，但三次修改使其有可能更快地达到更好的准确性。第一个修改是对地面真实位置进行聚类，并找到这样的聚类/质心，我们可以使用这些聚类/质心作为每个预测位置的先验。因此，鼓励学习算法为每个预测位置学习一个残差到一个先验。第二个修改涉及到在匹配过程中使用这些先验:不是将N个groundtruth位置与K个预测进行匹配，而是在K个先验和groundtruth之间找到最佳匹配。一旦匹配完成，就会像之前一样计算目标的置信度。此外，位置预测损失也不变:对于任何一对匹配的(目标，预测)位置，其损失定义为groundtruth和对应于匹配先验的坐标之间的差值。我们把使用先验匹配称为先验匹配，并假设它促进了预测的多样化。需要注意的是，尽管我们以一种与类无关的方式定义了我们的方法，但我们可以将它应用于预测特定类的对象盒。要做到这一点，我们只需要在类的边框上训练我们的模型。此外，我们可以预测每个类的kbox。不幸的是，这个模型的参数数量会随着类的数量线性增长。此外，在一个典型的设置中，给定类的对象数量相对较少，这些参数中的大多数会看到很少有相应梯度贡献的训练示例。因此，我们认为我们的两步过程——首先本地化，然后识别——是一个更好的选择，因为它允许使用少量参数利用同一图像中多个对象类型的数据我们使用的本地化和分类模型的网络架构与[10]使用的网络架构相同。我们使用Adagrad来控制学习速率衰减，128的小批量，以及使用多个相同的网络副本进行并行分布式训练，从而实现更快的收敛。如前所述，我们在定位损失中使用先验——这些是使用训练集上的均值来计算的。我们还使用α = 来平衡局部化和置信度损失。定位器可以输出用于推断的种植区以外的坐标。坐标被映射和截断到最后的图像区域。另外，使用非最大抑制对盒进行修剪，Jaccard相似度阈值为。然后，我们的第二个模型将每个边界框分类为感兴趣的对象或“背景”。为了训练我们的定位器网络，我们从训练集中生成了大约3000万幅图像，并对训练集中的每幅图像应用以下步骤。最后，样品被打乱。为了训练我们的本地化网络，我们通过对训练集中的每一幅图像应用以下步骤，从训练集中生成了大约3000万幅图像。对于每幅图像，我们生成相同数量的平方样本，使样本总数大约为1000万。对于每幅图像，样本被桶状填充，这样，对于0 - 5%、5 - 15%、15 - 50%、50 - 100%范围内的每个比例，都有相同数量的样本，其中被包围框覆盖的比例在给定范围内。训练集和我们大多数超参数的选择是基于过去使用非公开数据集的经验。在下面的实验中，我们没有探索任何非标准数据生成或正则化选项。在所有的实验中，所有的超参数都是通过对训练集。 Pascal Visual Object Classes (VOC)挑战是最常用的对象检测算法基准。它主要由复杂的场景图像组成，其中包含了20种不同的对象类别的边界框。在我们的评估中，我们关注的是2007版VOC，为此发布了一个测试集。我们通过培训VOC 2012展示了结果，其中包含了大约。11000张图片。我们训练了一个100框的定位器和一个基于深度网络的分类器。我们在一个由1000万作物组成的数据集上训练分类器，该数据集重叠的对象至少为 jaccard重叠相似度。这些作物被标记为20个VOC对象类中的一个。•2000万负作物与任何物体盒最多有个Jaccard相似度。这些作物被贴上特殊的“背景”类标签。体系结构和超参数的选择遵循。在第一轮中，定位器模型应用于图像中最大-最小中心方形作物。作物的大小调整到网络输入大小is220×220。单次通过这个网络，我们就可以得到上百个候选日期框。在对重叠阈值为的非最大抑制后，保留评分最高的前10个检测项，并通过21路分类器模型分别通过网络进行分类。最终的检测分数是给定盒子的定位分数乘以分类器在作物周围的最大方形区域上评估的分数的乘积。这些分数通过评估，并用于计算精确查全曲线。首先，我们分析了本地化器在隔离状态下的性能。我们给出了被检测对象的数量，正如Pascal检测标准所定义的那样，与生成的包围框的数量相对比。在图1中，我们展示了使用VOC2012进行训练所获得的结果。此外，我们通过使用图像的最大中心面积(max-center square crop)作为输入以及使用两个尺度(second scale)来给出结果:最大中心面积(max-center crop)的第二个尺度(select3×3windows的大小为图像大小的60%)正如我们所看到的，当使用10个边界框的预算时，我们可以用第一个模型本地化的对象，用第二个模型本地化48%的对象。这显示出比其他报告的结果更好的性能，例如对象度算法达到42%[1]。此外，这个图表显示了在不同分辨率下观察图像的重要性。虽然我们的算法通过使用最大中心作物获得了大量的对象，但当使用更高分辨率的图像作物时，我们获得了额外的提升。进一步，我们用21-way分类器对生成的包围盒进行分类，如上所述。表1列出了VOC 2007的平均精度(APs)。达到的平均AP是，与先进水平相当。注意，我们的运行时间复杂度非常低——我们只使用top10框。示例检测和全精度召回曲线分别如图2和图3所示。值得注意的是，可视化检测是通过仅使用最大中心方形图像裁剪，即使用全图像获得的。然而，我们设法获得了相对较小的对象，例如第二行和第二列的船，以及第三行和第三列的羊。在本工作中，我们提出了一种新的方法来定位图像中的对象，该方法可以预测多个边界框的时间。该方法使用深度卷积神经网络作为基本特征提取和学习模型。它制定了一个能够利用可变数量的groundtruth位置的多箱定位成本。在“一个类一个箱”方法的情况下，对1000个盒子进行非max-suppression，使用与给定图像中感兴趣的DeepMulti-Box方法相同的准则，并学习在未见图像中预测这些位置。我们在VOC2007和ILSVRC-2012这两个具有挑战性的基准上给出了结果，在这两个基准上，所提出的方法具有竞争力。此外，该方法能够很好地预测后续分类器将探测到的位置。我们的结果表明，deepmultibox的方法是可扩展的，甚至可以在两个数据集之间泛化，就能够预测感兴趣的定位，甚至对于它没有训练的类别。此外，它能够捕获同一类物体的多种情况，这是旨在更好地理解图像的算法的一个重要特征。在未来，我们希望能够将定位和识别路径折叠到一个单一的网络中，这样我们就能够在一个通过网络的一次性前馈中提取位置和类标签信息。即使在其当前状态下，双通道过程(本地化网络之后是分类网络)也会产生5-10个网络评估，每个评估的速度大约为1个CPU-sec(现代机器)。重要的是，这个数字并不与要识别的类的数量成线性关系，这使得所提出的方法与类似dpm的方法非常有竞争力。

有一个月没更博客了，捂脸 o(￣=￣)d

端午回家休息了几天，6月要加油~

回到正文，HOG是很经典的一种图像特征提取方法，尤其是在行人识别领域被应用的很多。虽然文章是2005年发表在CVPR上的，但近十年来还没有被淹没的文章真的是很值得阅读的研究成果了。

key idea：局部物体的形状和外观可以通过局部梯度或者边缘的密度分布所表示。

主要步骤：

上图为论文中提供的图，个人觉得我在参考资料中列出的那篇博客中给出的图可能更好理解一些。

具体细节：关于每一个过程的详细解释还是在这篇博客中已经写得很清楚了，这里就不再搬运了。

文章中数据集的图像大小均为：64*128, block大小为16x16， block stride为8x8，cell size为8x8，bins=9（直方图等级数）；

获取到每张图的特征维度后，再用线性SVM训练分类器即可。

下图为作者而给出的示例图：

这两篇博客写的都很好，推荐阅读一波。

传统的目标检测论文

姓名：牛晓银；学号：20181213993；学院：计算机科学与技术转自：【嵌牛导读】：目标检测，也叫目标提取，是一种基于目标几何和统计特征的图像分割。随着计算机技术的发展和计算机视觉原理的广泛应用，利用计算机图像处理技术对目标进行实时跟踪研究越来越热门，对目标进行动态实时跟踪定位在智能化交通系统、军事目标检测及医学导航手术中手术器械定位等方面具有广泛的应用价值。【嵌牛鼻子】：目标检测、检测模型、计算机视觉【嵌牛提问】：你知道或者用过哪些目标检测算法？【嵌牛正文】：（一）目标检测经典工作回顾本文结构两阶段模型因其对图片的两阶段处理得名，也称为基于区域（Region-based）的方法，我们选取R-CNN系列工作作为这一类型的代表。 R-CNN: R-CNN系列的开山之作论文链接： Rich feature hierarchies for accurate object detection and semantic segmentation 本文的两大贡献：1）CNN可用于基于区域的定位和分割物体；2）监督训练样本数紧缺时，在额外的数据上预训练的模型经过fine-tuning可以取得很好的效果。第一个贡献影响了之后几乎所有2-stage方法，而第二个贡献中用分类任务（Imagenet）中训练好的模型作为基网络，在检测问题上fine-tuning的做法也在之后的工作中一直沿用。传统的计算机视觉方法常用精心设计的手工特征(如SIFT, HOG)描述图像，而深度学习的方法则倡导习得特征，从图像分类任务的经验来看，CNN网络自动习得的特征取得的效果已经超出了手工设计的特征。本篇在局部区域应用卷积网络，以发挥卷积网络学习高质量特征的能力。 R-CNN将检测抽象为两个过程，一是基于图片提出若干可能包含物体的区域（即图片的局部裁剪，被称为Region Proposal），文中使用的是Selective Search算法；二是在提出的这些区域上运行当时表现最好的分类网络（AlexNet），得到每个区域内物体的类别。另外，文章中的两个做法值得注意。一是数据的准备。输入CNN前，我们需要根据Ground Truth对提出的Region Proposal进行标记，这里使用的指标是IoU（Intersection over Union，交并比）。IoU计算了两个区域之交的面积跟它们之并的比，描述了两个区域的重合程度。文章中特别提到，IoU阈值的选择对结果影响显著，这里要谈两个threshold，一个用来识别正样本（如跟ground truth的IoU大于），另一个用来标记负样本（即背景类，如IoU小于），而介于两者之间的则为难例（Hard Negatives），若标为正类，则包含了过多的背景信息，反之又包含了要检测物体的特征，因而这些Proposal便被忽略掉。另一点是位置坐标的回归（Bounding-Box Regression），这一过程是Region Proposal向Ground Truth调整，实现时加入了log/exp变换来使损失保持在合理的量级上，可以看做一种标准化（Normalization)操作。小结 R-CNN的想法直接明了，即将检测任务转化为区域上的分类任务，是深度学习方法在检测任务上的试水。模型本身存在的问题也很多，如需要训练三个不同的模型（proposal, classification, regression）、重复计算过多导致的性能问题等。尽管如此，这篇论文的很多做法仍然广泛地影响着检测任务上的深度模型革命，后续的很多工作也都是针对改进这一工作而展开，此篇可以称得上"The First Paper"。 Fast R-CNN: 共享卷积运算论文链接： Fast R-CNN 文章指出R-CNN耗时的原因是CNN是在每一个Proposal上单独进行的，没有共享计算，便提出将基础网络在图片整体上运行完毕后，再传入R-CNN子网络，共享了大部分计算，故有Fast之名。上图是Fast R-CNN的架构。图片经过feature extractor得到feature map, 同时在原图上运行Selective Search算法并将RoI（Region of Interset，实为坐标组，可与Region Proposal混用）映射到到feature map上，再对每个RoI进行RoI Pooling操作便得到等长的feature vector，将这些得到的feature vector进行正负样本的整理（保持一定的正负样本比例），分batch传入并行的R-CNN子网络，同时进行分类和回归，并将两者的损失统一起来。 RoI Pooling 是对输入R-CNN子网络的数据进行准备的关键操作。我们得到的区域常常有不同的大小，在映射到feature map上之后，会得到不同大小的特征张量。RoI Pooling先将RoI等分成目标个数的网格，再在每个网格上进行max pooling，就得到等长的RoI feature vector。文章最后的讨论也有一定的借鉴意义： multi-loss traing相比单独训练classification确有提升 multi-scale相比single-scale精度略有提升，但带来的时间开销更大。一定程度上说明CNN结构可以内在地学习尺度不变性在更多的数据(VOC)上训练后，精度是有进一步提升的 Softmax分类器比"one vs rest"型的SVM表现略好，引入了类间的竞争更多的Proposal并不一定带来精度的提升小结 Fast R-CNN的这一结构正是检测任务主流2-stage方法所采用的元结构的雏形。文章将Proposal, Feature Extractor, Object Classification&Localization统一在一个整体的结构中，并通过共享卷积计算提高特征利用效率，是最有贡献的地方。 Faster R-CNN: 两阶段模型的深度化论文链接： Faster R-CNN: Towards Real Time Object Detection with Region Proposal Networks Faster R-CNN是2-stage方法的奠基性工作，提出的RPN网络取代Selective Search算法使得检测任务可以由神经网络端到端地完成。粗略的讲，Faster R-CNN = RPN + Fast R-CNN，跟RCNN共享卷积计算的特性使得RPN引入的计算量很小，使得Faster R-CNN可以在单个GPU上以5fps的速度运行，而在精度方面达到SOTA（State of the Art，当前最佳）。本文的主要贡献是提出Regional Proposal Networks，替代之前的SS算法。RPN网络将Proposal这一任务建模为二分类（是否为物体）的问题。第一步是在一个滑动窗口上生成不同大小和长宽比例的anchor box（如上图右边部分），取定IoU的阈值，按Ground Truth标定这些anchor box的正负。于是，传入RPN网络的样本数据被整理为anchor box（坐标）和每个anchor box是否有物体（二分类标签）。RPN网络将每个样本映射为一个概率值和四个坐标值，概率值反应这个anchor box有物体的概率，四个坐标值用于回归定义物体的位置。最后将二分类和坐标回归的损失统一起来，作为RPN网络的目标训练。由RPN得到Region Proposal在根据概率值筛选后经过类似的标记过程，被传入R-CNN子网络，进行多分类和坐标回归，同样用多任务损失将二者的损失联合。小结 Faster R-CNN的成功之处在于用RPN网络完成了检测任务的"深度化"。使用滑动窗口生成anchor box的思想也在后来的工作中越来越多地被采用（YOLO v2等）。这项工作奠定了"RPN+RCNN"的两阶段方法元结构，影响了大部分后续工作。单阶段（1-stage）检测模型单阶段模型没有中间的区域检出过程，直接从图片获得预测结果，也被成为Region-free方法。 YOLO 论文链接： You Only Look Once: Unified, Real-Time Object Detection YOLO是单阶段方法的开山之作。它将检测任务表述成一个统一的、端到端的回归问题，并且以只处理一次图片同时得到位置和分类而得名。 YOLO的主要优点：快。全局处理使得背景错误相对少，相比基于局部（区域）的方法，如Fast RCNN。泛化性能好，在艺术作品上做检测时，YOLO表现比Fast R-CNN好。 YOLO的工作流程如下： 1.准备数据：将图片缩放，划分为等分的网格，每个网格按跟Ground Truth的IoU分配到所要预测的样本。 2.卷积网络：由GoogLeNet更改而来，每个网格对每个类别预测一个条件概率值，并在网格基础上生成B个box，每个box预测五个回归值，四个表征位置，第五个表征这个box含有物体（注意不是某一类物体）的概率和位置的准确程度（由IoU表示）。测试时，分数如下计算：等式左边第一项由网格预测，后两项由每个box预测，以条件概率的方式得到每个box含有不同类别物体的分数。因而，卷积网络共输出的预测值个数为S×S×(B×5+C)，其中S为网格数，B为每个网格生成box个数，C为类别数。 3.后处理：使用NMS（Non-Maximum Suppression，非极大抑制）过滤得到最后的预测框损失函数的设计损失函数被分为三部分：坐标误差、物体误差、类别误差。为了平衡类别不均衡和大小物体等带来的影响，损失函数中添加了权重并将长宽取根号。小结 YOLO提出了单阶段的新思路，相比两阶段方法，其速度优势明显，实时的特性令人印象深刻。但YOLO本身也存在一些问题，如划分网格较为粗糙，每个网格生成的box个数等限制了对小尺度物体和相近物体的检测。 SSD: Single Shot Multibox Detector 论文链接： SSD: Single Shot Multibox Detector SSD相比YOLO有以下突出的特点：多尺度的feature map：基于VGG的不同卷积段，输出feature map到回归器中。这一点试图提升小物体的检测精度。更多的anchor box，每个网格点生成不同大小和长宽比例的box，并将类别预测概率基于box预测（YOLO是在网格上），得到的输出值个数为(C+4)×k×m×n，其中C为类别数，k为box个数，m×n为feature map的大小。小结 SSD是单阶段模型早期的集大成者，达到跟接近两阶段模型精度的同时，拥有比两阶段模型快一个数量级的速度。后续的单阶段模型工作大多基于SSD改进展开。检测模型基本特点最后，我们对检测模型的基本特征做一个简单的归纳。检测模型整体上由基础网络（Backbone Network）和检测头部（Detection Head）构成。前者作为特征提取器，给出图像不同大小、不同抽象层次的表示；后者则依据这些表示和监督信息学习类别和位置关联。检测头部负责的类别预测和位置回归两个任务常常是并行进行的，构成多任务的损失进行联合训练。相比单阶段，两阶段检测模型通常含有一个串行的头部结构，即完成前背景分类和回归后，把中间结果作为RCNN头部的输入再进行一次多分类和位置回归。这种设计带来了一些优点：对检测任务的解构，先进行前背景的分类，再进行物体的分类，这种解构使得监督信息在不同阶段对网络参数的学习进行指导 RPN网络为RCNN网络提供良好的先验，并有机会整理样本的比例，减轻RCNN网络的学习负担这种设计的缺点也很明显：中间结果常常带来空间开销，而串行的方式也使得推断速度无法跟单阶段相比；级联的位置回归则会导致RCNN部分的重复计算（如两个RoI有重叠）。另一方面，单阶段模型只有一次类别预测和位置回归，卷积运算的共享程度更高，拥有更快的速度和更小的内存占用。读者将会在接下来的文章中看到，两种类型的模型也在互相吸收彼此的优点，这也使得两者的界限更为模糊。

论文原文：

其中如果有object落在一个grid cell里，第一项取1，否则取0。第二项是预测的bounding box和实际的groundtruth之间的IoU值。

举例说明: 在PASCAL VOC中，图像输入为448x448，取S=7，B=2，一共有20个类别(C=20)。则输出就是7x7x30的一个tensor。整个网络结构如下图所示：

在test的时候，每个网格预测的class信息和bounding box预测的confidence信息相乘，就得到每个bounding box的class-specific confidence score:

4、损失函数公式见下图：

解决方法：

作者采用sum-squared error为目标函数来优化，增加bounding box loss权重，减少置信度权重，实验中，设定为\lambda _{coord} =5 and\lambda _{noobj}= 。

作者还采用了dropout和 data augmentation来预防过拟合。dropout值为；data augmentation包括：random scaling，translation，adjust exposure和saturation。

YOLO模型相对于之前的物体检测方法有多个优点：

1、 YOLO检测物体非常快

2、 YOLO可以很好的避免背景错误，产生false positives

3、 YOLO可以学到物体的泛化特征

尽管YOLO有这些优点，它也有一些缺点：

1、YOLO的物体检测精度低于其他state-of-the-art的物体检测系统。

2、YOLO容易产生物体的定位错误。

3、YOLO对小物体的检测效果不好（尤其是密集的小物体，因为一个栅格只能预测2个物体）。

SSD与2016年由W. Liu et al.在 SSD: Single Shot MultiBox Detector 一文中提出。虽然比同年提出的YOLO（v1）稍晚，但是运行速度更快，同时更加精确。

SSD的框架在一个基础CNN网络（作者使用VGG-16，但是也可以换成其他网络）之上，添加了一些额外的结构，从而使网络具有以下特性：

未完待续

作者的其他相关文章：图像分割：全卷积神经网络（FCN）详解 PointNet：基于深度学习的3D点云分类和分割模型详解基于视觉的机器人室内定位

目标检测论文的代码

论文原文：

其中如果有object落在一个grid cell里，第一项取1，否则取0。第二项是预测的bounding box和实际的groundtruth之间的IoU值。

举例说明: 在PASCAL VOC中，图像输入为448x448，取S=7，B=2，一共有20个类别(C=20)。则输出就是7x7x30的一个tensor。整个网络结构如下图所示：

在test的时候，每个网格预测的class信息和bounding box预测的confidence信息相乘，就得到每个bounding box的class-specific confidence score:

4、损失函数公式见下图：

解决方法：

作者采用sum-squared error为目标函数来优化，增加bounding box loss权重，减少置信度权重，实验中，设定为\lambda _{coord} =5 and\lambda _{noobj}= 。

作者还采用了dropout和 data augmentation来预防过拟合。dropout值为；data augmentation包括：random scaling，translation，adjust exposure和saturation。

YOLO模型相对于之前的物体检测方法有多个优点：

1、 YOLO检测物体非常快

2、 YOLO可以很好的避免背景错误，产生false positives

3、 YOLO可以学到物体的泛化特征

尽管YOLO有这些优点，它也有一些缺点：

1、YOLO的物体检测精度低于其他state-of-the-art的物体检测系统。

2、YOLO容易产生物体的定位错误。

3、YOLO对小物体的检测效果不好（尤其是密集的小物体，因为一个栅格只能预测2个物体）。

论文： Faster R-CNN: Towards Real-Time Object Detection with Region Proposal Networks

目标检测网络大多依靠区域生成（region proposal）算法来假设目标的位置。 R-CNN 是采用 Selective Search 算法来提取(propose)可能的 RoIs(regions of interest) 区域，然后对每个提取区域采用标准 CNN 进行分类。选择性搜索（Selective Search ）方法就是在目标对象周围设定2000个形状大小位置不一的候选区域，目标物体在候选区域的可能性还是比较大的。然后对这些区域卷积，找到目标物体，虽然大多数区域都是无用的。与寻找几乎个区域比起来，这种方法要高效的多。

Fast R-CNN ，不在原始图像生成备选区域，而是先整张图片通过卷积网络得到特征图，然后在特征图上使用备选区域算法得到感兴趣的区域在特征图的映射，之后使用 Rol Pool将所有区域变成同样尺寸，大大减少了这些目标检测网络的运行时间，但是区域生成的计算成为整个检测网络的瓶颈。

Faster R-CNN 引入了一个区域生成网络（Region Proposal Network，RPN），该网络与检测网络共享输入图像的卷积特征，从而使接近零时间成本的区域生成成为可能。 RPN是一个全卷积网络，可以同时在每个位置预测目标边界和目标分数。RPN经过端到端的训练，可以生成高质量的区域候选框，然后提供给Fast R-CNN用于检测。

Faster R-CNN 由两个模块组成：第一个模块是区域生成的深度全卷积网络，第二个模块是使用备选区域的Fast R-CNN检测器。整个系统是一个单个的，统一的目标检测网络。使用最近流行的“注意力”机制的神经网络术语，RPN模块告诉Fast R-CNN模块在哪里寻找目标。

针对一张图片，需要获得的输出有：

Faster R-CNN 第一步是采用基于分类任务(如ImageNet)的 CNN 模型作为特征提取器。输入图片表示为 H × W × D 的形式，经过预训练 CNN 模型的处理，得到卷积特征图(conv feature map)。

Faster R-CNN 最早是采用在 ImageNet 训练的 ZF 和 VGG ，其后出现了很多其它权重不同的网络.。如 MobileNet 是一种小型效率高的网络结构，仅有参数；而ResNet-152 的参数量达到了 60M；新网络结构，如 DenseNet 在提高了结果的同时，降低了参数数量。

以 VGG16 为例：

VGG16 图片分类时，输入为 224×224×3 的张量(即，一张 224×224 像素的 RGB 图片)。网络结构最后采用 FC 层(而不是 Conv 层)得到固定长度的向量，以进行图片分类.。对最后一个卷积层的输出拉伸为1维的向量，然后送入 FC 层。官方实现中是采用的卷积层 conv5/conv5_1 的输出。

在深度上，卷积特征图对图片的所有信息进行了编码，同时保持相对于原始图片所编码 “things” 的位置。例如，如果在图片的左上角存在一个红色正方形，而且卷积层有激活响应，那么该红色正方形的信息被卷积层编码后，仍在卷积特征图的左上角。因此利用特征图检测目标所在的位置是可行的。

ResNet 结构逐渐取代 VGG 作为基础网络，用于提取特征。ResNet 相对于 VGG 的明显优势是，网络更大，因此具有更强的学习能力.。这对于分类任务是重要的，在目标检测中也应该如此。另外，ResNet 采用残差连接(residual connection) 和 BN (batch normalization) 使得深度模型的训练比较容易。

然后，RPN(Region Propose Network) 对提取的卷积特征图进行处理，寻找可能包含目标的预定义数量的区域(regions，边界框) 。为了生成候选区域，在最后的共享卷积层输出的卷积特征图上做 3x3 卷积，卷积核共有512个（VGG），后面是ReLU，这样每个 3x3 区域会得到一个512维的特征向量。然后这个特征向量被输入到两个全连接层——一个边界框回归层（reg）和一个边界框分类层（cls）。

下面解释 k, 2k, 4k 的含义。

基于深度学习的目标检测中，可能最难的问题就是生成长度不定(variable-length)的边界框列表（bounding-boxes），边界框是具有不同尺寸（sizes）和长宽比（aspect ratios ）的矩形。在构建深度神经网络时，最后的网络输出一般是固定尺寸的张量输出(采用RNN的除外)。例如，在图片分类中，网络输出是 (C, ) 的张量，C是类别标签数，张量的每个位置的标量值表示图片是类别的概率值。

在 RPN 中，通过采用 anchors（锚）来解决边界框列表长度不定的问题，即在原始图像中统一放置固定大小的参考边界框。上面说到RPN对特征图做3x3的卷积，假设每一次卷积需要预测 k 个候选区域，因此，reg层具有 4k 个输出，编码 k 个边界框的坐标，cls层输出 2k 个分数，估计每个区域是目标或是背景的概率。这 k 个区域就是被 k 个参考边界框初始化， k 个参考框就是 k 个锚点，作为第一次预测目标位置的参考 boxes。锚点的中心位于卷积核滑动窗口的中心。默认情况下每个滑动位置使用3个不同尺度（128 2 , 256 2 , 512 2 ）3个不同长宽比（1:2, 1:1, 2:1）的锚点，k=9。对于大小为W×H（通常约为2400）的卷积特征图，总共有 W×H×k 个锚点。对于RPN的最后两个全连接层，参数的个数为 512×(4+2)×k.

不同于直接检测目标的位置，这里将问题转化为两部分。对每一个 anchor 而言：

有一种简单的方法来预测目标的边界框，即学习相对于参考边界框的偏移量。假设参考 box：( )，待预测量：( )，一般都是很小的值，以调整参考 box 更好的拟合所需要的。

虽然 anchors 是基于卷积特征图定义的，但最终的 anchos 是相对于原始图片的.

由于只有卷积层和 pooling 层，特征图的维度是与原始图片的尺寸成比例关系的. 即，数学地表述，如果图片尺寸 w×h，特征图的尺寸则是w/r×h/r. 其中，r 是下采样率(subsampling ratio). 如果在卷积特征图空间位置定义 anchor，则最终的图片会是由 r 像素划分的 anchors 集。在 VGG 中， r=16。

RPN 利用所有的参考边界框(anchors)，输出一系列目标的良好的 proposals。针对每个 anchor，都有两个不同的输出：

RPN是全卷积网络。

对于分类层，每个 anchor 输出两个预测值：anchor 是背景(background，非object)的 score 和 anchor 是前景(foreground，object) 的 score.

对于回归层，也可以叫边界框调整层，每个 anchor 输出 4 个预测值：（Δxcenter,Δycenter,Δwidth,Δheight），用于 anchors 来得到最终的 proposals。根据最终的 proposal 坐标和其对应的 objectness score，即可得到良好的 objects proposals.

RPN 有两种类型的预测值输出：二值分类和边界框回归调整。

为了训练RPN，我们为每个锚点分配一个二值类别标签（是目标或不是目标）。我们给两种锚点分配一个正标签：（i）具有与实际边界框的重叠最高交并比（IoU）的锚点，或者（ii）具有与实际边界框的重叠超过 IoU的锚点。注意，单个真实边界框可以为多个锚点分配正标签。通常第二个条件足以确定正样本；但我们仍然采用第一个条件，因为在一些极少数情况下，第二个条件可能找不到正样本。对于所有的真实边界框，如果一个锚点的IoU比率低于，我们给非正面的锚点分配一个负标签。既不正面也不负面的锚点不会有助于训练目标函数。

然后，随机采样 anchors 来生成batchsize=256 的 mini-batch，尽可能的保持 foreground 和 background anchors 的比例平衡。

RPN 对 mini-batch 内的所有 anchors 采用二分类交叉熵来计算分类 loss。然后，只对 mini-batch 内标记为 foreground 的 anchros 计算回归 loss。为了计算回归的目标targets，根据 foreground anchor 和其最接近的 groundtruth object，计算将 anchor 变换到 object groundtruth 的偏移值 Δ。

Faster R-CNN没有采用简单的 L1 或 L2 loss 用于回归误差，而是采用 Smooth L1 loss. Smooth L1 和 L1 基本相同，但是，当 L1 误差值非常小时，表示为一个确定值即认为是接近正确的，loss 就会以更快的速度消失.

由于 Anchors 一般是有重叠，因此，相同目标的候选区域也存在重叠。

为了解决重叠 proposals 问题，采用 NMS 算法处理，丢弃与一个 score 更高的 proposal 间 IoU 大于预设阈值的 proposals.

虽然 NMS 看起来比较简单，但 IoU 阈值的预设需要谨慎处理. 如果 IoU 值太小，可能丢失 objetcs 的一些 proposals；如果 IoU 值过大，可能会导致 objects 出现很多 proposals。IoU 典型值为。

NMS 处理后，根据 sore 对topN 个 proposals 排序. 在 Faster R-CNN 论文中 N=2000，其值也可以小一点，如 50，仍然能的高好的结果.

当获得了可能的相关目标和其在原始图像中的对应位置之后，问题就更加直接了，采用 CNN 提取的特征和包含相关目标的边界框，采用 RoI Pooling 处理，并提取相关目标的特征，得到一个新的向量。

RPN 处理后，可以得到一堆没有分类得分的目标 proposals。待处理问题为，如何利用这些边界框并分类。

一种最简单的方法是，对每个 porposal，裁剪，并送入pre-trained base 网络，提取特征；然后，将提取特征来训练分类器. 但这就需要对所有的 2000 个 proposals 进行计算，效率低，速度慢。Faster R-CNN通过重用卷积特征图来加快计算效率，即采用 RoI(region of interest) Pooling 对每个 proposal 提取固定尺寸的特征图。然后 R-CNN 对固定尺寸的特征图分类。

目标检测中，包括 Faster R-CNN，常用一种更简单的方法，即：采用每个 proposal 来对卷积特征图裁剪crop，然后利用插值算法(一般为双线性插值 bilinear)将每个 crop resize 到固定尺寸14×14×ConvDepth. 裁剪后，利用 2×2 kernel 的 Max Pooling 得到每个 proposal 的最终7×7×ConvDepth 特征图.

之所以选择该精确形状，与其在下面的模块(R-CNN)中的应用有关。

R-CNN利用RoI Pooling提取的特征进行分类，采用全连接层来输出每个可能的目标类别的分类得分，是Faster R-CNN框架中的最后一个步骤。

R-CNN 有两个不同的输出：

R-CNN 对每个 proposal 的特征图，拉平后采用 ReLU 和两个大小为 4096 维的全连接层进行处理。然后，对每个不同目标采用两个不同的全连接层处理：一个全连接层有 N+1 个神经单元，其中 N 是类别 class 的总数，包括 background class；一个全连接层有 4N 个神经单元，是回归预测输出，得到 N 个可能的类别分别预测 Δcenterx,Δcentery,Δwidth,Δheight。

R-CNN 的目标基本上是与 RPN 目标的计算是一致的，但需要考虑不同的可能的 object 类别 classes.

根据 proposals 和 ground-truth boxes，计算其 IoU。与任何一个 ground-truth box 的 IoU 大于的 proposals 被设为正确的 boxes。IoU 在到之间时设为 background。这里忽略没有任何交叉的 proposals。这是因为，在此阶段，假设已经获得良好的 proposals。当然，所有的这些超参数都是可以用于调整以更好的拟合 objects。

边界框回归的目标计算的是 proposal 与其对应的 ground-truth间的偏移量，只对基于 IoU 阈值设定类别后的 proposals 进行计算。随机采用一个平衡化的 mini-batch=64，其中，25% 的 foreground proposals(具有类别class) 和 75% 的background proposals.

类似于 RPNs 的 losses，对于选定的 proposals，分类 loss 采用 multiclass entropy loss；对于 25% 的 foreground proposals 采用 SmoothL1 loss 计算其与 groundtruth box 的匹配。

由于 R-CNN全连接网络对每个类别仅输出一个预测值，当计算边框回归loss 时需谨慎，只需考虑正确的类别。

类似于 RPN，R-CNN 最终输出一堆带有类别分类的objects，在返回结果前，再进一步进行处理。

为了调整边界框，需要考虑概率最大的类别的 proposals. 忽略概率最大值为 background class 的proposals.

当得到最终的 objects 时，并忽略被预测为 background 的结果，采用 class-based NMS. 主要是通过对 objects 根据类别class 分组，然后根据概率排序，并对每个独立的分组采用 NMS 处理，最后再放在一起.

最终得到的 objects 列表，仍可继续通过设定概率阈值的方式，来限制每个类的 objects 数量.

Faster R-CNN在论文中是采用分步方法，对每个模块分别训练再合并训练的权重. 自此，End-to-end 的联合训练被发现能够得到更好的结果.

当将完整的模型合并后，得到 4 个不同的 losses，2 个用于 RPN，2 个用于 R-CNN。4 种不同的 losses 以加权和的形式组织. 可以根据需要对分类 loss 和回归 loss 设置权重，或者对 R-CNN 和 RPNs 设置不同权重.

采用 SGD 训练，momentum=. 学习率初始值为，50K 次迭代后衰减为 . 这是一组常用参数设置。

yolov3目标检测论文

本文是我对YOLO算法的细节理解总结，本文的阅读前提是已读过YOLO相关论文，文中不会谈及YOLO的发展过程，不会与其他对象检测算法进行对比，也不会介绍YOLO9000相关的内容，只总结YOLOv3算法的具体流程和实现细节。所以，下文中所有提到的YOLO，如非特别说明，均指YOLOv3。如果需要了解更多对象检测算法，可以参考以下部分相关论文： R-CNN Fast R-CNN Faster R-CNN SSD YOLOv1 YOLOv2 YOLOv3 RetinaNet 最新关于对象检测的综述文献可以参考这篇论文： Deep Learning for Generic Object Detection: A Survey 在YOLO算法发表之前，大部分表现比较好的对象检测（Object Detection）算法都是以R-CNN为代表两阶段算法，这样的算法存在一个很明显的问题，那就是速度太慢，对于实时性要求很高的应用场景是不适用的。YOLO算法的作者没有走优化算法第一阶段或者第二阶段的老路子，而是直接提出一步完成预测，而且是在一个CNN网络模型中完成图片中所有位置对象的box和类别预测，推理速度大大提升，完全可以满足实时对象检测。 YOLO算法创新性地提出了将输入图片进行N*N的栅格化（每个小单元叫grid cell），然后将图片中某个对象的位置的预测任务交与该对象中心位置所在的grid cell的bouding box。简单理解的话，可以认为这也是一种很粗糙的区域推荐（region proposal），在训练的时候，我们通过grid cell的方式告诉模型，图片中对象A应该是由中心落在特定grid cell 的某个范围内的某些像素组成，模型接收到这些信息后就在grid cell周围以一定大小范围去寻找所有满足对象A特征的像素，经过很多次带惩罚的尝试训练后，它就能找到这个准确的范围了（说明不是瞎找，如滑动窗口），当然这个方位不仅是指长宽的大小范围，也包括小幅度的中心位置坐标变化，但是不管怎么变，中心位置不能越过该grid cell的范围。这大大限制了模型在图片中瞎找时做的无用功。这样将位置检测和类别识别结合到一个CNN网络中预测，即只需要扫描一遍（you only look once）图片就能推理出图片中所有对象的位置信息和类别。举例如下图。以上是我个人理解的YOLO算法的核心思想，不管是YOLOv1还是v2、v3，其主要的核心还是以上所述，只是在bounding box的拟合方式、骨干网络的设计、模型训练的稳定性、精度方面有所提升罢了。下面对整个模型的网络结构、实现和训练细节进行阐述。既然已经有了you only look once的想法，那接下来就要将这个想法数学化，这样才能用数学的方法训练模型学习拟合坐标和类别的特征，用于后期的预测。YOLO算法几乎是输入原图就直接预测出每个grid cell“附近”是否有某个对象和具体的 box位置，那最终这个想法数学化后便体现在loss函数上，这里我先不给出loss函数的具体公式，因为在提出loss函数之前要先了解三个概念：anchor box、置信度(confidence)和对象条件类别概率(conditional class probabilities)。作者提出，在网络最后的输出中，对于每个grid cell对应bounding box的输出有三类参数：一个是对象的box参数，一共是四个值，即box的中心点坐标（x,y）和box的宽和高（w,h）;一个是置信度，这是个区间在[0,1]之间的值；最后一个是一组条件类别概率，都是区间在[0,1]之间的值，代表概率。下面分别具体介绍这三个参数的意义。 anchor box最初是由Faster RCNN引入的。anchor box(论文中也称为bounding box prior，后面均使用anchor box)其实就是从训练集的所有ground truth box中统计(使用k-means)出来的在训练集中最经常出现的几个box形状和尺寸。比如，在某个训练集中最常出现的box形状有扁长的、瘦高的和宽高比例差不多的正方形这三种形状。我们可以预先将这些统计上的先验（或来自人类的）经验加入到模型中，这样模型在学习的时候，瞎找的可能性就更小了些，当然就有助于模型快速收敛了。以前面提到的训练数据集中的ground truth box最常出现的三个形状为例，当模型在训练的时候我们可以告诉它，你要在grid cell 1附件找出的对象的形状要么是扁长的、要么是瘦高的、要么是长高比例差不多的正方形，你就不要再瞎试其他的形状了。anchor box其实就是对预测的对象范围进行约束，并加入了尺寸先验经验，从而可以有效解决对象多尺度的问题（Faster RCNN论文中指出的作用）。这篇文章对anchor box的作用进行了另外的解释，个人觉得也很有道理，将部分内容翻译如下：要在模型中使用这些形状，总不能告诉模型有个形状是瘦高的，还有一个是矮胖的，我们需要量化这些形状。YOLO的做法是想办法找出分别代表这些形状的宽和高，有了宽和高，尺寸比例即形状不就有了。YOLO作者的办法是使用k-means算法在训练集中所有样本的ground truth box中聚类出具有代表性形状的宽和高，作者将这种方法称作维度聚类（dimension cluster）。细心的读者可能会提出这个问题：到底找出几个anchor box算是最佳的具有代表性的形状。YOLO作者方法是做实验，聚类出多个数量不同anchor box组，分别应用到模型中，最终找出最优的在模型的复杂度和高召回率(high recall)之间折中的那组anchor box。作者在COCO数据集中使用了9个anchor box，我们前面提到的例子则有3个anchor box。那么有了量化的anchor box后，怎么在实际的模型中加入anchor box的先验经验呢？我们在前面中简单提到过最终负责预测grid cell中对象的box的最小单元是bounding box,那我们可以让一个grid cell输出（预测）多个bounding box，然后每个bounding box负责预测不同的形状不就行了？比如前面例子中的3个不同形状的anchor box，我们的一个grid cell会输出3个参数相同的bounding box，第一个bounding box负责预测的形状与anchor box 1类似的box，其他两个bounding box依次类推。作者在YOLOv3中取消了v2之前每个grid cell只负责预测一个对象的限制，也就是说grid cell中的三个bounding box都可以预测对象，当然他们应该对应不同的ground truth。那么如何在训练中确定哪个bounding box负责某个ground truth呢？方法是求出每个grid cell中每个anchor box与ground truth box的IOU(交并比)，IOU最大的anchor box对应的bounding box就负责预测该ground truth，也就是对应的对象，后面还会提到负责预测的问题。到此，还有最后一个问题需要解决，我们才能真正在训练中使用anchor box，那就是我们怎么告诉模型第一个bounding box负责预测的形状与anchor box 1类似，第二个bounding box负责预测的形状与anchor box 2类似？YOLO的做法是不让bounding box直接预测实际box的宽和高(w,h)，而是将预测的宽和高分别与anchor box的宽和高绑定，这样不管一开始bounding box输出的(w,h)是怎样的，经过转化后都是与anchor box的宽和高相关，这样经过很多次惩罚训练后，每个bounding box就知道自己该负责怎样形状的box预测了。这个绑定的关系是什么？那就是下面这个公式：其中，和为anchor box的宽和高，和为bounding box直接预测出的宽和高，和为转换后预测的实际宽和高，这也就是最终预测中输出的宽和高。你可能会想，这个公式这么麻烦，为什么不能用这样的公式，我的理解是上面的公式虽然计算起来比较麻烦，但是在误差函数求导后还带有和参数，而且也好求导 (此观点只是个人推测，需要进一步查证) 。既然提到了最终预测的宽和高公式，那我们也就直接带出最终预测输出的box中心坐标的计算公式，我们前面提到过box中心坐标总是落在相应的grid cell中的，所以bounding box直接预测出的和也是相对grid cell来说的，要想转换成最终输出的绝对坐标，需要下面的转换公式：其中，为sigmoid函数，和分别为grid cell方格左上角点相对整张图片的坐标。作者使用这样的转换公式主要是因为在训练时如果没有将和压缩到(0,1)区间内的话，模型在训练前期很难收敛。最终可以得出实际输出的box参数公式如下，这个也是在推理时将输出转换为最终推理结果的公式：关于box参数的转换还有一点值得一提，作者在训练中并不是将、、和转换为、、和后与ground truth box的对应参数求误差，而是使用上述公式的逆运算将ground truth box的参数转换为与、、和对应的、、和，然后再计算误差，计算中由于sigmoid函数的反函数难计算，所以并没有计算sigmoid的反函数，而是计算输出对应的sigmoid函数值。关于anchor box训练相关的问题除了与loss函数相关的基本上都解释清楚了，但是预测的问题还没有解释清楚，还存在一个很关键的问题：在训练中我们挑选哪个bounding box的准则是选择预测的box与ground truth box的IOU最大的bounding box做为最优的box，但是在预测中并没有ground truth box，怎么才能挑选最优的bounding box呢？这就需要另外的参数了，那就是下面要说到的置信度。置信度是每个bounding box输出的其中一个重要参数，作者对他的作用定义有两重：一重是代表当前box是否有对象的概率，注意，是对象，不是某个类别的对象，也就是说它用来说明当前box内只是个背景（backgroud）还是有某个物体（对象）；另一重表示当前的box有对象时，它自己预测的box与物体真实的box可能的的值，注意，这里所说的物体真实的box实际是不存在的，这只是模型表达自己框出了物体的自信程度。以上所述，也就不难理解作者为什么将其称之为置信度了，因为不管哪重含义，都表示一种自信程度：框出的box内确实有物体的自信程度和框出的box将整个物体的所有特征都包括进来的自信程度。经过以上的解释，其实我们也就可以用数学形式表示置信度的定义了：其中，表示第i个grid cell的第j个bounding box的置信度。对于如何训练的方法，在损失函数小节中说明。对象条件类别概率是一组概率的数组，数组的长度为当前模型检测的类别种类数量，它的意义是当bounding box认为当前box中有对象时，要检测的所有类别中每种类别的概率，其实这个和分类模型最后使用softmax函数输出的一组类别概率是类似的，只是二者存在两点不同：的对象类别概率中没有background一项，也不需要，因为对background的预测已经交给置信度了，所以它的输出是有条件的，那就是在置信度表示当前box有对象的前提下，所以条件概率的数学形式为 ;2.分类模型中最后输出之前使用softmax求出每个类别的概率，也就是说各个类别之间是互斥的，而YOLOv3算法的每个类别概率是单独用逻辑回归函数(sigmoid函数)计算得出了，所以每个类别不必是互斥的，也就是说一个对象可以被预测出多个类别。这个想法其实是有一些YOLO9000的意思的，因为YOLOv3已经有9000类似的功能，不同只是不能像9000一样，同时使用分类数据集和对象检测数据集，且类别之间的词性是有从属关系的。介绍完所有的输出参数后，我们总结下模型最终输出层的输出维数是多少。假如一个图片被分割成S*S个grid cell，我们有B个anchor box，也就是说每个grid cell有B个bounding box, 每个bounding box内有4个位置参数，1个置信度，classes个类别概率，那么最终的输出维数是：。介绍完模型最终输出中有哪些参数后，我们应该可以定义loss函数了，作者使用了最简单的差平方和误差（sum-squared error）,使用的原因很简单，因为好优化。那我们试着给出loss函数的公式：如果看过YOLOv1的论文你会发现，这里的公式和论文中的公式虽然相似，但是差别还是很大的。其实，作者是在上面这个公式的基础上加了很多限制和优化参数，上面的公式只是我为了更好说明YOLO的loss公式而给出的对比公式，这样有助于更好的理解YOLO的loss函数公式中加入的每个参数的意义，下面给出真正的YOLO loss函数公式（这个公式是我根据YOLO三篇论文前后的发展总结出来的，v3论文中未给出此类似的公式）:细心的你一定也注意到了，这个公式和YOLOv1论文中的公式是不一样的。那是因为在YOLOv3中，作者将置信度和条件类别概率放到了每个bounding box中，即每个bounding box都有一对置信度和条件类别概率，而v1中所有的bounding box共用一个条件类别概率，上文中在说明输出的各个参数时，默认解释的是v3的输出格式，关于v1的细节不再赘述。下面几点是loss函数的几点细节: YOLO算法从三个不同的尺寸预测对象box，这三个不同的尺寸来自不同层级的卷积层的输出。该方法借鉴了feature pyramid network的思想: 由于卷积层每隔几层，特征映射(feature mapping)的宽和高就会减少，而通道数会增加，随着网络层次的加深，特征映射组成的形状类似于金字塔，如果将不同层级的特征映射转换为最终的输出，那么将有助于提升模型在对象不同尺度大小上的表现，即有助于提高模型从小目标到大目标的综合检测（box的精度）能力，关于feature pyramid network的具体内容，此处不详细展开，可参考论文。我们先看下YOLO模型的网络结构，我们以检测COCO数据集输入尺寸为416*416的网络结构为例(COCO数据集类别数为80，anchor box总数为9): 从上面的模型的网络结构图我们可以明显看出基于darknet-53的最新的模型结构有以下几个特点: 以上，就是我个人理解的YOLO算法的一些细节。作者能力有限，不正确之处欢迎斧正。

论文原文：

其中如果有object落在一个grid cell里，第一项取1，否则取0。第二项是预测的bounding box和实际的groundtruth之间的IoU值。

举例说明: 在PASCAL VOC中，图像输入为448x448，取S=7，B=2，一共有20个类别(C=20)。则输出就是7x7x30的一个tensor。整个网络结构如下图所示：

在test的时候，每个网格预测的class信息和bounding box预测的confidence信息相乘，就得到每个bounding box的class-specific confidence score:

4、损失函数公式见下图：

解决方法：

作者采用sum-squared error为目标函数来优化，增加bounding box loss权重，减少置信度权重，实验中，设定为\lambda _{coord} =5 and\lambda _{noobj}= 。

作者还采用了dropout和 data augmentation来预防过拟合。dropout值为；data augmentation包括：random scaling，translation，adjust exposure和saturation。

YOLO模型相对于之前的物体检测方法有多个优点：

1、 YOLO检测物体非常快

2、 YOLO可以很好的避免背景错误，产生false positives

3、 YOLO可以学到物体的泛化特征

尽管YOLO有这些优点，它也有一些缺点：

1、YOLO的物体检测精度低于其他state-of-the-art的物体检测系统。

2、YOLO容易产生物体的定位错误。

3、YOLO对小物体的检测效果不好（尤其是密集的小物体，因为一个栅格只能预测2个物体）。

深度学习目前已经应用到了各个领域，应用场景大体分为三类：物体识别，目标检测，自然语言处理。目标检测可以理解为是物体识别和物体定位的综合，不仅仅要识别出物体属于哪个分类，更重要的是得到物体在图片中的具体位置。 2014年R-CNN算法被提出，基本奠定了two-stage方式在目标检测领域的应用。它的算法结构如下图算法步骤如下： R-CNN较传统的目标检测算法获得了50%的性能提升，在使用VGG-16模型作为物体识别模型情况下，在voc2007数据集上可以取得66%的准确率，已经算还不错的一个成绩了。其最大的问题是速度很慢，内存占用量很大，主要原因有两个针对R-CNN的部分问题，2015年微软提出了Fast R-CNN算法，它主要优化了两个问题。 R-CNN和fast R-CNN均存在一个问题，那就是由选择性搜索来生成候选框，这个算法很慢。而且R-CNN中生成的2000个左右的候选框全部需要经过一次卷积神经网络，也就是需要经过2000次左右的CNN网络，这个是十分耗时的（fast R-CNN已经做了改进，只需要对整图经过一次CNN网络）。这也是导致这两个算法检测速度较慢的最主要原因。 faster R-CNN 针对这个问题，提出了RPN网络来进行候选框的获取，从而摆脱了选择性搜索算法，也只需要一次卷积层操作，从而大大提高了识别速度。这个算法十分复杂，我们会详细分析。它的基本结构如下图主要分为四个步骤：使用VGG-16卷积模型的网络结构：卷积层采用的VGG-16模型，先将PxQ的原始图片，缩放裁剪为MxN的图片，然后经过13个conv-relu层，其中会穿插4个max-pooling层。所有的卷积的kernel都是3x3的，padding为1，stride为1。pooling层kernel为2x2, padding为0，stride为2。 MxN的图片，经过卷积层后，变为了(M/16) x (N/16)的feature map了。 faster R-CNN抛弃了R-CNN中的选择性搜索（selective search）方法，使用RPN层来生成候选框，能极大的提升候选框的生成速度。RPN层先经过3x3的卷积运算，然后分为两路。一路用来判断候选框是前景还是背景，它先reshape成一维向量，然后softmax来判断是前景还是背景，然后reshape恢复为二维feature map。另一路用来确定候选框的位置，通过bounding box regression实现，后面再详细讲。两路计算结束后，挑选出前景候选框（因为物体在前景中），并利用计算得到的候选框位置，得到我们感兴趣的特征子图proposal。卷积层提取原始图像信息，得到了256个feature map，经过RPN层的3x3卷积后，仍然为256个feature map。但是每个点融合了周围3x3的空间信息。对每个feature map上的一个点，生成k个anchor（k默认为9）。anchor分为前景和背景两类（我们先不去管它具体是飞机还是汽车，只用区分它是前景还是背景即可）。anchor有[x,y,w,h]四个坐标偏移量，x,y表示中心点坐标，w和h表示宽度和高度。这样，对于feature map上的每个点，就得到了k个大小形状各不相同的选区region。对于生成的anchors，我们首先要判断它是前景还是背景。由于感兴趣的物体位于前景中，故经过这一步之后，我们就可以舍弃背景anchors了。大部分的anchors都是属于背景，故这一步可以筛选掉很多无用的anchor，从而减少全连接层的计算量。对于经过了3x3的卷积后得到的256个feature map，先经过1x1的卷积，变换为18个feature map。然后reshape为一维向量，经过softmax判断是前景还是背景。此处reshape的唯一作用就是让数据可以进行softmax计算。然后输出识别得到的前景anchors。另一路用来确定候选框的位置，也就是anchors的[x,y,w,h]坐标值。如下图所示，红色代表我们当前的选区，绿色代表真实的选区。虽然我们当前的选取能够大概框选出飞机，但离绿色的真实位置和形状还是有很大差别，故需要对生成的anchors进行调整。这个过程我们称为bounding box regression。假设红色框的坐标为[x,y,w,h], 绿色框，也就是目标框的坐标为[Gx, Gy,Gw,Gh], 我们要建立一个变换，使得[x,y,w,h]能够变为[Gx, Gy,Gw,Gh]。最简单的思路是，先做平移，使得中心点接近，然后进行缩放，使得w和h接近。如下：我们要学习的就是dx dy dw dh这四个变换。由于是线性变换，我们可以用线性回归来建模。设定loss和优化方法后，就可以利用深度学习进行训练，并得到模型了。对于空间位置loss，我们一般采用均方差算法，而不是交叉熵（交叉熵使用在分类预测中）。优化方法可以采用自适应梯度下降算法Adam。得到了前景anchors，并确定了他们的位置和形状后，我们就可以输出前景的特征子图proposal了。步骤如下： 1，得到前景anchors和他们的[x y w h]坐标。 2，按照anchors为前景的不同概率，从大到小排序，选取前pre_nms_topN个anchors，比如前6000个 3，剔除非常小的anchors。 4，通过NMS非极大值抑制，从anchors中找出置信度较高的。这个主要是为了解决选取交叠问题。首先计算每一个选区面积，然后根据他们在softmax中的score（也就是是否为前景的概率）进行排序，将score最大的选区放入队列中。接下来，计算其余选区与当前最大score选区的IOU（IOU为两box交集面积除以两box并集面积，它衡量了两个box之间重叠程度）。去除IOU大于设定阈值的选区。这样就解决了选区重叠问题。 5，选取前post_nms_topN个结果作为最终选区proposal进行输出，比如300个。经过这一步之后，物体定位应该就基本结束了，剩下的就是物体识别了。和fast R-CNN中类似，这一层主要解决之前得到的proposal大小形状各不相同，导致没法做全连接。全连接计算只能对确定的shape进行运算，故必须使proposal大小形状变为相同。通过裁剪和缩放的手段，可以解决这个问题，但会带来信息丢失和图片形变问题。我们使用ROI pooling可以有效的解决这个问题。 ROI pooling中，如果目标输出为MxN，则在水平和竖直方向上，将输入proposal划分为MxN份，每一份取最大值，从而得到MxN的输出特征图。 ROI Pooling层后的特征图，通过全连接层与softmax，就可以计算属于哪个具体类别，比如人，狗，飞机，并可以得到cls_prob概率向量。同时再次利用bounding box regression精细调整proposal位置，得到bbox_pred，用于回归更加精确的目标检测框。这样就完成了faster R-CNN的整个过程了。算法还是相当复杂的，对于每个细节需要反复理解。faster R-CNN使用resNet101模型作为卷积层，在voc2012数据集上可以达到的准确率，超过yolo ssd和yoloV2。其最大的问题是速度偏慢，每秒只能处理5帧，达不到实时性要求。针对于two-stage目标检测算法普遍存在的运算速度慢的缺点， yolo创造性的提出了one-stage。也就是将物体分类和物体定位在一个步骤中完成。 yolo直接在输出层回归bounding box的位置和bounding box所属类别，从而实现one-stage。通过这种方式， yolo可实现45帧每秒的运算速度，完全能满足实时性要求（达到24帧每秒，人眼就认为是连续的）。它的网络结构如下图：主要分为三个部分：卷积层，目标检测层，NMS筛选层。采用Google inceptionV1网络，对应到上图中的第一个阶段，共20层。这一层主要是进行特征提取，从而提高模型泛化能力。但作者对inceptionV1进行了改造，他没有使用inception module结构，而是用一个1x1的卷积，并联一个3x3的卷积来替代。（可以认为只使用了inception module中的一个分支，应该是为了简化网络结构）先经过4个卷积层和2个全连接层，最后生成7x7x30的输出。先经过4个卷积层的目的是为了提高模型泛化能力。yolo将一副448x448的原图分割成了7x7个网格，每个网格要预测两个bounding box的坐标(x,y,w,h)和box内包含物体的置信度confidence，以及物体属于20类别中每一类的概率（yolo的训练数据为voc2012，它是一个20分类的数据集）。所以一个网格对应的参数为（4x2+2+20) = 30。如下图其中前一项表示有无人工标记的物体落入了网格内，如果有则为1，否则为0。第二项代表bounding box和真实标记的box之间的重合度。它等于两个box面积交集，除以面积并集。值越大则box越接近真实位置。分类信息： yolo的目标训练集为voc2012，它是一个20分类的目标检测数据集。常用目标检测数据集如下表： | Name | # Images (trainval) | # Classes | Last updated | | --------------- | ------------------- | --------- | ------------ | | ImageNet | 450k | 200 | 2015 | | COCO | 120K | 90 | 2014 | | Pascal VOC | 12k | 20 | 2012 | | Oxford-IIIT Pet | 7K | 37 | 2012 | | KITTI Vision | 7K | 3 | | 每个网格还需要预测它属于20分类中每一个类别的概率。分类信息是针对每个网格的，而不是bounding box。故只需要20个，而不是40个。而confidence则是针对bounding box的，它只表示box内是否有物体，而不需要预测物体是20分类中的哪一个，故只需要2个参数。虽然分类信息和confidence都是概率，但表达含义完全不同。筛选层是为了在多个结果中（多个bounding box）筛选出最合适的几个，这个方法和faster R-CNN 中基本相同。都是先过滤掉score低于阈值的box，对剩下的box进行NMS非极大值抑制，去除掉重叠度比较高的box（NMS具体算法可以回顾上面faster R-CNN小节）。这样就得到了最终的最合适的几个box和他们的类别。 yolo的损失函数包含三部分，位置误差，confidence误差，分类误差。具体公式如下：误差均采用了均方差算法，其实我认为，位置误差应该采用均方差算法，而分类误差应该采用交叉熵。由于物体位置只有4个参数，而类别有20个参数，他们的累加和不同。如果赋予相同的权重，显然不合理。故yolo中位置误差权重为5，类别误差权重为1。由于我们不是特别关心不包含物体的bounding box，故赋予不包含物体的box的置信度confidence误差的权重为，包含物体的权重则为1。 Faster R-CNN准确率mAP较高，漏检率recall较低，但速度较慢。而yolo则相反，速度快，但准确率和漏检率不尽人意。SSD综合了他们的优缺点，对输入300x300的图像，在voc2007数据集上test，能够达到58 帧每秒( Titan X 的 GPU )，的mAP。 SSD网络结构如下图：和yolo一样，也分为三部分：卷积层，目标检测层和NMS筛选层 SSD论文采用了VGG16的基础网络，其实这也是几乎所有目标检测神经网络的惯用方法。先用一个CNN网络来提取特征，然后再进行后续的目标定位和目标分类识别。这一层由5个卷积层和一个平均池化层组成。去掉了最后的全连接层。SSD认为目标检测中的物体，只与周围信息相关，它的感受野不是全局的，故没必要也不应该做全连接。SSD的特点如下。每一个卷积层，都会输出不同大小感受野的feature map。在这些不同尺度的feature map上，进行目标位置和类别的训练和预测，从而达到多尺度检测的目的，可以克服yolo对于宽高比不常见的物体，识别准确率较低的问题。而yolo中，只在最后一个卷积层上做目标位置和类别的训练和预测。这是SSD相对于yolo能提高准确率的一个关键所在。如上所示，在每个卷积层上都会进行目标检测和分类，最后由NMS进行筛选，输出最终的结果。多尺度feature map上做目标检测，就相当于多了很多宽高比例的bounding box，可以大大提高泛化能力。和faster R-CNN相似，SSD也提出了anchor的概念。卷积输出的feature map，每个点对应为原图的一个区域的中心点。以这个点为中心，构造出6个宽高比例不同，大小不同的anchor（SSD中称为default box）。每个anchor对应4个位置参数(x,y,w,h)和21个类别概率（voc训练集为20分类问题，在加上anchor是否为背景，共21分类）。如下图所示：另外，在训练阶段，SSD将正负样本比例定位1：3。训练集给定了输入图像以及每个物体的真实区域（ground true box），将default box和真实box最接近的选为正样本。然后在剩下的default box中选择任意一个与真实box IOU大于的，作为正样本。而其他的则作为负样本。由于绝大部分的box为负样本，会导致正负失衡，故根据每个box类别概率排序，使正负比例保持在1：3。SSD认为这个策略提高了4%的准确率另外，SSD采用了数据增强。生成与目标物体真实box间IOU为的patch，随机选取这些patch参与训练，并对他们进行随机水平翻转等操作。SSD认为这个策略提高了的准确率。和yolo的筛选层基本一致，同样先过滤掉类别概率低于阈值的default box，再采用NMS非极大值抑制，筛掉重叠度较高的。只不过SSD综合了各个不同feature map上的目标检测输出的default box。 SSD基本已经可以满足我们手机端上实时物体检测需求了，TensorFlow在Android上的目标检测官方模型，就是通过SSD算法实现的。它的基础卷积网络采用的是mobileNet，适合在终端上部署和运行。针对yolo准确率不高，容易漏检，对长宽比不常见物体效果差等问题，结合SSD的特点，提出了yoloV2。它主要还是采用了yolo的网络结构，在其基础上做了一些优化和改进，如下网络采用DarkNet-19：19层，里面包含了大量3x3卷积，同时借鉴inceptionV1，加入1x1卷积核全局平均池化层。结构如下 yolo和yoloV2只能识别20类物体，为了优化这个问题，提出了yolo9000，可以识别9000类物体。它在yoloV2基础上，进行了imageNet和coco的联合训练。这种方式充分利用imageNet可以识别1000类物体和coco可以进行目标位置检测的优点。当使用imageNet训练时，只更新物体分类相关的参数。而使用coco时，则更新全部所有参数。 YOLOv3可以说出来直接吊打一切图像检测算法。比同期的DSSD(反卷积SSD), FPN（feature pyramid networks）准确率更高或相仿，速度是其1/3.。 YOLOv3的改动主要有如下几点：不过如果要求更精准的预测边框，采用COCO AP做评估标准的话，YOLO3在精确率上的表现就弱了一些。如下图所示。当前目标检测模型算法也是层出不穷。在two-stage领域， 2017年Facebook提出了mask R-CNN 。CMU也提出了A-Fast-RCNN 算法，将对抗学习引入到目标检测领域。Face++也提出了Light-Head R-CNN，主要探讨了 R-CNN 如何在物体检测中平衡精确度和速度。 one-stage领域也是百花齐放，2017年首尔大学提出 R-SSD 算法，主要解决小尺寸物体检测效果差的问题。清华大学提出了 RON 算法，结合 two stage 名的方法和 one stage 方法的优势，更加关注多尺度对象定位和负空间样本挖掘问题。目标检测领域的深度学习算法，需要进行目标定位和物体识别，算法相对来说还是很复杂的。当前各种新算法也是层不出穷，但模型之间有很强的延续性，大部分模型算法都是借鉴了前人的思想，站在巨人的肩膀上。我们需要知道经典模型的特点，这些tricks是为了解决什么问题，以及为什么解决了这些问题。这样才能举一反三，万变不离其宗。综合下来，目标检测领域主要的难点如下：一文读懂目标检测AI算法：R-CNN，faster R-CNN，yolo，SSD，yoloV2 从YOLOv1到v3的进化之路 SSD-Tensorflow超详细解析【一】：加载模型对图片进行测试 YOLO C#项目参考：项目实践贴个图。

相关百科

实时目标检测论文

2024-07-05

xray目标检测论文

2024-07-05

yolov3目标检测论文

2024-07-04

传统的目标检测论文

2024-07-05

课堂目标检测论文

2024-07-05

目标检测论文2017

2024-07-05