深度学习目标检测ssd论文解读

发布时间：2024-07-05 19:03:12

深度学习目标检测ssd论文解读

论文里的目标值就是你要围绕什么目标写论文啊，要达到什么水平

论文链接： tensorflow源码链接： SSD是YOLO之后又一个引人注目的目标检测结构，它沿用了YOLO中直接回归 bbox和分类概率的方法，同时又参考了Faster R-CNN，大量使用anchor来提升识别准确度。通过把这两种结构相结合，SSD保持了很高的识别速度，还能把mAP提升到较高的水平。原作者给了两种SSD结构，SSD 300和SSD 512，用于不同输入尺寸的图像识别。本文中以SSD 300为例，图1上半部分就是SSD 300，下半部分是YOLO，可以对比来看。SSD 300中输入图像的大小是300x300，特征提取部分使用了VGG16的卷积层，并将VGG16的两个全连接层转换成了普通的卷积层（图中conv6和conv7），之后又接了多个卷积（conv8_1，conv8_2，conv9_1，conv9_2，conv10_1，conv10_2），最后用一个Global Average Pool来变成1x1的输出（conv11_2）。a、重新启用了Faster R-CNN中anchor的结构在SSD中如果有多个ground truth，每个anchor（原文中称作default box，取名不同而已）会选择对应到IOU最大的那个ground truth。一个anchor只会对应一个ground truth，但一个ground truth都可以对应到大量anchor，这样无论两个ground truth靠的有多近，都不会出现YOLO中bbox冲突的情况。 b、同时使用多个层级上的anchor来进行回归作者认为仅仅靠同一层上的多个anchor来回归，还远远不够。因为有很大可能这层上所有anchor的IOU都比较小，就是说所有anchor离ground truth都比较远，用这种anchor来训练误差会很大。例如图2中，左边较低的层级因为feature map尺寸比较大，anchor覆盖的范围就比较小，远小于ground truth的尺寸，所以这层上所有anchor对应的IOU都比较小；右边较高的层级因为feature map尺寸比较小，anchor覆盖的范围就比较大，远超过ground truth的尺寸，所以IOU也同样比较小；只有图2中间的anchor才有较大的IOU。通过同时对多个层级上的anchor计算IOU，就能找到与ground truth的尺寸、位置最接近（即IOU最大）的一批anchor，在训练时也就能达到最好的准确度。SSD的优点在前面章节已经说了：通过在不同层级选用不同尺寸、不同比例的anchor，能够找到与ground truth匹配最好的anchor来进行训练，从而使整个结构的精确度更高。 SSD的缺点是对小尺寸的目标识别仍比较差，还达不到Faster R-CNN的水准。这主要是因为小尺寸的目标多用较低层级的anchor来训练(因为小尺寸目标在较低层级IOU较大)，较低层级的特征非线性程度不够，无法训练到足够的精确度。下图是各种目标识别结构在mAP和训练速度上的比较，可以看到SSD在其中的位置：

[Paper:Focal Loss for Dense Object Detection] [ ] 关于目标检测主要分为两大类别：one stage，two stage one stage 代表：yolo系列，ssd（特点：检测精度低，但检测速度快） two stage 代表：R-CNN系列,SPPNet（特点：检测精度高，但检测速度慢）在论文中作者去探讨了造成one stage精度低的原因，发现在训练密集目标检测器的过程中出现了严重的foreground-background类别不平衡。检测算法在早期会生成很多bbox，而在一幅正常的图像中需要检测的object不会很多，这就意味着多数的bbox是属于background，使得foreground-background类别不平衡。因为bbox数量很多，而属于background的bbox太多了，假设分类器将所有的bbox全部归为background，那么精度也会很高，而这样的分类器是一个失败的分类器，所以导致目标检测的精度很低。因为two stage的第一个阶段生成一个候选目标位置组成的稀疏样本集，即RPN简单的对anchor进行二分类（只是区分是foreground和background，并不会区别细类），这样，属于background类别的bbox会大量减少，虽然其数量依然远大于foreground的bbox（例如3:1），但已不像最初生成anchor差别那么大了，这一阶段最终结果是从“类别极不平衡”到“类别较不平衡”转变，也就是说two stage并不能完全解决类别不平衡问题，第二个阶段使用一个卷积神经网络将各候选位置归置foreground类别或者background类别，即在初步筛选后的bbox上进行难度小得多的分类（细分类），这样分类器便得到了较好的训练，从而精度提高了。但因为是经过了两个阶段的处理，操作复杂，使得检测速度变慢了。因为one stage系列的检测器直接在“类别极不平衡”的bbox中进行难度极大的细分类，直接输出bbox和标签，而原有的交叉熵损失（CE）作为分类任务的损失函数，无法抗衡“类别极不平衡”（会在另一篇文章中详细讲解交叉熵损失），容易导致分类器训练失败。因此，one stage检测虽然速度快，但检测精度低。既然one stage中的交叉熵损失函数无法抗衡“类别极不平衡”，所以retinanet作者何恺明及其团队提出Focal Loss替换交叉熵损失来提高检测精度。首先介绍一下二分类的交叉熵损失：鉴于以上的改进过程的思想，可以将交叉熵损失增加一个调节因子（1 - pt）γ，其中γ≥0。这样便出现了Focal Loss，其定义为：在实践过程中使用的Focal Loss形式为：

detr目标检测框架论文解读

论文: Sparse R-CNN: End-to-End Object Detection with Learnable Proposals

论文认为，目前的目标检测算法可以按预设框的多少分为两种：

上述两种方法都会预测大量的结果，需要进行NMS后处理，而在训练的时候会存在many-to-one的问题，并且anchor的设置对性能的影响很大。于是，很多研究开始探讨稀疏(sparse)检测，比如近期的DETR算法。该算法不需要预设anchor，并且预测的结果可直接输出，不需要后处理。但论文认为DETR并不是真正的稀疏检测，因为DETR在各位置提取特征时，需要与全图的上下文进行交互，而真正的稀疏检测应该满足sparse boxes和sparse features，即较少的初始框设定以及框之间不需要过多的特征互动。为此，论文提出了Sparse R-CNN，如图1c所示，仅需设定少量anchor即可进行检测，而且能够进行set prediction，免去NMS等后处理，其核心主要包含以下几点：

Sparse R-CNN的推理流程如图3所示，输入图片、可学习的proposal boxes以及可学习的proposal features，根据proposal boxes提取对应的RoIAlign特征，dynamic head将proposal features转换为卷积核参数，对RoIAlign特征进一步提取特征，再进行后续的分类和回归。整体的思想和Fast RCNN很像，将selective search替换为proposal boxes，再增加其它更强的模块。

论文采用FPN-ResNet作为主干网络，输出多层特征，每层特征的维度都是256。采用更复杂的主干网络可以获得更好的性能，但论文与Faster R-CNN对齐，采用标准的实现。

Sparse R-CNN的核心是采用数目固定的小批量可学习proposal boxes( )作为region proposal，而非RPN。每个box为4-d参数，在0～1范围内，值为归一化的中心点坐标、宽度和高度。这些参数在训练过程中通过反向传播进行更新，包含了训练集目标位置的统计信息，可用于推理时的初步目标位置猜测。

尽管4维的proposal box能够直观地表示目标的定位，但缺少了目标的信息，比如目标的姿态和形状，所以论文引入proposal feature( )进行补充。proposal features是高维的可学习向量，与proposal boxes一一对应，用于丰富目标的RoIAlign特征。

Dynamic instance interactive head的结构如图4所示，每个proposal box都有一个专属的预测head。给定个proposal boxes和个proposal features，先通过RoIAlign提取每个box的维特征，Dynamic instance interactive head将其对应的维proposal feature转换为卷积参数，使用这个卷积参数对RoIAlign特征进行提取，得到目标的维特征，最后经过简单的3层感知机进行分类与回归。 Dynamic instance interactive head也可以使用类似Cascade R-CNN那样的级联模式进一步的提升性能，将输出的新回归框和维特征作为下一次迭代的proposal box和proposal feature即可。

Sparse R-CNN的训练采用set prediction的形式，将固定数量的预测结果与GT之间进行二分图最优的匹配，然后计算损失值，完整的损失函数为：

各模块对比实验。

性能与收敛性。

在COCO上进行对比。

Sparse R-CNN贯彻了稀疏的思想，只提供少量初始框，可进行Set prediction，颠覆了当前密集预测的检测思路，整体框架十分简洁，跟Fast RCNN有点像，十分值得大家阅读。

解读SwinTrack: A Simple and Strong Baseline for Transformer Tracking 论文地址：目标跟踪是在一个视频的后续帧中找到在当前帧中定义的感兴趣物体的过程，依据跟踪的对象数目，分为单目标和多目标跟踪任务。其有着广泛的应用，如：视频监控，人机交互，无人驾驶等。目标跟踪的主流深度网络模型，按时间轴排列，分两个阶段，在2020年之前，视觉目标追踪的主干网络以CNN为主，用于目标跟踪的有SiamRCNN、Ocean等。2020年以后，基于tranformer主干网络逐渐发展起来，包括STARK、SwinTrack等。谷歌于2017年提出的transformer网络，因其在NLP方向取得了重大进展，将Transformer架构引入CV领域尝试，思路可分为两种。将transformer与常见的CNN架构结合，采用一种混合架构，即将注意力机制与卷积网络结合起来，试图利用两者各自的优势。如图1为思路一框架，主要思想是先用CNN主干网络学习低分辨率特征图，再用transformer网络做特征学习，最后使用FFN（前馈神经网络）进行CV领域的任务预测。主流的网络结构有DETR[1]，CoAtNet[2]。 DETR网络设计分为4步: step1: 采用CNN主干来学习输入图像的2D表示，，，通过1*1的卷积将降为更小的维度，形成新的特征图; step2: 将 z 0压缩为单个维度,生成 d*HW 个特征图，结合位置编码，输入到transformer的encoder中，每个encoder层包含multi-head自注意模块和FFN； step3: encoder的输出，输入到decoder解码器中，与transformer的典型decoder不同之处：在每个解码层，采用并行解码N个输出（要求N设定大于图像中的目标种类数M）； step4: 最后解码器的输出，输入到FFN网络中，FFN由3层到ReLU激活函数的感知机组成，负责预测检测框及类别，每个FFN分支负责预测一种目标。效果：在COCO对象检测数据集上，精确度和速度性能与主流的Faster-RCNN效果相当。优点：（1）将目标检测看做是直接的集合预测问题，移除了一些手工设计的组件，如非极大值抑制（NMS，Non-Maximum Suppression），anchor生成; （2）适用于全景分割任务。缺点：（1）小物体检测效果不佳；（2）训练时间长。设计动机：将CNN和transformer各自的优点结合起来。（1）CNN因卷积+池化，具备平移不变性（Translation Equivariance）；（2）Self-attention具备全局感受野，以及注意力计算随输入动态变化。如图3为CoAtNet网络结构，构建了一个5级(S0, S1, S2, S3和S4)的网络，空间分辨率从S0到S4逐渐降低。在每个阶段的开始，我们总是将空间大小减小2倍，增加通道数量。 S0是一个普通的2层卷积块，S1是具有squeeze-excitation (SE)的MBConv块，从S2到S4，依次是MBConv，Transformer块，Transformer块。如图4为带squeeze-excitation (SE)的MBConv块结构，内部包括1x1升维 + Depthwise Convolution + SENet + 1x1降维 + add操作。效果：在图像分类任务上，CoAtNet达到 ImageNet top-1的精度;使用ImageNet-21K的13M图像进行预训练时， CoAtNet能达到的top-1准确率，与ViT-huge网络在JFT-300M数据集预训练的效果相当。CoAtNet在JFT-3B数据上进行预训练，可在ImageNet上获得 top-1的准确率。使用transformer完全替代CNN架构，致力于探索一个完全的注意力模型，相信在不久的将来，transformer可以打败CNN，注意力机制会作为下一代视觉网络的基本组成部分。如图5为思路二框架，主流的网络结构有ViT[3]，网络结构如图6。网络学习过程：将图像分割成固定大小的小块，对每个小块进行线性嵌入，添加位置嵌入，并将得到的矢量序列输入标准Transformer编码器进行特征学习，最后接MLP预测图像类别。效果：对大量数据进行预训练，并将其传输到多个中小型图像识别基准(ImageNet、CIFAR-100、VTAB等)时，与最先进的卷积网络相比，Vision Transformer(ViT)获得了优异的结果，而训练所需的计算资源却大大减少。缺点：（1）在中小规模数据上直接训练，效果较差；（2）复杂度随着图像大小呈二次增长，不适合高分辨率图像输入；对于思路一采用的混合架构，如DETR[1]，CoAtNet[2]网络，组合效果超过CNN架构，但发展趋于饱和，效果提升空间有限。对于思路二采用transformer梯度CNN结构，发展较为缓慢，首个视觉注意力模型ViT，以及它的很多后继者，在性能上都不如卷积神经网络，直到Swin-Transformer网络[4]的提出，在目标检测、实例分割等任务上性能远超CNN。 SwinTrack论文作者基于思路二，充分利用Swin-Transformer主干网的能力，结合目标跟踪Siamese经典框架，提出 SwinTrack框架，在LaSOT公开数据集上以的SUC刷新记录，同时仍以45帧/秒的速度运行。如图7，SwinTrack的三种变体网络（红色虚线圆内）性能＞Transformer结合CNN的混合架构>CNN为主干网络，验证了SwinTrack实现目标跟踪任务的先进性。 Swin-Transformer作为一种新的视觉transformer, 采用了基于注意的分层窗口架构解决了transformer结构从语言迁移到视觉的两大挑战性问题：1）视觉元素变化规模大；2）图像中像素分辨率高。网络设计创新之处，总结为两点：（1）引入非重叠窗口划分，将自注意力计算限制在局部窗口内，降低计算复杂度为图像大小的线性关系，并提出错位窗口方案，增加跨窗口连接。 Layer1到Layer1+1之间的跨窗口连接，通过对layer1层的切分线分别上下左右移动窗口长度/2的位置。（2）网络由浅到深层，下一层的特征图通过逐渐合并上一层的邻域窗口来构建分层特征图，形成特征金子塔，用于密集预测任务（如像素级分割）。如图10为Swin-Tansformer的网络结构图，整个Swin Transformer架构，和CNN架构非常相似，构建了4个stage，每个stage中都是类似的重复单元。和ViT类似，通过patch partition将输入图片HxWx3划分为不重合的patch集合，其中每个patch尺寸为4x4，那么每个patch的特征维度为4x4x3=48，patch块的数量为H/4 x W/4；stage1部分，先通过一个linear embedding将输划分后的patch特征维度变成C，然后送入Swin Transformer Block；stage2-stage4操作相同，先通过一个patch merging，将输入按照2x2的相邻patches合并，这样子patch块的数量就变成了H/8 x W/8，特征维度就变成了4C。每个Swin Transformer Block包括多个注意力层（偶数个），图11为两个连续的注意力层。其中W-MSA为基于窗口的多头注意力模块，SW-MSA为窗口错位划分，引入跨窗口连接。 SwinTrack目标跟踪框架设计参考全卷积Siamese跟踪网络[12]。思路：将搜索图像和目标图像用相同的CNN网络进行提取特征，然后再将目标图像的特征作为卷积核和整个搜索图片求卷积。最后生成的是一层的Feature Map，将置信度最高的地方这个区域看作是目标。本文选择了一个挑战性的目标任务：视觉目标追踪，该任务至今仍有许多问题没有很好地解决，包括在遮挡或视线之外的重新定位，相似物体之间的区分。 SwinTrack论文作者基于思路二，充分利用Swin-Transformer主干网的能力，结合目标跟踪Siamese经典框架，提出 SwinTrack框架，在LaSOT公开数据集上以的SUC刷新记录，同时仍以45帧/秒的速度运行。 SwinTrack网络如图13所示。从左到右依次是：1）特征抽取：Swin-Transformer主干网络，2）特征融合：基于注意力的编码器-解码器，3）分类预测和位置回归层。在目标跟踪过程中，首先主干网络利用共享的权值分别抽取target template 图像块和Search Region图像块特征；然后将target template和Search Region的特征串联融合，输入到编码网络，通过注意力机制逐层增强串联的特征符号；位置编码有助于区分不同来源和位置的特征符号；最后，解码网络生成search image的最终特征图，送入到分类预测和位置回归层，分两个分支，一个是前景-背景分类预测；另一个是目标位置回归预测。特征融合通过构建基于注意力的编码-解码器实现，目的是实现target template和Search Region特征的交互以进行跟踪。特征融合- 编码器：在主干网络分别输出template image和search image的图像块特征之后,特征表示为z, x，可沿着空间维度将两种图像的特征串联起来，生成联合的特征表示U，将联合特征表示U输入编码器中，对于编码器的每个网络块，MSA负责在U上计算自注意力，FFN对MSA生成的特征进行提炼,编码器输出的时候，对特征执行分解操作，恢复出template image和search image各自的特征表示。该特征融合方式可称为基于连接的融合，公式表示如下:编码器中的网络块（注意力模块）结构如图14所示。其中MSA为多头自注意力机制，LN为层归一化，FFN为前馈神经网络。特征融合- 解码器由一个多头交叉注意模块和前馈网络组成，输入为编码器的输出，即template image的特征zL和search image的特征xL，输出通过计算xL和Concat(xL,zL)L的交叉注意获得最后的特征图。解码器网络结构见图15，其中MCA为多头交叉注意力机制。作者解释了为什么采用基于连接的融合方法：为了融合处理多个分支的特征，直观的做法是分别对每个分支的特征做自注意力计算，完成特征提取，然后计算跨不同分支特征的Cross Attention，完成特征融合。作者称这种方法为基于交叉注意力的融合。考虑因transformer是Seq2seq结构，自然支持多模态信息的输入，通过串联操作，相比于Cross Attention,可以节省计算，通过权重共享，而不是对每个分支单独进行自注意力计算，可以减少模型参数量。作者为什么不采用端到端的框架来预测目标跟踪任务？原因是通过实验验证，当采用transformer-style编码器直接预测目标任务，需要更长的时间收敛，且跟踪性能较差。文章通过一些后处理的步骤来提升模型性能，如通过密集预测，可以向模型提供更丰富的监督信号，从而加快训练过程。此外，可以使用更多的领域知识来帮助提高跟踪性能，例如在响应图上应用Hanning penalty window来引入smooth movement assumption。此外，在我们的实验中发现，传统transformer decoder很难恢复2D位置信息。作用是为了给模型提供词序信息，本文采用TUPE[8]提出的untied positional encoding,并将其推广到任意维度，以适用本文提出跟踪器的其他组件。对于单头的自注意力模块，自注意力函数表示：其中 xi 为单头的自注意力模块输入， zi 为单头的自注意力模块输出。区别于untied positional encoding，Tranformer网络原来自带的位置编码策略，是在自注意模块中加入一个可学习的位置编码 p ，其中 x 为词嵌入，公式如下:上式包含四项：token-to-token, position-to-token, token-to-position,position-to-token.论文[9]指出公式中存在的问题，因词嵌入 x 和绝对位置嵌入 p 的信息为异构的，直接相加本身不合理，因此提出untied positional encoding，去除了公式(7)中红框里的两项，公式表示如下：其中 pi 和 pj 分别是位置 i 和 j 处的位置嵌入， UQ 和 UK 是位置嵌入向量的可学习的投影矩阵, l 为网络层数。同时因 p 为绝对位置嵌入，论文[10]提出引入相对位置偏差作为互补，公式如下：将位置编码扩展到多维空间。方法是为每个维数分配一个位置嵌入矩阵，然后将不同维数的嵌入向量在相应的索引处相加，得到最终的嵌入向量。加上相对位置偏差，对于n维情况，我们有: 在特征融合阶段，为了区分不同来源的图像特征，分别对两种来源的绝对位置编码进行连接，并在相对位置偏差上增加一对索引，以区分query和key向量的不同来源。其中g和h为encoder输出各自图像特征的query和key索引，1来自于template image，2来自于search image. 包含两个分支：分类预测和边框回归预测。每个分支是三层感知机，其中分类是对前景和背景的分类预测。分类训练目标采用IoU-aware classification score(IACS), 即为预测边框与其ground truth之间的IoU, IACS可以帮助模型从候选池中选择一个更精确的包围框。分类损失函数为varifocal loss，公式如下：其中 p 为预测的IACS, q 为目标得分。对于正样本，即前景点，q为预测边框与地ground-truth边框之间的IoU。对于负样本，q = 0。于是，分类损失函数为：其中，b为预测的边框，表示ground-truth边框。解决正负样本不平衡：通过修改 p γ ，可减少背景点（负样本的损失），而不影响前景点损失，同时用训练目标 q 对正样本进行加权，即IoU越大，对损失的贡献越大，促使模型关注高质量正样本。对于边框回归预测，我们采用GIoU损失[11]，取值范围[-1,1],对目标物体的scale不敏感。回归损失函数可以表示为: 采用概率 p 对GIoU损失进行加权，以强调高分类得分的样本。 SwinTrack在LaSOT上以的SUC刷新了记录，在45帧/秒的情况下，超过了STARK[6] 。此外，它在其他具有挑战性的LaSOText、TrackingNet和GOT-10k数据集上实现了 SUC、 SUC和 AO的最先进性能。参考文献 [1]Zihang Dai, Hanxiao Liu,Quoc V Le, and Mingxing Tan. Coatnet: Marrying convolution and attention forall data sizes. arXiv, 2021. [2]NicolasCarion,FranciscoMassa,GabrielSynnaeve,Nicolas Usunier, AlexanderKirillov, and Sergey Zagoruyko. End-to- end object detection with ECCV, 2020. [3] Alexey Dosovitskiy, LucasBeyer, Alexander Kolesnikov, Dirk Weissenborn, Xiaohua Zhai, ThomasUnterthiner, Mostafa Dehghani, Matthias Minderer, Georg Heigold, Syl- vainGelly, et al. An image is worth 16x16 words: Trans- formers for imagerecognition at scale. In ICLR, 2021. [4] Ze Liu, Yutong Lin, YueCao, Han Hu, Yixuan Wei, Zheng Zhang, Stephen Lin, and Baining Guo. Swintransformer: Hierarchical vision transformer using shifted windows. In-ternational Conference on Computer Vision (ICCV), 2021. [5]XinChen,BinYan,JiawenZhu,DongWang,XiaoyunYang, and Huchuan Lu. Transformertracking. In CVPR, 2021. [6] Bin Yan, Houwen Peng,Jianlong Fu, Dong Wang, and Huchuan Lu. Learning spatio-temporal transformerfor visual tracking. In ICCV, 2021. [7] JaneBromley,JamesWBentz,LéonBottou,IsabelleGuyon, Yann LeCun, Cliff Moore, Eduard Sa ̈ckinger, andRoopak Shah. Signature verification using a “siamese” time delay neuralnetwork. International Journal of Pattern Recognition and ArtificialIntelligence, 7(04):669–688, 1993. [8] Guolin Ke, Di He, andTie-Yan Liu. Rethinking positional encoding in language pre-training. InInternational Confer- ence on Learning Representations, 2021. [9] Guolin Ke, Di He, andTie-Yan Liu. Rethinking positional encoding in language pre-training. InInternational Confer- ence on Learning Representations, 2021. [10] Peter Shaw, JakobUszkoreit, and Ashish Vaswani. Self- attention with relative positionrepresentations. arXiv, 2018. [11] Hamid Rezatofighi, NathanTsoi, JunYoung Gwak, Amir Sadeghian, Ian Reid, and Silvio Savarese. Generalizedin- tersection over union. 2019. [12] Bertinetto L , Valmadre J, Henriques J F , et al. Fully-Convolutional Siamese Networks for ObjectTracking. 2016.

目标检测论文整理最近开始看一些object detection的文章，顺便整理一下思路。排版比较乱，而且几乎所有图片都是应用的博客或论文，如有侵权请联系我。文章阅读路线参考目前已完成的文章如下，后续还会继续补充（其中加粗的为精读文章）：RCNNOverfeatMR-CNNSPPNetFast RCNNA Fast RCNNFaster RCNNFPNR-FCNMask RCNNYOLOYOLO 9000YOLO v3SSDDSSDR-SSDRetinaNet（focal loss）DSODCascade R-CNN（待续）吐槽一下，博客园的markdown竟然没有补齐功能，我还是先在本地补全再传上来吧。。。RCNN之前的故事Histogram of Gradient (HOG) 特征在深度学习应用之前，图像的特征是人工定义的具有鲁棒性的特征，如SIFT，HOG等，下面简要介绍一下HOG。8x8像素框内计算方向梯度直方图：HOG Pyramid特征金字塔，对于不同大小的物体进行适应，设计尺度不变性特征HOG特征 -> SVM分类DPM模型 Deformable Part Model加组件组合的HOG特征，组件间计算弹性得分，优化可变形参数如果没有弹性距离，就是BoW (Bag of Word)模型，问题很大，位置全部丢失:n个组件的DPM计算流程:Selective Search 思想过分割后基于颜色纹理等相似度合并,然后，过分割、分层合并、建议区域排序基于Selective Search + DPM/HoG + SVM的物体识别此时的框架就是RCNN的雏形，因为DPM就是基本由RBG和他导师主导，所以大神就是大神。AlexNet的图像分类（深度学习登场）2012年AlexNet赢得LSVRC的ImageNet分类竞赛。深度CNN结构用来图像特征提取。bounding-box regression 框回归BBR 在DPM时代就和SVM分类结合，一般直接使用线性回归，或者和SVR结合RCNN: Rich feature hierarchies for accurate object detection and semantic segmentationRCNN作为深度学习用于目标检测的开山之作，可以看出是基于Selective Search + DPM/HoG + SVM框架，只不过将是将手工特征转变为CNN提取特征，本文主要贡献如下：CNN用于object detection解决数据集不足的问题主要流程如下：regional preposals（selective research）CNN feature extractionSVM ClassificationNMSbounding-box regression（BBR）为啥能work？优秀的目标检测框架，region proposal 和 regression offset降低了目标检测的难度，强大的CNN特征提取器，代替传统的已经到瓶颈的手工特征迁移训练降低了对数据集的要求MR-CNN：Object detection via a multi-region & semantic segmentation-aware CNN modelMulti-Region的提出，开始对Box进一步做文章，相当于对Box进一步做增强，希望改进增强后的效果，主要改善了部分重叠交叉的情况。特征拼接后使得空间变大，再使用SVM处理，效果和R-CNN基本类似.OverFeat:Integrated Recognition, Localization and Detection using Convolutional Networks不得不说虽然OverFeat在但是比赛成绩不是太好，但是它的思想还是很有启发性的。OverFeat直接抛弃了Selective Search，采用CNN上slide windows来进行框推荐，并且把Bounding box Regression整合一起使用全连接层搞定，解决了后面一端的问题（取代了SVM分类器和BBR线性回归器），这个思想影响了后来的Fast RCNN。是第一个End to End 的目标检测模型，模型虽然简陋，但是可以验证网络强大的拟合能力注意整合目标检测的各项功能（分类，回归）。亮点：先用CNN得到feature map再做slide windows推荐区域，避免了特征重复计算。设计了End to End模型，方便优化和加快检测速度设计全卷积网络，并进行多尺度图像训练maxpool offset（没有Fast RCNN的ROI Pooling自然）为啥能work？可以看出OverFeat将不同的两个问题物体分类和位置回归采用了两个分支网络，共用前面的CNN特征表述，而CNN提取的特征正如OverFeat所言，是一种类似于SIFT，HOG等人工描述子的一种稳定的描述子（底层抽象），可以用于构建不同的任务（高层表述），也就是模型为什么能work的原因。SPPNetR-CNN和Overfeat都存在部分多尺度，重叠效果的问题。某种意义上，应对了HoG特征，这样对于物体来说类似BoW模型，我们知道DPM里面，是带有组件空间分布的弹性得分的，另外也有HoG Pyramid的思想。如何把Pyramid思想和空间限制得分加入改善多尺度和重叠的效果呢？ MR-CNN里面尝试了区域增强， Overfeat里面尝试了多尺度输入。但是效果都一般。这里我们介绍另外一个技术Spatial Pyramid Matching, SPM，是采用了空间尺度金字塔的特点。和R-CNN相比做到了先特征后区域，和Overfeat相比自带Multi-Scale。SPP pooling layer 的优势：解决了卷积层到全连接层需要固定图片大小的问题，方便多尺度训练。能够对于任意大小的输入产生固定的输出，这样使得一幅图片的多个region proposal提取一次特征成为可能。进一步强调了CNN特征计算前移，区域处理后移的思想，极大节省计算量也能看出文章还是强调用CNN做特征的提取，还是用的BBR和SVM完成回归和分类的问题Fast RCNN可以看出Fast RCNN结合了OverFeat和Sppnet的实现，打通了高层表述和底层特征之间的联系主要流程：任意size图片输入CNN网络，经过若干卷积层与池化层，得到特征图；在任意size图片上采用selective search算法提取约2k个建议框；根据原图中建议框到特征图映射关系，在特征图中找到每个建议框对应的特征框【深度和特征图一致】，并在RoI池化层中将每个特征框池化到H×W【VGG-16网络是7×7】的size；固定H×W【VGG-16网络是7×7】大小的特征框经过全连接层得到固定大小的特征向量；将上一步所得特征向量经由各自的全连接层【由SVD分解实现(全连接层加速)】，分别得到两个输出向量：一个是softmax的分类得分，一个是Bounding-box窗口回归；利用窗口得分分别对每一类物体进行非极大值抑制剔除重叠建议框其中ROI POOL层是将每一个候选框映射到feature map上得到的特征框经池化到固定的大小，其次用了SVD近似求解实现全连接层加速。这里需要注意的一点，作者在文中说道即使进行多尺度训练，map只有微小的提升，scale对Fast RCNN的影响并不是很大，反而在测试时需要构建图像金字塔使得检测效率降低。这也为下一步的多尺度改进埋下了伏笔。为啥能更好的work？也是结合了OverFeat的和SPPnet的work，同时规范了正负样本的判定（之前由于SVM和CNN对区域样本的阈值划分不同而无法统一网络，当然这只是其中的一个原因。更多的估计是作者当时没想到），将网络的特征抽取和分类回归统一到了一个网络中。A Fast RCNN： Hard Positive Generation via Adversary for Object Detection这篇论文是对,CMU与rbg的online hard example mining(OHEM)改进，hard example mining是一个针对目标检测的难例挖掘的过程，这是一个更充分利用数据集的过程。实际上在RCNN训练SVM时就已经用到，但是OHEM强调的是online，即如何在训练过程中选择样本。同期还有S-OHEM的改进。而随着但是GAN的火热，A-Fast-RCNN尝试生成hard example（使用对抗网络生成有遮挡和有形变的两种特征，分别对应网络ASDN和ASTN）结论如下：ASTN 和随机抖动（random jittering）做了对比，发现使用AlexNet，mAP分别是和，使用VGG16，mAP分别是和，ASTN 的表现都比比随机抖动效果好。作者又和OHEM对比，在VOC 2007数据集上，本文方法略好（ vs. ），而在VOC 2012数据集上，OHEM更好（ vs. ）。gan用于目标检测还没有很好的idea，这篇论文相当于抛砖引玉了。同时需要注意的一个问题，网络对于比较多的遮挡和形变情况识别情况更好；但是对于正常目标的特征抽象能力下降，所以有时候创造难例也要注意样本的数量。下面是一些由于遮挡原因造成的误判。Faster RCNN：Towards Real-Time Object Detection with Region Proposal Networks这篇文章标志着two-stage目标检测的相对成熟，其主要改进是对候选区域的改进，将候选区域推荐整合进了网络中。结合后面的一系列文章，可以马后炮一下它的缺点：虽然Faster RCNN已经共享了绝大部分卷积层运算，但是RoI之后还有部分ConvNet的计算，有没有可能把ROI之上的计算进一步前移？请看R-FCNFaster RCNN还是没有很好的解决多尺度问题，如何解决，请看FPNYOLO：You Only Look Once作者的论文简直是一股论文界的泥石流，作者本身是一个喜欢粉红小马的大叔，萌萌哒。实际上YOLO一直发展到v3都是简单粗暴的目标检测方法，虽然学术界模型繁杂多样，但是在实际应用工业应用上YOLO绝对是一个首选的推荐。YOLO v1版本现在看来真是简单粗暴，也印证了网络抽象的强大之处。可以看出作者没有受到太多前辈的影响，将对象检测重新定义为单个回归问题，直接从图像像素到边界框坐标和类概率（当然这也是一个缺少坐标约束也是一个缺点）。YOLO的明显缺点，如多尺度问题，密集物体，检测框耦合，直接回归坐标等在yolo 9000中也做了比较好的改进。SSD：Single Shot MultiBox DetectorSSD作为one stage的代表模型之一，省去了判断推荐候选区域的步骤(实际上可以认为one-stage就是以feature map cell来抽象代替ROI Pooling功能），虽然SSD和Faster RCNN在Anchor box上一脉相承，但是Faster RCNN却还是有一个推荐候选区域（含有物体的区域）的监督部分（注意后面其实也是整合到了最终Loss中），因此one-stage优势是更快，而含有区域推荐的two-stage目前是更加准确一些。（更看好one-stage，其实区域推荐不太符合视觉系统，但是可以简化目标检测问题），主要贡献：用多尺度feature map来预测，也生成了更多的default box检测框对每一类对象产生分数（低耦合，对比yolo）缺点：底层feature map高级语义不足（FPN)正负样本影响 (focal loss)feature map抽象分类和回归任务只用了两个卷积核抽象性不足（DSSD）为啥能更好的工作？SSD的出现对多尺度目标检测有了突破性进展，利用卷积层的天然金字塔形状，设定roi scale让底层学习小物体识别，顶层学习大物体识别FPN：feature pyramid networksSSD网络引入了多尺度feature map，效果显著。那Faster RCNN自然也不能落后，如何在Faster RCNN中引入多尺度呢？自然有FPN结构同时FPN也指出了SSD因为底层语义不足导致无法作为目标检测的feature map注意原图的候选框在Faster RCNN中只固定映射到同一个ROI Pooling中，而现在如果某个anchor和一个给定的ground truth有最高的IOU或者和任意一个Ground truth的IOU都大于，则是正样本。如果一个anchor和任意一个ground truth的IOU都小于，则为负样本。本文算法在小物体检测上的提升是比较明显的，另外作者强调这些实验并没有采用其他的提升方法（比如增加数据集，迭代回归，hard negative mining），因此能达到这样的结果实属不易。DSSD：Deconvolutional Single Shot Detector一个SSD上移植FPN的典型例子，作者主要有一下改动：将FPN的Upsampling变成deconv复杂了高层表述分支（分类，回归）网络的复杂度R-SSD：Enhancement of SSD by concatenating feature maps for object detection本文着重讨论了不同特征图之间的融合对SSD的影响（水论文三大法宝），这篇论文创新点不是太多，就不说了DSOD： Learning Deeply Supervised Object Detectors from Scratch这篇文章的亮点：提出来了不需要预训练的网络模型DSOD实际上是densenet思想+SSD，只不过并不是在base model中采用densenet，而是密集连接提取default dox的层，这样有一个好处：通过更少的连接路径，loss能够更直接的监督前面基础层的优化，这实际上是DSOD能够直接训练也能取得很好效果的最主要原因，另外，SSD和Faster RCNN直接训练无法取得很好的效果果然还是因为网络太深（Loss监督不到）或者网络太复杂。Dense Prediction Structure 也是参考的densenetstem能保留更多的信息，好吧，这也行，但是对效果还是有提升的。YOLO 9000：Better, Faster, Stronger很喜欢这个作者的论文风格，要是大家都这么写也会少一点套路，多一点真诚。。。。文章针对yolo做了较多的实验和改进，简单粗暴的列出每项改进提升的map。这个建议详细的看论文。下面列举几个亮点：如何用结合分类的数据集训练检测的网络来获得更好的鲁棒性将全连接层改为卷积层并结合了细粒度信息（passthrough layer）Multi-Scale TraningDimension Clustersdarknet-19更少的参数Direct locaion prediction对offset进行约束R-FCN：Object Detection via Region-based Fully Convolutional Networks本文提出了一个问题，base CNN网络是为分类而设计的（pooling 实际上是反应了位置的不变性，我一张人脸图片只要存在鼻子，两只眼睛，分类网络就认为它是人脸，这也就是Geoffrey Hinton 在Capsule中吐槽卷积的缺陷），而目标检测则要求对目标的平移做出准确响应。Faster RCNN是通过ROI pooling让其网络学习位置可变得能力的，再次之前的base CNN还是分类的结构，之前讲过R-FCN将Faster RCNN ROI提取出来的部分的卷积计算共享了，那共享的分类和回归功能的卷积一定在划分ROI之前，那么问题来了，如何设计让卷积对位置敏感？主要贡献：将用来回归位置和类别的卷积前置共享计算，提高了速度。巧妙设计score map（feature map）的意义（感觉设计思想和yolo v1最后的全连接层一样），让其何以获得位置信息，之后在经过ROI pooling和vote得到结果为啥能work？实际上rfcn的feature map设计表达目标检测问题的方式更加抽象（ROI pool前的feature map中每一个cell的channel代表定义都很明确），loss在监督该层时更能通过论文中关于ROI pool和vote设计，在不同的channel上获得高的响应，这种设计方式可能更好优化（这个是需要大量的实验得出的结论），至于前面的resnet-base 自然是抽象监督，我们本身是无法理解的，只是作为fintuning。实际上fpn的loss监督也是非常浅和明确的，感觉这种可以理解的优化模块设计比较能work。Focal Loss: Focal Loss for Dense Object Detection这篇文章实际上提供了另外一个角度，之前一直认为Single stage detector结果不够好的原因是使用的feature不够准确（使用一个位置上的feature），所以需要Roi Pooling这样的feature aggregation办法得到更准确的表示。但是这篇文章基本否认了这个观点，提出Single stage detector不好的原因完全在于：极度不平衡的正负样本比例: anchor近似于sliding window的方式会使正负样本接近1000：1，而且绝大部分负样本都是easy example，这就导致下面一个问题：gradient被easy example dominant的问题：往往这些easy example虽然loss很低，但由于数量众多，对于loss依旧有很大贡献，从而导致收敛到不够好的一个结果。所以作者的解决方案也很直接：直接按照loss decay掉那些easy example的权重，这样使训练更加bias到更有意义的样本中去。很直接地，如下图所示:实验中作者比较了已有的各种样本选择方式：按照class比例加权重：最常用处理类别不平衡问题的方式OHEM：只保留loss最高的那些样本，完全忽略掉简单样本OHEM+按class比例sample：在前者基础上，再保证正负样本的比例（1：3）Focal loss各种吊打这三种方式，coco上AP的提升都在3个点左右，非常显著。值得注意的是，3的结果比2要更差，其实这也表明，其实正负样本不平衡不是最核心的因素，而是由这个因素导出的easy example dominant的问题。RetinaNet 结构如下实际上就是SSD+FPN的改进版

深度解读中国知网论文

中国知网获取论文著作权的方式，是建立在渠道优势乃至垄断之上的。很多时候，它并没有获得原作者的直接授权，而是被打包进期刊、大学学位论文的“格式化条款”里。

中国知网利用其市场支配性地位，把学位论文、期刊论文两大渠道捂得严严实实。大学、期刊想获取相关资源，就必须交出作者的授权。硕士、博士毕业生在提交论文时，一般也会被校方要求签订《关于论文使用授权的说明》，把论文授权给中国知网。

知网论文争议

知网搜集和存储的期刊论文、学位论文、会议论文等资源直接来自高校、科研院所及其学者学生，作为公共产品，这些学术文献具有公益属性，但知网以此为基础的商业运作模式却始终遭受质疑。从本质上讲，中国知网搭建的是公共知识数据库，但现在公益属性越来越弱，商业味越来越浓。

知网搜集的知识资源来源于社会，其资源具有显著的社会性，不应将取自社会的资源单纯作为其牟取暴利的凭借，而是应“取之于社会、用之于社会”，坚持服务的普遍性和公益性。故作为国家知识基础设施，知网提供的服务应面向公众，满足公众对知识的需求，提供均等化服务。

知网检测的特点优势：检测的安全性、检测的平稳性、检测的便捷性、检测的高效性。

知网，是国家知识基础设施的概念，由世界银行于1998年提出。CNKI工程是以实现全社会知识资源传播共享与增值利用为目标的信息化建设项目。由清华大学、清华同方发起，始建于1999年6月。

内容包括

1、分类统计

本系统的主要统计内容包括：A.中国正式出版的7000 多种自然科学、社会科学学术期刊发表的文献量及其分类统计表；B.各期刊论文的引文量、引文链接量及其分类统计表；C.期刊论文作者发文量、被引量及其机构统计表；中心网站访问量及分IP地址统计表。

2、知识检索

文献搜索：精确完整的搜索结果、独具特色的文献排序与聚类，是您科研的得力助手学术定义写论文需要引用权威的术语定义怎么办？CNKI学术定义搜索帮您轻松解决。

数字搜索：“一切用数字说话”，CNKI数字搜索让您的工作、生活、学习和研究变得简单而明白学术趋势关注学术热点，展示学术发展历程，发现经典文献，尽在CNKI学术趋势。

3、专业主题

168个专业主题数字图书馆，各领域学者均有属于自己的专业知识搜索引擎大众热点特色热点话题，帮您了解大众关心的热点知识。

知网的优势和特点为丰富全面的文献比对资源，快速迅捷的检测速度。

不仅包括《中国学术文献网络出版总库》(包含学术期刊、博士学位论文、硕士学位论文、会议论文、报纸、年鉴、专利等，总文献量达8200多万篇。每天新增2万多篇学术文献)和Springer、Taylor-Francis等英文文献数据库。

根据管理级别，多部门多人员同步使用，实时监控，并可实现Web版与客户端动态链接;上级管理部门可逐级监督下级部门的检测结果，从而为学风建设奠定制度管理的技术保障。

知网的内容介绍：

中国知网的数据库不仅是广泛的，由于文献的不断更新，文献收集比较完整，实际上，中国知网论文查重的应用范围相当广泛，不仅可以对学校的查重率进行检测，还可以对杂志等单位的文章进行检测。

并且中国知网论文查重独有两个库，大学生论文联合对比库和学术论文联合对比库，这两个库可以记录一年前使用过该库的本科论文和研究生论文。每年有多少数量的毕业生，可以想象这是何等巨大的论文优势。

目标检测论文解析

有一个月没更博客了，捂脸 o(￣=￣)d

端午回家休息了几天，6月要加油~

回到正文，HOG是很经典的一种图像特征提取方法，尤其是在行人识别领域被应用的很多。虽然文章是2005年发表在CVPR上的，但近十年来还没有被淹没的文章真的是很值得阅读的研究成果了。

key idea：局部物体的形状和外观可以通过局部梯度或者边缘的密度分布所表示。

主要步骤：

上图为论文中提供的图，个人觉得我在参考资料中列出的那篇博客中给出的图可能更好理解一些。

具体细节：关于每一个过程的详细解释还是在这篇博客中已经写得很清楚了，这里就不再搬运了。

文章中数据集的图像大小均为：64*128, block大小为16x16， block stride为8x8，cell size为8x8，bins=9（直方图等级数）；

获取到每张图的特征维度后，再用线性SVM训练分类器即可。

下图为作者而给出的示例图：

这两篇博客写的都很好，推荐阅读一波。

论文: Sparse R-CNN: End-to-End Object Detection with Learnable Proposals

论文认为，目前的目标检测算法可以按预设框的多少分为两种：

Sparse R-CNN的训练采用set prediction的形式，将固定数量的预测结果与GT之间进行二分图最优的匹配，然后计算损失值，完整的损失函数为：

各模块对比实验。

性能与收敛性。

在COCO上进行对比。

人脸检测论文解读

姓名：张钰学号：21011210154 学院：通信工程学院【嵌牛导读】Frequency-aware Discriminative Feature Learning Supervised by Single-Center Loss for Face Forgery Detection论文阅读笔记【嵌牛鼻子】Deepfake人脸检测方法，基于单中心损失监督的频率感知鉴别特征学习框架FDFL，将度量学习和自适应频率特征学习应用于人脸伪造检测，实现SOTA性能【嵌牛提问】本文对于伪造人脸检测的优势在哪里体现【嵌牛正文】转自：

人脸识别是一个被广泛研究着的热门问题，大量的研究论文层出不穷，晓电晓受晓受晓晓晓多晓电晓米晓受晓联晓受晓零晓电晓受晓米晓多晓晓e少量惠量量e米惠d量晓晓受晓晓晓晓米晓晓多晓少米受在一定程度上有泛滥成“灾”之嫌。为了更好地对人脸识别研究的历史和现状进行介绍，本文将AFR的研究历史按照研究内容、技术芳珐等方面的特点大体划分为三个时间阶段，如表受所示。该表格概括了人脸识别研究的发展简史及其每个历史阶段代表性的研究工作及其技术特点。下面对三个阶段的研究进展情况作简单介绍：第一阶段(受惠米联年~受惠惠零年) 这一阶段人脸识别通常只是作为一个一般性的模式识别问题来研究，所采用的主要技术方案是基于人脸几何结构特征(Geometricfeature based)的芳珐。这集中体现在人们对于剪影(Profile)的研究上，人们对面部剪影曲线的结构特征提取与分析方面进行了大量研究。人工神经网络也一度曾经被研究人员用于人脸识别问题中。较早从事AFR研究的研究人员除了布莱索(Bledsoe)外还有戈登斯泰因(Goldstein)、哈蒙(Harmon)以及金出武雄(Kanade Takeo)等。金出武雄于受惠少晓年在京都大学完成了第一篇AFR方面的博士论文，直到现在，作为卡内基-梅隆大学(CMU)机器人研究院的一名教授，仍然是人脸识别领域的活跃人物之一。他所在的研究组也是人脸识别领域的一支重要力量。总体而言，这一阶段是人脸识别研究的初级阶段，非常重要的成果不是很多，也基本没有获得实际应用。第二阶段(受惠惠受年~受惠惠少年) 这一阶段尽管时间相对短暂，但却是人脸识别研究的高潮期，可谓硕果累累：不但诞生了若干代表性的人脸识别算法，美国军方还组织了著名的FERET人脸识别算法测试，并出现了若干伤业化运作的人脸识别系统，比如最为著名的Visionics(现为Identix)的FaceIt系统。美国麻省理工学院(MIT)媒体实验室的特克(Turk)和潘特兰德(Pentland)提出的“特征脸”芳珐无疑是这一时期内最负盛名的人脸识别芳珐。其后的很多人脸识别技术都或多或少与特征脸有关系，现在特征脸已经与归一化的协相关量(NormalizedCorrelation)芳珐一道成为人脸识别的性能测试基准算法。这一时期的另一个重要工作是麻省理工学院人工智能实验室的布鲁内里(Brunelli)和波基奥(Poggio)于受惠惠电年左右做的一个对比实验，他们对比了基于结构特征的芳珐与基于模板匹配的芳珐的识别性能，并给出了一个比较确定的结论：模板匹配的芳珐优于基于特征的芳珐。这一导向性的结论与特征脸共同作用，基本中止了纯粹的基于结构特征的人脸识别芳珐研究，并在很大程度上促进了基于表观(Appearance-based)的线性子空间建模和基于统计模式识别技术的人脸识别芳珐的发展，使其逐渐成为主流的人脸识别技术。贝尔胡米尔(Belhumeur)等提出的Fisherface人脸识别芳珐是这一时期的另一重要成果。该芳珐首先采用主成分分析(PrincipalComponent Analysis，PCA，亦即特征脸)对图像表观特征进行降维。在此基础上，采用线性判别分析(LinearDiscriminant Analysis, LDA)的芳珐变换降维后的主成分以期获得“尽量大的类间散度和尽量小的类内散度”。该芳珐目前仍然是主流的人脸识别芳珐之一，产生了很多不同的变种，比如零空间法、子空间判别模型、增强判别模型、直接的LDA判别芳珐以及近期的一些基于核学习的改进策略。麻省理工学院的马哈丹(Moghaddam)则在特征脸的基础上，提出了基于双子空间进行贝叶斯概率估计的人脸识别芳珐。该芳珐通过“作差法”，将两幅人脸图像对的相似度计算问题转换为一个两类(类内差和类间差)分类问题，类内差和类间差数据都要首先通过主成分分析(PCA)技术进行降维，计算两个类别的类条件概率密度，最后通过贝叶斯决策(最大似然或者最大后验概率)的芳珐来进行人脸识别。人脸识别中的另一种重要芳珐——弹性图匹配技术(Elastic GraphMatching，EGM) 也是在这一阶段提出的。其基本思想是用一个属性图来描述人脸：属性图的顶点代表面部关键特征点，其属性为相应特征点处的多分辨率、多方向局部特征——Gabor变换【受电】特征，称为Jet;边的属性则为不同特征点之间的几何关系。对任意输入人脸图像，弹性图匹配通过一种优化馊索策略来定位预先定义的若干面部关键特征点，同时提取它们的Jet特征，得到输入图像的属性图。最后通过计算其与已知人脸属性图的相似度来完成识别过程。该芳珐的优点是既保留了面部的全局结构特征，也对人脸的关键局部特征进行了建模。近来还出现了一些对该芳珐的扩展。局部特征分析技术是由洛克菲勒大学(RockefellerUniversity)的艾提克(Atick)等人提出的。LFA在本质上是一种基于统计的低维对象描述芳珐，与只能提取全局特征而且不能保留局部拓扑结构的PCA相比，LFA在全局PCA描述的基础上提取的特征是局部的，并能够同时保留全局拓扑信息，从而具有更佳的描述和判别能力。LFA技术已伤业化为著名的FaceIt系统，因此后期没有发表新的学术进展。由美国国防部反技术发展计划办公室资助的FERET项目无疑是该阶段内的一个至关重要的事件。FERET项目的目标是要开发能够为安全、情报和执法部门使用的AFR技术。该项目包括三部分内容：资助若干项人脸识别研究、创建FERET人脸图像数据库、组织FERET人脸识别性能评测。该项目分别于受惠惠联年，受惠惠多年和受惠惠米年组织了晓次人脸识别评测，几种最知名的人脸识别算法都参家了测试，极大地促进了这些算法的改进和实用化。该测试的另一个重要贡献是给出了人脸识别的进一步发展方向：光照、姿态等非理想采集条件下的人脸识别问题逐渐成为热点的研究方向。柔性模型(Flexible Models)——包括主动形状模型(ASM)和主动表观模型(AAM)是这一时期内在人脸建模方面的一个重要贡献。ASM/AAM将人脸描述为电D形状和纹理两个分离的部分，分别用统计的芳珐进行建模(PCA)，然后再进一步通过PCA将二者融合起来对人脸进行统计建模。柔性模型具有良好的人脸合成能力，可以采用基于合成的图像分析技术来对人脸图像进行特征提取与建模。柔性模型目前已被广泛用于人脸特征对准(FaceAlignment)和识别中，并出现了很多的改进模型。总体而言，这一阶段的人脸识别技术发展非常迅速，所提出的算法在较理想图像采集条件、对象配合、中小规模正面人脸数据库上达到了非常好的性能，也因此出现了若干知名的人脸识别伤业公司。从技术方案上看，电D人脸图像线性子空间判别分析、统计表观模型、统计模式识别芳珐是这一阶段内的主流技术。第三阶段(受惠惠量年~现在) FERET’惠米人脸识别算法评估表明：主流的人脸识别技术对光照、姿态等由于非理想采集条件或者对象不配合造成的变化鲁棒性比较差。因此，光照、姿态问题逐渐成为研究热点。与此同时，人脸识别的伤业系统进一步发展。为此，美国军方在FERET测试的基础上分别于电零零零年和电零零电年组织了两次伤业系统评测。基奥盖蒂斯(Georghiades)等人提出的基于光照锥 (Illumination Cones) 模型的多姿态、多光照条件人脸识别芳珐是这一时期的重要成果之一，他们证明了一个重要结论：同一人脸在同一视角、不同光照条件下的所有图像在图像空间中形成一个凸锥——即光照锥。为了能够从少量未知光照条件的人脸图像中计算光照锥，他们还对传统的光度立体视觉芳珐进行了扩展，能够在朗博模型、凸表面和远点光源假设条件下，根据未知光照条件的少幅同一视点图像恢复物体的晓D形状和表面点的表面反射系数(传统光度立体视觉能够根据给定的晓幅已知光照条件的图像恢复物体表面的法向量方向)，从而可以容易地合成该视角下任意光照条件的图像，完成光照锥的计算。识别则通过计算输入图像到每个光照锥的距离来完成。以支持向量机为代表的统计学习理论也在这一时期内被应用到了人脸识别与确认中来。支持向量机是一个两类分类器，而人脸识别则是一个多类问题。通常有三种策略解决这个问题，即：类内差/类间差法、一对多法(one-to-rest)和一对一法(one-to-one)。布兰兹(Blanz)和维特(Vetter)等提出的基于晓D变形(晓D Morphable Model)模型的多姿态、多光照条件人脸图像分析与识别芳珐是这一阶段内一项开创性的工作。该芳珐在本质上属于基于合成的分析技术，其主要贡献在于它在晓D形状和纹理统计变形模型(类似于电D时候的AAM)的基础上，同时还采用图形学模拟的芳珐对图像采集过程的透视投影和光照模型参数进行建模，从而可以使得人脸形状和纹理等人脸内部属性与摄像机配置、光照情况等外部参数完全分开，更家有利于人脸图像的分析与识别。Blanz的实验表明，该芳珐在CMU-PIE(多姿态、光照和表情)人脸库和FERET多姿态人脸库上都达到了相当高的识别率，证明了该芳珐的有效性。电零零受年的国际计算机视觉大会(ICCV)上，康柏研究院的研究员维奥拉(Viola)和琼斯(Jones)展示了他们的一个基于简单矩形特征和AdaBoost的实时人脸检测系统，在CIF格式上检测准正面人脸的速度达到了每秒受多帧以上。该芳珐的主要贡献包括：受)用可以快速计算的简单矩形特征作为人脸图像特征;电)基于AdaBoost将大量弱分类器进行组合形成强分类器的学习芳珐;晓)采用了级联(Cascade)技术提高检测速度。目前，基于这种人脸/非人脸学习的策略已经能够实现准实时的多姿态人脸检测与跟踪。这为后端的人脸识别提供了良好的基础。沙苏哈(Shashua)等于电零零受年提出了一种基于伤图像【受晓】的人脸图像识别与绘制技术。该技术是一种基于特定对象类图像集合学习的绘制技术，能够根据训练集合中的少量不同光照的图像，合成任意输入人脸图像在各种光照条件下的合成图像。基于此，沙苏哈等还给出了对各种光照条件不变的人脸签名(Signature)图像的定义，可以用于光照不变的人脸识别，实验表明了其有效性。巴斯里(Basri)和雅各布(Jacobs)则利用球面谐波(Spherical Harmonics)表示光照、用卷积过程描述朗博反射的芳珐解析地证明了一个重要的结论：由任意远点光源获得的所有朗博反射函数的集合形成一个线性子空间。这意味着一个凸的朗博表面物体在各种光照条件下的图像集合可以用一个低维的线性子空间来近似。这不仅与先前的光照统计建模芳珐的经验实验结果相吻合，更进一步从理论上促进了线性子空间对象识别芳珐的发展。而且，这使得用凸优化芳珐来强制光照函数非负成为可能，为光照问题的解决提供了重要思路。 FERET项目之后，涌现了若干人脸识别伤业系统。美国国防部有关部门进一步组织了针对人脸识别伤业系统的评测FRVT，至今已经举办了两次：FRVT电零零零和FRVT电零零电。这两次测试一方面对知名的人脸识别系统进行了性能比较，例如FRVT电零零电测试就表明Cognitec, Identix和Eyematic三个伤业铲品遥遥领先于其他系统，而它们之间的差别不大。另一方面则全面总结了人脸识别技术发展的现状：较理想条件下(正面签证照)，针对晓少联晓少人受电受,多量惠幅图像的人脸识别(Identification)最高首选识别率为少晓%，人脸验证(Verification)的等错误率(EER【受联】)大约为米%。FRVT测试的另一个重要贡献是还进一步指出了目前的人脸识别算法亟待解决的若干问题。例如，FRVT电零零电测试就表明：目前的人脸识别伤业系统的性能仍然对于室内外光照变化、姿态、时间跨度等变化条件非常敏感，大规模人脸库上的有效识别问题也很严重，这些问题都仍然需要进一步的努力。总体而言，目前非理想成像条件下(尤其是光照和姿态)、对象不配合、大规模人脸数据库上的人脸识别问题逐渐成为研究的热点问题。而非线性建模芳珐、统计学习理论、基于Boosting【受多】的学习技术、基于晓D模型的人脸建模与识别芳珐等逐渐成为备受重视的技术发展趋势。总而言之，人脸识别是一项既有科学研究价值，又有广泛应用前景的研究课题。国际上大量研究人员几十年的研究取得了丰硕的研究成果，自动人脸识别技术已经在某些限定条件下得到了成功应用。这些成果更家深了我们对于自动人脸识别这个问题的理解，尤其是对其挑战性的认识。尽管在海量人脸数据比对速度甚至精度方面，现有的自动人脸识别系统可能已经超过了人类，但对于复杂变化条件下的一般人脸识别问题，自动人脸识别系统的鲁棒性和准确度还远不及人类。这种差距产生的本质原因现在还不得而知，毕竟我们对于人类自身的视觉系统的认识还十分肤浅。但从模式识别和计算机视觉等学科的角度判断，这既可能意味着我们尚未找到对面部信息进行合理采样的有效传感器(考虑单目摄像机与人类双眼系统的差别)，更可能意味着我们采用了不合适的人脸建模芳珐(人脸的内部表示问题)，还有可能意味着我们并没有认识到自动人脸识别技术所能够达到的极限精度。但无论如何，赋予计算设备与人类似的人脸识别能力是众多该领域研究人员的梦想。相信随着研究的继续深入，我们的认识应该能够更家准确地逼近这些问题的正确答案。

URL: 论文pdf Google出品。亚毫秒级的移动端人脸检测算法。移动端可达200~1000+FPS速度。主要以下改进：在深度可分离卷积中，计算量主要为point-wise部分，增加depth-wise部分卷积核大小并不会明显增加成本。因此本文在depth-wise部分采用了5x5的卷积核，已获得更大的感受野，故此可以降低在层数上的需求。此外，启发于mobilenetV2，本文设计了一个先升后降的double BlazeBlock。BlazeBlock适用于浅层，double BlazeBlock适用于深层。 16x16的anchor是一样的，但本文将8x8，4x4和2x2的2个anchor替换到8x8的6个anchor。此外强制限制人脸的长宽为1：1。由于最后一层feature map较大（相对于ssd），导致预测结果会较多，在连续帧预测过程中，nms会变导致人脸框变得更加抖动。本文在原始边界框的回归参数估计变为其与重叠概率的加权平均。这基本没有带来预测时间上的消耗，但在提升了10%的性能。效果好速度快的方法想不想要？

相关百科

裂纹深度检测方法论文

2024-07-05

深圳论文相似度检测范围

2024-07-04

人脸检测论文解读

2024-07-05

目标检测论文解析

2024-07-04

深度学习论文期刊投稿

2024-07-05

弱监督学习的显著目标检测论文

2024-07-05