当前位置：首页 > news >正文

成品网站速成网站温州建设局官方网站

news 2026/4/15 23:39:07

成品网站速成网站,温州建设局官方网站,商城网上购物,上海工商网上企业查名R-CNN在2014年被提出#xff0c;算法流程可以概括如下#xff1a; 候选区域生成#xff1a;利用选择性搜索(selective search)方法找出图片中可能存在目标的候选区域(region proposal) CNN网络提取特征#xff1a;对候选区域进行特征提取(可以使用AlexNet、VGG等网络) 目…R-CNN在2014年被提出算法流程可以概括如下候选区域生成利用选择性搜索(selective search)方法找出图片中可能存在目标的候选区域(region proposal) CNN网络提取特征对候选区域进行特征提取(可以使用AlexNet、VGG等网络) 目标分类训练分类模型(如svm等)识别目标物体和背景对于每个类别都会有一个二元SVM 目标定位训练回归模型预测每个被识别物体的边界框综上所述可以概括为选取候选区域-》提取特征-》分类模型-》回归模型。R-CNN的整体设计思路与传统图像目标检测很相似只是将传统特征提取HOG等方法变为了卷积网络提取。候选区域候选区域(region proposal)选择方法有很多比如EdgeBox、MSER、MCG和SelectivSearch等其中SelectivSearch是比较有代表性的一种。 SelectiveSearch方法通常一张图像生成2000~3000左右的候选区域通过SelectiveSearch产生的区域数量远远少于滑动窗口的穷举法产生的候选区域。具体过程如下使用语义分割的方法将图片中的每一个像素作为一组利用颜色、纹理和边界等多尺度综合方法将像素相近的组合为一个像素组。继续将各个像素组合并直到整张图片合并完毕。为了保证候选区域划分更加合理Selective Search进行了如下设计多样性策略为了保证候选区域的准确性SelectiveSearch主要通过颜色空间变换和距离计算方式进行优化。颜色空间变化将颜色空间可以转换为八种色彩空间。距离计算距离计算包括了颜色距离、纹理距离、尺度相似度衡量、形状重合度衡量和最终相似度衡量。颜色距离1每一个区域用三通道的颜色直方图表示每个颜色通道设定25bins的直方图这样每个区域就有3*2575维的向量2对75维进行L1-normal归一化每个颜色通道累加和为1三个通道累计和为33如果区域i和区域j直方图一样则颜色相似度为34如果区域i和区域j直方图差别较大由于累加取两个区域bin的最小值因为差距越大累加和越小相似度越小纹理距离1论文采用SIFT方法将每个颜色通道的8个方向计算方差为1的高斯微分2用L1-Normal 对每个颜色通道的每个方向的10bins的直方图得到8*10*3240维向量3两个区域相似度越高纹理距离越大反之越小尺度相似度衡量通过颜色距离和纹理距离进行合并容易使得合并后的区域不断吞并周围的区域导致多尺度只应用在那个局部不是全局的多尺度。尺度相似度衡量就是给小区域更高的权重保证每个位置都是多尺度在合并区域重合度衡量区域重合度主要是为了衡量两个区域的“吻合”程度不能合并后出现断崖的区域。最终相似度衡量将上述四种衡量方式加权合并得到最终相似度衡量数值特征提取利用预训练模型(AlexNet、VGG、GoogLeNet、ResNet等)对候选区域进行特征提取候选区域提取的图像尺寸大小不一当时特征提取的网络大多需要将输入图像的大小进行统一。以AlexNet网络为例输入图像大小为227*227通过CNN对候选区域进行特征提取2000个候选区域组成2000*4096特征矩阵。特征提取阶段主要涉及以下几个步骤设计网络结构网络结构可以有很多参照例如AlexNet、VGG、GoogLeNet、ResNet等均可进行特征提取。有监督训练相比于随机的初始化网络参数使用预训练模型可以更快的让模型收敛取得更好的效果。 fine-tune 为了使预训练模型更加适用于当前场景需要对模型进行再训练一般仅改变末基层网络参数或结构。其中特征提取需要注意以下几点全连接层的输入数据尺寸都是固定的因此在进行特征提取前需要将输入图像进行裁剪或形变转为固定尺寸如何裁剪更合理论文中尝试了3种裁剪方式图中A是我们的候选区域1将bounding box扩展为正方形然后进行裁剪如果延伸到了图片外使用bounding box中的颜色均值进行替代如B)所示2先将bounding box裁剪出来然后用bounding box中的颜色均值填充为裁剪的大小如C)所示3直接将原始图像形变为需要的形状如D。什么是预训练模型(pre-train) 预训练模型是指在其他训练集上已经训练好的初始模型可以将此类模型迁移到现有问题公用层的参数保持与原本相同仅对部分网络层进行微调也就是fine-tune(在训练) 为什么不在fine-tune后进行softmax分类反而又进行svm分类器训练先上结论论文中也进行添加softmax尝试发现效果要低于svm。cnn模型相对比较容易过拟合训练时需要较多的样本因此在cnn训练阶段标注是相对宽松的一个bounding box可能仅包含了物体的一部分也会被当做正样本。但在SVM阶段需要bounding box将整个物体都包含进来才算正样本这样能训练的数据量就很少而svm在小样本上训练效果还可以所以最终分类效果更好一些。目标分类假设需要检测的类别有N个则需要训练N个分类器(常见SVM等)对每个图片中的候选区域的特征向量进行识别假设有2000个候选区域则产生[2000, N]的得分矩阵。对2000*N的矩阵中每一列进行非极大值抑制(NMS)剔除重叠建议框得到该类中得分高相对较高的建议框。 NMS是如何工作的假设在识别动物任务中一张图片中一个猫有5个矩形框矩形框中是猫的概率从低到高是a、b、c、d、e。将矩形框分别a、b、c、d与概率最大的e进行判断计算IOU是否大于某个阈值假设a、b分别与e的IOU值都大于阈值则丢弃a、be成为第一个被保留的矩形框从剩余的矩形框c、d中选择概率最大的d计算c与d的IOU是否大于某个阈值大于则保留d丢弃c小于则保留或丢弃c 按照上述步骤进行重叠建议框剔除 IOU的阈值如何确定论文中尝试了0~0.5在0.3是效果更好一些小于0.3被标记为负样本不同数据集阈值大小并不固定需要进行尝试。目标定位 Bounding Box Regression边框回归SelectiveSearch方法获得的区域相对粗略使用回归模型对给定的区域结果进行预测得到一个更加准确的位置。如图所示黄色框是预测的Region Proposal希望通过回归算法让黄色框更加接近真实的绿色框即Ground Truth。为什么回归可以用来目标定位当输入的Proposal和Ground Truth相差较小时RCNN设置为IOU0.6认为此时是一种线性变换此时可以用线性回归来对窗口进行微调当IOU较小时此时可能使用线性回归效果不理想。 RCNN存在一下问题候选区域的提取需要较多的磁盘空间来计算与存储传统CNN等一些网络要求输入图像尺寸统一因此需要对输入图像做形变可能会导致部分信息缺失大量的ProposalRegion存在重叠部分每个ProposalRegion都需要通过主干网络(CNN等)进行计算因此有很多重复性的计算 CNN网络、分类器、回归模型这三个流程导致整体计算时间长、参数多等问题训练流程不够迅捷。

查看全文

http://www.hkea.cn/news/14280684/