首页网络设计正文

yolo神经网络架构（yolov3神经网络）

网络设计 2年前(01-30) 365

今天给各位分享yolo神经网络架构的知识，其中也会对yolov3神经网络进行解释，如果能碰巧解决你现在面临的问题，别忘了关注本站，现在开始吧！本文目录一览： 1、车牌识别系统原理与代码「YOLO+MLP」

今天给各位分享yolo神经网络架构的知识，其中也会对yolov3神经网络进行解释，如果能碰巧解决你现在面临的问题，别忘了关注本站，现在开始吧！

本文目录一览：

1、车牌识别系统原理与代码「YOLO+MLP」
2、yolov5ds使用了什么神经网络
3、YOLOv1网络
4、yolo算法是什么？

车牌识别系统原理与代码「YOLO+MLP」

车牌识别系统可以自动检测并识别图像中的车辆牌照，其算法主要包括牌照定位、牌照分割、字符识别等步骤。本文将给出一种基于深度学习的车牌识别系统方案。

由于可以自动地从***图像中提取车辆牌照信息，因此车牌识别系统可以应用于以下行业：

我们的项目包含以下三个步骤：车辆牌照检测、牌照字符分割、牌照字符识别。

我们使用Yolo（You Only Look One）算法来检测车辆牌照。Yolo是一个基于卷积神经网络的深度学习目标检测架构。该架构由 Joseph Redmon , Ali Farhadi, Ross Girshick和Santosh Divvala引入，2015年推出第一个版本，然后逐渐升级至版本3：

Yolo是一个端到端训练的单一网络，可以用来预测目标的类别与边界框。Yolo网络速度极快，可以每秒45帧的速度实时处理图像。其中一个较小规模的网络，被称为Fast YOLO，甚至达到了令人咂舌的155帧/秒的处理速度。

下面我们来实现YOLO V3网络。首先，我们准备一个有700张包含土耳其车辆牌照的图片的数据集，对每一张图片，我们都使用一个桌面应用LabelImg标注出车牌位置并存入一个xml文件。数据下载及网络训练脚本如下：

在网络训练完之后，为了识别图像中的车辆牌照，我们从darknet/custom/weights中选择最新的模型并在文件object_detection_yolo.py中写入其路径名称，我们也将使用yolov3.cfg文件，注释掉训练部分，然后执行：

这就是我们的结果：

现在我们要分割出我们的车牌号码。这个步骤的输入是车牌图像，我们必须能够提取出单个字符的图像。由于这一步骤的输出将用于识别步骤，因此对于一个车牌识别系统而言，车牌分割步骤非常重要。为了尽可能的正确分割车牌字符，我们需要进行必要的预处理。

像素投影直方图用来找出字符区域的上限和下限、左边及右边。我们使用水平投影来找出字符的顶部和底部位置，使用垂直投影来找出字符的左边和右边位置：

从车辆牌照中提取数字的另一个方法时使用形态学的开/闭操作来生成一些连通区域，然后再使用连通跟踪算法提取这些连通区域。

识别阶段是我们的车牌自动检测与识别系统的最后一个环节，识别是基于前面环节得到的单个字符图像。我们的模型将对这些图像进行预测，从而得到最终的车牌号码。

为了尽可能利用训练数据，我们将每个字符单独切割，得到一个车牌字符数据集，该数据集中包含11个类（数字0-9以及阿拉伯单词），每个类包含30~40张字符图像，图像为28X28的PNG格式。

然后，我们就多层感知器MLP和K近邻分类器KNN的比较进行了一些调研，研究结果标明，对于多层感知器而言，如果隐层的神经元增多，那么分类器的性能就会提高；同样，对于KNN而言，性能也是随着近邻数量的增多而提高。不过由于KNN的可调整潜力要远远小于MLP，因此我们最终选择在这个阶段使用多层感知器MLP网络来识别分割后的车牌字符：

你可以在这里找到代码及数据集：github

原文链接：车辆牌照自动检测与识别 —— 汇智网

yolo神经网络架构（yolov3神经网络）

yolov5ds使用了什么神经网络

卷积神经网络。

当下YOLO最新的卷积神经网络YOLOv5是完全基于PyTorch实现的，现版本的YOLOv5每个图像的推理时间最快0.007秒，即每秒140帧（FPS），但YOLOv5的权重文件大小只有YOLOv4的1/9。

YOLOv1网络

YOLO意思是You Only Look Once，创造性的将候选区和对象识别这两个阶段合二为一，看一眼图片（不用看两眼哦）就能知道有哪些对象以及它们的位置。其最大的特点是运行速度很快，可以用于实时系统。

实际上，YOLO并没有真正去掉候选区，而是***用了预定义的候选区（准确点说应该是预测区，因为并不是Faster RCNN所***用的Anchor）。也就是将图片划分为 7 * 7=49 个网格（grid），每个网格允许预测出2个边框（bounding box，包含某个对象的矩形框），总共 49 * 2=98 个bounding box。可以理解为98个候选区，它们很粗略的覆盖了图片的整个区域。

RCNN虽然会找到一些候选区，但毕竟只是候选，等真正识别出其中的对象以后，还要对候选区进行微调，使之更接近真实的bounding box。这个过程就是边框回归：将候选区bounding box调整到更接近真实的bounding box。

既然反正最后都是要调整的，干嘛还要先费劲去寻找候选区呢，大致有个区域范围就行了，所以YOLO就这么干了。

去掉候选区这个步骤以后，YOLO的结构非常简单，就是单纯的卷积、池化最后加了两层全连接。单看网络结构的话，和普通的CNN对象分类网络几乎没有本质的区别，最大的差异是最后输出层用线性函数做激活函数，因为需要预测bounding box的位置（数值型），而不仅仅是对象的概率。所以粗略来说，YOLO的整个结构就是输入图片经过神经网络的变换得到一个输出的张量，如下图所示。

因为只是一些常规的神经网络结构，所以，理解YOLO的设计的时候，重要的是理解输入和输出的映射关系。

输入就是原始图像，唯一的要求是缩放到448 * 448的大小。主要是因为YOLO的网络中，卷积层最后接了两个全连接层，全连接层是要求固定大小的向量作为输入，所以倒推回去也就要求原始图像有固定的尺寸。那么YOLO设计的尺寸就是448*448。

输出是一个 7 7 30 的张量（tensor）。

1） 7 * 7网格

根据YOLO的设计，输入图像被划分为 7 * 7 的网格（grid），输出张量中的 7 * 7 就对应着输入图像的 7 * 7 网格。或者我们把 7 * 7 * 30 的张量看作 7 * 7=49个30维的向量，也就是输入图像中的每个网格对应输出一个30维的向量。参考上图，比如输入图像左上角的网格对应到输出张量中左上角的向量。

要注意的是，并不是说仅仅网格内的信息被映射到一个30维向量。经过神经网络对输入图像信息的提取和变换，网格周边的信息也会被识别和整理，最后编码到那个30维向量中。

2）30维向量

具体来看每个网格对应的30维向量中包含了哪些信息。

因为YOLO支持识别20种不同的对象（人、鸟、猫、汽车、椅子等），所以这里有20个值表示该网格位置存在任一种对象的概率。可以记为，之所以写成条件概率，意思是如果该网格存在一个对象Object，那么它是的概率是。记不清条件概率的同学可以参考一下理解贝叶斯定理）

每个bounding box需要4个数值来表示其位置，(Center_x,Center_y,width,height)，即(bounding box的中心点的x坐标，y坐标，bounding box的宽度，高度)，2个bounding box共需要8个数值来表示其位置。

bounding box的置信度 = 该bounding box内存在对象的概率 * 该bounding box与该对象实际bounding box的IOU，用公式来表示就是

是bounding box内存在对象的概率，区别于上面的，并不管是哪个对象，它体现的是有或没有对象的概率；上面的意思是***设已经有一个对象在网格中了，这个对象具体是哪一个。

是 bounding box 与对象真实bounding box 的IOU（Intersection over Union，交并比）。要注意的是，现在讨论的30维向量中的bounding box是YOLO网络的输出，也就是预测的bounding box。所以体现了预测的bounding box与真实bounding box的接近程度。

还要说明的是，虽然有时说"预测"的bounding box，但这个IOU是在训练阶段计算的。等到了测试阶段（Inference），这时并不知道真实对象在哪里，只能完全依赖于网络的输出，这时已经不需要（也无法）计算IOU了。

综合来说，一个bounding box的置信度Confidence意味着它是否包含对象且位置准确的程度。置信度高表示这里存在一个对象且位置比较准确，置信度低表示可能没有对象或者即便有对象也存在较大的位置偏差。

简单解释一下IOU。下图来自Andrew Ng的深度学习课程，IOU=交集部分面积/并集部分面积，2个box完全重合时IOU=1，不相交时IOU=0。

总的来说，30维向量 = 20个对象的概率 + 2个bounding box * 4个坐标 + 2个bounding box的置信度。

3）讨论

每个30维向量中只有一组（20个）对象分类的概率，也就只能预测出一个对象。所以输出的 7 * 7=49个 30维向量，最多表示出49个对象。

每个30维向量中有2组bounding box，所以总共是98个候选区。

Faster RCNN等一些算法***用每个grid中手工设置n个Anchor（先验框，预先设置好位置的bounding box）的设计，每个Anchor有不同的大小和宽高比。YOLO的bounding box看起来很像一个grid中2个Anchor，但它们不是。YOLO并没有预先设置2个bounding box的大小和形状，也没有对每个bounding box分别输出一个对象的预测。它的意思仅仅是对一个对象预测出2个bounding box，选择预测得相对比较准的那个。

这里***用2个bounding box，有点不完全算监督算法，而是像进化算法。如果是监督算法，我们需要事先根据样本就能给出一个正确的bounding box作为回归的目标。但YOLO的2个bounding box事先并不知道会在什么位置，只有经过前向计算，网络会输出2个bounding box，这两个bounding box与样本中对象实际的bounding box计算IOU。这时才能确定，IOU值大的那个bounding box，作为负责预测该对象的bounding box。

训练开始阶段，网络预测的bounding box可能都是乱来的，但总是选择IOU相对好一些的那个，随着训练的进行，每个bounding box会逐渐擅长对某些情况的预测（可能是对象大小、宽高比、不同类型的对象等）。所以，这是一种进化或者非监督学习的思想。

另外论文中经常提到responsible。比如：Our system divides the input image into an S*S grid. If the center of an object falls into a grid cell, that grid cell is responsible for detecting that object. 这个 responsible 有点让人疑惑，对预测"负责"是啥意思。其实没啥特别意思，就是一个Object只由一个grid来进行预测，不要多个grid都抢着预测同一个Object。更具体一点说，就是在设置训练样本的时候，样本中的每个Object归属到且仅归属到一个grid，即便有时Object跨越了几个grid，也仅指定其中一个。具体就是计算出该Object的bounding box的中心位置，这个中心位置落在哪个grid，该grid对应的输出向量中该对象的类别概率是1（该gird负责预测该对象），所有其它grid对该Object的预测概率设为0（不负责预测该对象）。

还有：YOLO predicts multiple bounding boxes per grid cell. At training time we only want one bounding box predictor to be responsible for each object. 同样，虽然一个grid中会产生2个bounding box，但我们会选择其中一个作为预测结果，另一个会被忽略。下面构造训练样本的部分会看的更清楚。

7 * 7网格，每个网格2个bounding box，对448 * 448输入图像来说覆盖粒度有点粗。我们也可以设置更多的网格以及更多的bounding box。设网格数量为 S * S，每个网格产生B个边框，网络支持识别C个不同的对象。这时，输出的向量长度为：，整个输出的tensor就是：。

YOLO选择的参数是 7 7网格，2个bounding box，20种对象，因此输出向量长度 = 20 + 2 * (4+1) = 30。整个输出的tensor就是 7 7*30。

因为网格和bounding box设置的比较稀疏，所以这个版本的YOLO训练出来后预测的准确率和召回率都不是很理想，后续的v2、v3版本还会改进。当然，因为其速度能够满足实时处理的要求，所以对工业界还是挺有吸引力的。

作为监督学习，我们需要先构造好训练样本，才能让模型从中学习。

对于一张输入图片，其对应输出的7 7 30张量（也就是通常监督学习所说的标签y或者label）应该填写什么数据呢。

首先，输出的 7 7维度对应于输入的 7 7 网格。然后具体看下30维向量的填写（请对照上面图6）。

对于输入图像中的每个对象，先找到其中心点。比如上图中的自行车，其中心点在***圆点位置，中心点落在黄***格内，所以这个黄***格对应的30维向量中，自行车的概率是1，其它对象的概率是0。所有其它48个网格的30维向量中，该自行车的概率都是0。这就是所谓的"中心点所在的网格对预测该对象负责"。狗和汽车的分类概率也是同样的方法填写。

训练样本的bounding box位置应该填写对象实际的bounding box，但一个对象对应了2个bounding box，该填哪一个呢？上面讨论过，需要根据网络输出的bounding box与对象实际bounding box的IOU来选择，所以要在训练过程中动态决定到底填哪一个bounding box。

上面讨论过置信度公式，可以直接计算出来，就是用网络输出的2个bounding box与对象真实bounding box一起计算出IOU。

然后看2个bounding box的IOU，哪个比较大（更接近对象实际的bounding box），就由哪个bounding box来负责预测该对象是否存在，即该bounding box的，同时对象真实bounding box的位置也就填入该bounding box。另一个不负责预测的bounding box的。

总的来说就是，与对象实际bounding box最接近的那个bounding box，其，该网格的其它bounding box的。

举个例子，比如上图中自行车的中心点位于4行3列网格中，所以输出tensor中4行3列位置的30维向量如下图所示。

翻译成人话就是：4行3列网格位置有一辆自行车，它的中心点在这个网格内，它的位置边框是bounding box1所填写的自行车实际边框。

注意，图中将自行车的位置放在bounding box1，但实际上是在训练过程中等网络输出以后，比较两个bounding box与自行车实际位置的IOU，自行车的位置（实际bounding box）放置在IOU比较大的那个bounding box（图中***设是bounding box1），且该bounding box的置信度设为1。

损失就是网络实际输出值与样本标签值之间的偏差。

YOLO给出的损失函数如下：

其中，

是指网格i存在对象；

是指网格i的第j个bounding box中存在对象；

是指网格i的第j个bounding box中不存在对象。

总的来说，就是用网络输出与样本标签的各项内容的误差平方和作为一个样本的整体误差。损失函数中的几个项是与输出的30维向量中的内容相对应的。

公式第5行，注意意味着存在对象的网格才计入误差。

公式第1行和第2行。

a) 都带有意味着只有"负责"（IOU比较大）预测的那个bounding box的数据才会计入误差；

b) 第2行宽度和高度先取了平方根，因为如果直接取差值的话，大的对象对差值的敏感度较低，小的对象对差值的敏感度较高，所以取平方根可以降低这种敏感度的差异，使得较大的对象和较小的对象在尺寸误差上有相似的权重。

c) 乘以调节bounding box位置误差的权重（相对分类误差和置信度误差）。YOLO设置，即调高位置误差的权重。

公式第3行和第4行。

a) 第3行是存在对象的bounding box的置信度误差。带有意味着只有"负责"（IOU比较大）预测的那个bounding box的置信度才会计入误差。

b) 第4行是不存在对象的bounding box的置信度误差。因为不存在对象的bounding box应该老老实实的说"我这里没有对象"，也就是输出尽量低的置信度。如果它不恰当的输出较高的置信度，会与真正"负责"该对象预测的那个bounding box产生混淆。其实就像对象分类一样，正确的对象概率最好是1，所有其它对象的概率最好是0。

c) 第4行乘以调节不存在对象的bounding box 的置信度的权重（相对其他误差）。YOLO设置，即调低不存在对象的bounding box的置信度误差的权重。

YOLO先使用ImageNet数据集对前20层卷积网络进行预训练，然后使用完整的网络，在PASCAL VOC数据集上进行对象识别和定位的训练和预测。YOLO的网络结构如下图所示：

YOLO的最后一层***用线性激活函数，其它层都是Leaky ReLU。训练中***用了dropout和数据增强（data augmentation）来防止过拟合。更多细节请参考原论文。

训练好的YOLO网络，输入一张图片，将输出一个 7 7 30 的张量（tensor）来表示图片中所有网格包含的对象（概率）以及该对象可能的2个位置（bounding box）和可信程度（置信度）。为了从中提取出最有可能的那些对象和位置，YOLO***用NMS（Non-maximal suppression，非极大值抑制）算法。

NMS方法并不复杂，其核心思想是：选择得分最高的作为输出，与该输出重叠的去掉，不断重复这一过程直到所有备选处理完。

YOLO的NMS计算方法如下。

网络输出的7 * 7 * 30的张量，在每一个网格中，对象位于第j个bounding box的得分：，它代表着某个对象存在第j个bounding box的可能性。

每个网格有：20个对象的概率*2个bounding box的置信度，共40个得分（候选对象）。49个网格共1960个得分。Andrew Ng建议每种对象分别进行NMS，那么每种对象有 1960/20=98 个得分。

NMS步骤如下：

1）设置一个Score的阈值，低于该阈值的候选对象排除掉（将该Score设为0）

2）遍历每一个对象类别

2.1）遍历该对象的98个得分

2.1.1）找到Score最大的那个对象及其bounding box，添加到输出列表

2.1.2）对每个Score不为0的候选对象，计算其与上面2.1.1输出对象的bounding box的IOU

2.1.3）根据预先设置的IOU阈值，所有高于该阈值（重叠度较高）的候选对象排除掉（将Score设为0）

2.1.4）如果所有bounding box要么在输出列表中，要么Score=0，则该对象类别的NMS完成，返回步骤2处理下一种对象

3）输出列表即为预测的对象

YOLO以速度见长，处理速度可以达到45fps，其快速版本（网络较小）甚至可以达到155fps。这得益于其识别和定位合二为一的网络设计，而且这种统一的设计也使得训练和预测可以端到端的进行，非常简便。

不足之处是小对象检测效果不太好（尤其是一些聚集在一起的小对象），对边框的预测准确度不是很高，总体预测精度略低于Fast RCNN。主要是因为网格设置比较稀疏，而且每个网格只预测两个边框，另外Pooling层会丢失一些细节信息，对定位存在影响。

yolo算法是什么？

yolo算法是一种目标检测算法。目标检测任务的目标是找到图像中的所有感兴趣区域，并确定这些区域的位置和类别概率。目标检测领域的深度学习方法主要分为两大类两阶段式（Two-stage）目标检测算法和单阶段式（One-stage）目标检测算法。两阶段式是先由算法生成一系列候选边界框作为样本，然后再通过卷积神经网络分类这些样本。

yolo算法原理

因为它***用深层卷积神经网络，吸收了当前很多经典卷积神经网络架构的优秀思想，在位置检测和对象的识别方面，性能达到最优（准确率非常高的情况下还能达到实时检测）。因为作者还将代码开源了。真心为作者这种大公无私的心胸点赞。

美中不足的是虽然将代码开源，但是在论文介绍架构原理的时候比较模糊，特别是对一些重要改进，基本上是一笔带过。现在在网络上有很多关于YOLO原理的讲解。

关于yolo神经网络架构和yolov3神经网络的介绍到此就结束了，不知道你从中找到你需要的信息了吗？如果你还想了解更多这方面的信息，记得收藏关注本站。

yolo神经网络架构