首页网络设计正文

神经网络架构图（神经网络架构图***）

网络设计 11个月前 (01-17) 898

本篇文章给大家谈谈神经网络架构图，以及神经网络架构图高清对应的知识点，希望对各位有所帮助，不要忘了收藏本站喔。本文目录一览： 1、如何画出神经网络的结构图 2、

本篇文章给大家谈谈神经网络架构图，以及神经网络架构图***对应的知识点，希望对各位有所帮助，不要忘了收藏本站喔。

本文目录一览：

1、如何画出神经网络的结构图
2、几种常见的循环神经网络结构RNN、LSTM、GRU
3、一文看懂四种基本的神经网络架构
4、(七)神经网络基本结构
5、LeNet神经网络
6、第五章神经网络

如何画出神经网络的结构图

回复 wpanys 的帖子感谢您的回复~~确实如你所说，用各种绘图软件都可以画~~最后我选择matlab画出动态结构~嘿嘿

几种常见的循环神经网络结构RNN、LSTM、GRU

传统文本处理任务的方法中一般将TF-IDF向量作为特征输入。显而易见，这样的表示实际上丢失了输入的文本序列中每个单词的顺序。在神经网络的建模过程中，一般的前馈神经网络，如卷积神经网络，通常接受一个定长的向量作为输入。卷积神经网络对文本数据建模时，输入变长的字符串或者单词串，然后通过滑动窗口加池化的方式将原先的输入转换成一个固定长度的向量表示，这样做可以捕捉到原文本中的一些局部特征，但是两个单词之间的长距离依赖关系还是很难被学习到。

循环神经网络却能很好地处理文本数据变长并且有序的输入序列。它模拟了人阅读一篇文章的顺序，从前到后阅读文章中的每一个单词，将前面阅读到的有用信息编码到状态变量中去，从而拥有了一定的记忆能力，可以更好地理解之后的文本。

其网络结构如下图所示：

由图可见，t是时刻，x是输入层，s是隐藏层，o是输出层，矩阵W就是隐藏层上一次的值作为这一次的输入的权重。

如果反复把式 2 带入到式 1，将得到：

其中f和g为激活函数，U为输入层到隐含层的权重矩阵，W为隐含层从上一时刻到下一时刻状态转移的权重矩阵。在文本分类任务中，f可以选取Tanh函数或者ReLU函数，g可以***用Softmax函数。

通过最小化损失误差（即输出的y与真实类别之间的距离），我们可以不断训练网络，使得得到的循环神经网络可以准确地预测文本所属的类别，达到分类目的。相比于卷积神经网络等前馈神经网络，循环神经网络由于具备对序列顺序信息的刻画能力，往往能得到更准确的结果。

RNN的训练算法为：BPTT

BPTT的基本原理和BP算法是一样的，同样是三步：

1.前向计算每个神经元的输出值；

2.反向计算每个神经元的误差项值，它是误差函数E对神经元j的加权输入的偏导数；

3.计算每个权重的梯度。

最后再用随机梯度下降算法更新权重。

具体参考：

最后由链式法则得到下面以雅可比矩阵来表达的每个权重的梯度:

由于预测的误差是沿着神经网络的每一层反向传播的，因此当雅克比矩阵的最大特征值大于1时，随着离输出越来越远，每层的梯度大小会呈指数增长，导致梯度爆炸；反之，若雅克比矩阵的最大特征值小于1，梯度的大小会呈指数缩小，产生梯度消失。对于普通的前馈网络来说，梯度消失意味着无法通过加深网络层次来改善神经网络的预测效果，因为无论如何加深网络，只有靠近输出的若干层才真正起到学习的作用。这使得循环神经网络模型很难学习到输入序列中的长距离依赖关系。

关于RNN梯度下降的详细推导可以参考:

梯度爆炸的问题可以通过梯度裁剪来缓解，即当梯度的范式大于某个给定值时，对梯度进行等比收缩。而梯度消失问题相对比较棘手，需要对模型本身进行改进。深度残差网络是对前馈神经网络的改进，通过残差学习的方式缓解了梯度消失的现象，从而使得我们能够学习到更深层的网络表示；而对于循环神经网络来说，长短时记忆模型及其变种门控循环单元等模型通过加入门控机制，很大程度上弥补了梯度消失所带来的损失。

LSTM的网络机构图如下所示：

与传统的循环神经网络相比，LSTM仍然是基于xt和ht−1来计算ht，只不过对内部的结构进行了更加精心的设计，加入了输入门it 、遗忘门ft以及输出门ot三个门和一个内部记忆单元ct。输入门控制当前计算的新状态以多大程度更新到记忆单元中；遗忘门控制前一步记忆单元中的信息有多大程度被遗忘掉；输出门控制当前的输出有多大程度上取决于当前的记忆单元。

在经典的LSTM模型中，第t层的更新计算公式为

其中it是通过输入xt和上一步的隐含层输出ht−1进行线性变换，再经过激活函数σ得到的。输入门it的结果是向量，其中每个元素是0到1之间的实数，用于控制各维度流过阀门的信息量；Wi 、Ui两个矩阵和向量bi为输入门的参数，是在训练过程中需要学习得到的。遗忘门ft和输出门ot的计算方式与输入门类似，它们有各自的参数W、U和b。与传统的循环神经网络不同的是，从上一个记忆单元的状态ct−1到当前的状态ct的转移不一定完全取决于激活函数计算得到的状态，还由输入门和遗忘门来共同控制。

在一个训练好的网络中，当输入的序列中没有重要信息时，LSTM的遗忘门的值接近于1，输入门的值接近于0，此时过去的记忆会被保存，从而实现了长期记忆功能；当输入的序列中出现了重要的信息时，LSTM应当把其存入记忆中，此时其输入门的值会接近于1；当输入的序列中出现了重要信息，且该信息意味着之前的记忆不再重要时，输入门的值接近1，而遗忘门的值接近于0，这样旧的记忆被遗忘，新的重要信息被记忆。经过这样的设计，整个网络更容易学习到序列之间的长期依赖。

GRU是在LSTM上进行简化而得到的，GRU的网络结构如下所示：

Zt代表更新门，更新门的作用类似于LSTM中的遗忘门和输入门，它能决定要丢弃哪些信息和要添加哪些新信息。

Rt代表重置门，重置门用于决定丢弃先前信息的程度。

要注意的是，h只是一个变量，因此在每个时刻，包括最后的线性组合，h都是在用以前的自己和当前的备选答案更新自己。举例来说，这一个变量好比一杯酒，每次我们要把一部分酒倒出去，并把倒出去的酒和新加入的原料混合，然后在倒回来，这里的reset控制的就是要倒出去的，并且混合好之后再倒回来的酒的比例，而update控制的则是用多大的比例混合新原料和倒出来的之前调制好的酒。同理，也可以以此理解LSTM，LSTM的遗忘门功能上和reset相似，而输入门与update相似，不同之处在于LSTM还控制了当前状态的exposure，也就是输出门的功能，这是GRU所没有的。

1.百面机器学习

一文看懂四种基本的神经网络架构

原文链接：

更多干货就在我的个人博客欢迎关注

刚刚入门神经网络，往往会对众多的神经网络架构感到困惑，神经网络看起来复杂多样，但是这么多架构无非也就是三类，前馈神经网络，循环网络，对称连接网络，本文将介绍四种常见的神经网络，分别是CNN，RNN，DBN，GAN。通过这四种基本的神经网络架构，我们来对神经网络进行一定的了解。

神经网络是机器学习中的一种模型，是一种模仿动物神经网络行为特征，进行分布式并行信息处理的算法数学模型。这种网络依靠系统的复杂程度，通过调整内部大量节点之间相互连接的关系，从而达到处理信息的目的。

一般来说，神经网络的架构可以分为三类：

前馈神经网络：

这是实际应用中最常见的神经网络类型。第一层是输入，最后一层是输出。如果有多个隐藏层，我们称之为“深度”神经网络。他们计算出一系列改变样本相似性的变换。各层神经元的活动是前一层活动的非线性函数。

循环网络：

循环网络在他们的连接图中定向了循环，这意味着你可以按照箭头回到你开始的地方。他们可以有复杂的动态，使其很难训练。他们更具有生物真实性。

循环网络的目的使用来处理序列数据。在传统的神经网络模型中，是从输入层到隐含层再到输出层，层与层之间是全连接的，每层之间的节点是无连接的。但是这种普通的神经网络对于很多问题却无能无力。例如，你要预测句子的下一个单词是什么，一般需要用到前面的单词，因为一个句子中前后单词并不是独立的。

循环神经网路，即一个序列当前的输出与前面的输出也有关。具体的表现形式为网络会对前面的信息进行记忆并应用于当前输出的计算中，即隐藏层之间的节点不再无连接而是有连接的，并且隐藏层的输入不仅包括输入层的输出还包括上一时刻隐藏层的输出。

对称连接网络：

对称连接网络有点像循环网络，但是单元之间的连接是对称的（它们在两个方向上权重相同）。比起循环网络，对称连接网络更容易分析。这个网络中有更多的限制，因为它们遵守能量函数定律。没有隐藏单元的对称连接网络被称为“Hopfield 网络”。有隐藏单元的对称连接的网络被称为玻尔兹曼机。

其实之前的帖子讲过一些关于感知机的内容，这里再复述一下。

首先还是这张图

这是一个M-P神经元

一个神经元有n个输入，每一个输入对应一个权值w，神经元内会对输入与权重做乘法后求和，求和的结果与偏置做差，最终将结果放入激活函数中，由激活函数给出最后的输出，输出往往是二进制的，0 状态代表抑制，1 状态代表激活。

可以把感知机看作是 n 维实例空间中的超平面决策面，对于超平面一侧的样本，感知器输出 1，对于另一侧的实例输出 0，这个决策超平面方程是 w⋅x=0。那些可以被某一个超平面分割的正反样例集合称为线性可分(linearly separable)样例集合，它们就可以使用图中的感知机表示。

与、或、非问题都是线性可分的问题，使用一个有两输入的感知机能容易地表示，而异或并不是一个线性可分的问题，所以使用单层感知机是不行的，这时候就要使用多层感知机来解决疑惑问题了。

如果我们要训练一个感知机，应该怎么办呢？

我们会从随机的权值开始，反复地应用这个感知机到每个训练样例，只要它误分类样例就修改感知机的权值。重复这个过程，直到感知机正确分类所有的样例。每一步根据感知机训练法则来修改权值，也就是修改与输入 xi 对应的权 wi，法则如下：

这里 t 是当前训练样例的目标输出，o 是感知机的输出，η 是一个正的常数称为学习速率。学习速率的作用是缓和每一步调整权的程度，它通常被设为一个小的数值（例如 0.1），而且有时会使其随着权调整次数的增加而衰减。

多层感知机，或者说是多层神经网络无非就是在输入层与输出层之间加了多个隐藏层而已，后续的CNN，DBN等神经网络只不过是将重新设计了每一层的类型。感知机可以说是神经网络的基础，后续更为复杂的神经网络都离不开最简单的感知机的模型，

谈到机器学习，我们往往还会跟上一个词语，叫做模式识别，但是真实环境中的模式识别往往会出现各种问题。比如：

图像分割：真实场景中总是掺杂着其它物体。很难判断哪些部分属于同一个对象。对象的某些部分可以隐藏在其他对象的后面。

物体光照：像素的强度被光照强烈影响。

图像变形：物体可以以各种非仿射方式变形。例如，手写也可以有一个大的圆圈或只是一个尖头。

情景支持：物体所属类别通常由它们的使用方式来定义。例如，椅子是为了让人们坐在上面而设计的，因此它们具有各种各样的物理形状。

卷积神经网络与普通神经网络的区别在于，卷积神经网络包含了一个由卷积层和子***样层构成的特征抽取器。在卷积神经网络的卷积层中，一个神经元只与部分邻层神经元连接。在CNN的一个卷积层中，通常包含若干个特征平面(featureMap)，每个特征平面由一些矩形排列的的神经元组成，同一特征平面的神经元共享权值，这里共享的权值就是卷积核。卷积核一般以随机小数矩阵的形式初始化，在网络的训练过程中卷积核将学习得到合理的权值。共享权值（卷积核）带来的直接好处是减少网络各层之间的连接，同时又降低了过拟合的风险。子***样也叫做池化（pooling），通常有均值子***样（mean pooling）和最大值子***样（max pooling）两种形式。子***样可以看作一种特殊的卷积过程。卷积和子***样大大简化了模型复杂度，减少了模型的参数。

卷积神经网络由三部分构成。第一部分是输入层。第二部分由n个卷积层和池化层的组合组成。第三部分由一个全连结的多层感知机分类器构成。

这里举AlexNet为例：

·输入：224×224大小的图片，3通道

·第一层卷积：11×11大小的卷积核96个，每个GPU上48个。

·第一层max-pooling：2×2的核。

·第二层卷积：5×5卷积核256个，每个GPU上128个。

·第二层max-pooling：2×2的核。

·第三层卷积：与上一层是全连接，3*3的卷积核384个。分到两个GPU上个192个。

·第四层卷积：3×3的卷积核384个，两个GPU各192个。该层与上一层连接没有经过pooling层。

·第五层卷积：3×3的卷积核256个，两个GPU上个128个。

·第五层max-pooling：2×2的核。

·第一层全连接：4096维，将第五层max-pooling的输出连接成为一个一维向量，作为该层的输入。

·第二层全连接：4096维

·Softmax层：输出为1000，输出的每一维都是图片属于该类别的概率。

卷积神经网络在模式识别领域有着重要应用，当然这里只是对卷积神经网络做了最简单的讲解，卷积神经网络中仍然有很多知识，比如局部感受野，权值共享，多卷积核等内容，后续有机会再进行讲解。

传统的神经网络对于很多问题难以处理，比如你要预测句子的下一个单词是什么，一般需要用到前面的单词，因为一个句子中前后单词并不是独立的。RNN之所以称为循环神经网路，即一个序列当前的输出与前面的输出也有关。具体的表现形式为网络会对前面的信息进行记忆并应用于当前输出的计算中，即隐藏层之间的节点不再无连接而是有连接的，并且隐藏层的输入不仅包括输入层的输出还包括上一时刻隐藏层的输出。理论上，RNN能够对任何长度的序列数据进行处理。

这是一个简单的RNN的结构，可以看到隐藏层自己是可以跟自己进行连接的。

那么RNN为什么隐藏层能够看到上一刻的隐藏层的输出呢，其实我们把这个网络展开来开就很清晰了。

从上面的公式我们可以看出，循环层和全连接层的区别就是循环层多了一个权重矩阵 W。

如果反复把式2带入到式1，我们将得到：

在讲DBN之前，我们需要对DBN的基本组成单位有一定的了解，那就是RBM，受限玻尔兹曼机。

首先什么是玻尔兹曼机？

[图片上传失败...(image-d36b31-1519636788074)]

如图所示为一个玻尔兹曼机，其蓝色节点为隐层，白色节点为输入层。

玻尔兹曼机和递归神经网络相比，区别体现在以下几点：

1、递归神经网络本质是学习一个函数，因此有输入和输出层的概念，而玻尔兹曼机的用处在于学习一组数据的“内在表示”，因此其没有输出层的概念。

2、递归神经网络各节点链接为有向环，而玻尔兹曼机各节点连接成无向完全图。

而受限玻尔兹曼机是什么呢？

最简单的来说就是加入了限制，这个限制就是将完全图变成了二分图。即由一个显层和一个隐层构成，显层与隐层的神经元之间为双向全连接。

h表示隐藏层，v表示显层

在RBM中，任意两个相连的神经元之间有一个权值w表示其连接强度，每个神经元自身有一个偏置系数b（对显层神经元）和c（对隐层神经元）来表示其自身权重。

具体的公式推导在这里就不展示了

DBN是一个概率生成模型，与传统的判别模型的神经网络相对，生成模型是建立一个观察数据和标签之间的联合分布，对P(Observation|Label)和 P(Label|Observation)都做了评估，而判别模型仅仅而已评估了后者，也就是P(Label|Observation)。

DBN由多个限制玻尔兹曼机（Restricted Boltzmann Machines）层组成，一个典型的神经网络类型如图所示。这些网络被“限制”为一个可视层和一个隐层，层间存在连接，但层内的单元间不存在连接。隐层单元被训练去捕捉在可视层表现出来的高阶数据的相关性。

生成对抗网络其实在之前的帖子中做过讲解，这里在说明一下。

生成对抗网络的目标在于生成，我们传统的网络结构往往都是判别模型，即判断一个样本的真实性。而生成模型能够根据所提供的样本生成类似的新样本，注意这些样本是由计算机学习而来的。

GAN一般由两个网络组成，生成模型网络，判别模型网络。

生成模型 G 捕捉样本数据的分布，用服从某一分布（均匀分布，高斯分布等）的噪声 z 生成一个类似真实训练数据的样本，追求效果是越像真实样本越好；判别模型 D 是一个二分类器，估计一个样本来自于训练数据（而非生成数据）的概率，如果样本来自于真实的训练数据，D 输出大概率，否则，D 输出小概率。

举个例子：生成网络 G 好比***制造团伙，专门制造***，判别网络 D 好比警察，专门检测使用的货币是真币还是***，G 的目标是想方设法生成和真币一样的货币，使得 D 判别不出来，D 的目标是想方设法检测出来 G 生成的***。

传统的判别网络：

生成对抗网络：

下面展示一个cDCGAN的例子（前面帖子中写过的）

生成网络

判别网络

最终结果，使用MNIST作为初始样本，通过学习后生成的数字，可以看到学习的效果还是不错的。

本文非常简单的介绍了四种神经网络的架构，CNN，RNN，DBN，GAN。当然也仅仅是简单的介绍，并没有深层次讲解其内涵。这四种神经网络的架构十分常见，应用也十分广泛。当然关于神经网络的知识，不可能几篇帖子就讲解完，这里知识讲解一些基础知识，帮助大家快速入（zhuang）门（bi）。后面的帖子将对深度自动编码器，Hopfield 网络长短期记忆网络（LSTM）进行讲解。

(七)神经网络基本结构

目前为止，我们已经学习了2个机器学习模型。线性回归一般用来处理线性问题，逻辑回归用来处理2分类问题。虽然逻辑回归也可以处理非线性的分类问题，但是当我们有非常多的特征时，例如大于100个变量，将会有数量非常惊人的特征组合。这对于一般的逻辑回归来说需要计算的特征太多了，负荷太大。而神经网络既可以解决复杂的非线性分类问题，又可以避免庞大的计算量。

人工神经网络是由很多神经元（激活单元）构成的，神经元是神经网络的基本元素。

实际上，可以这样理解神经元工作过程，当将输入送进神经元后，神经元将输入与权值线性组合（实际上就是θ T X）输出一个线性表达式，再将这个表达式送入激活函数中，便得到了神经元的真实输出。

神经网络由好多个激活单元构成，如下图所示：

激活函数的选择是构建神经网络过程中的重要环节，下面简要介绍常用的激活函数。

(1) 线性函数( Liner Function )

(2) 斜面函数( Ramp Function )**

(3) 阈值函数( Threshold Function )**

以上3个激活函数都属于线性函数，下面介绍两个常用的非线性激活函数。

(4) S形函数( Sigmoid Function )

S形函数与双极S形函数的图像如下：

双极S形函数与S形函数主要区别在于函数的值域，双极S形函数值域是(-1,1)，而S形函数值域是(0,1)。由于S形函数与双极S形函数都是可导的 (导函数是连续函数)，因此适合用在BP神经网络中。（BP算法要求激活函数可导）

人工神经网络中，最常用的激活函数就是sigmoid函数

神经网络是由大量的神经元互联而构成的网络。根据网络中神经元的互联方式，常见网络结构主要可以分为下面3类：

前馈网络也称前向网络，是最常见的神经网络，前文提到的都是前馈网络。称之为前馈是因为它在输出和模型本身之间没有反馈，数据只能向前传送，直到到达输出层，层间没有向后的反馈信号。

反馈型神经网络是一种从输出到输入具有反馈连接的神经网络，其结构比前馈网络要复杂得多。

自组织神经网络是一种无监督学习网络。它通过自动寻找样本中的内在规律和本质属性，自组织、自适应地改变网络参数与结构。

LeNet神经网络

LeNet神经网络由深度学习三巨头之一的Yan LeCun提出，他同时也是卷积神经网络 (CNN，Convolutional Neural Networks)之父。LeNet主要用来进行手写字符的识别与分类，并在美国的银行中投入了使用。LeNet的实现确立了CNN的结构，现在神经网络中的许多内容在LeNet的网络结构中都能看到，例如卷积层，Pooling层，ReLU层。虽然LeNet早在20世纪90年代就已经提出了，但由于当时缺乏大规模的训练数据，计算机硬件的性能也较低，因此LeNet神经网络在处理复杂问题时效果并不理想。虽然LeNet网络结构比较简单，但是刚好适合神经网络的入门学习。

LeNet的神经网络结构图如下：

LeNet网络的执行流程图如下：

接下来我们来具体的一层层的分析LeNet的网络结构。首先要了解图像（输入数据）的表示。在LeNet网络中，输入图像是手写字符，图像的表示形式为二维数据矩阵，如下图所示：

LeNet网络除去输入输出层总共有六层网络。第一层是卷积层（C1层），卷积核的大小为 5\*5 ，卷积核数量为 6 个，输入图像的大小为 32*32 ，因此输入数据在进行第一层卷积之后，输出结果为大小为 28*28 ，数量为 6 个的feature map。卷积操作如下面两幅图所示：

卷积操作的过程可描述为：卷积核在图像上滑动，滑动步长为1（即每次移动一格，水平方向从左到右，到最右边之后再从最左边开始，向下移动一格，重复从左到右滑动），当卷积核与图像的一个局部块重合时进行卷积运行，卷积计算方式为图像块对应位置的数与卷积核对应位置的数相乘，然后将所有相乘结果相加即为feature map的值，相乘累加之后的结果位于卷积核中心点的位置，因此如果是 3\*3 的卷积核，feature map比原图像在水平和垂直方向上分别减少两行（上下各一行）和两列（左右各一列），因此上面图像原图为 5*5 ，卷积核为 3\*3 ，卷积结果大小为 3*3 ，即 (5-2)*(5-2) ，如果卷积核为 5*5 ，则卷积结果大小为 (5-4)*(5-4) 。上图中的卷积核为：

由于神经网络层与层的结构是通过连接来实现的，因此输入层与第一个卷积层的连接数量应为 (32-2-2)\*(32-2-2)\*(5\*5+1)\*6= 28\*28\*156 =122304 。

卷积的作用主要是：通过卷积运算，可以使原信号特征增强，并且降低噪音。在图像上卷积之后主要是减少图像噪声，提取图像的特征。例如sobel算子就是一种卷积运算，主要是提取图像的边缘特征。卷积网络能很好地适应图像的平移不变性：例如稍稍移动一幅猫的图像，它仍然是一幅猫的图像。卷积操作保留了图像块之间的空间信息，进行卷积操作的图像块之间的相对位置关系没有改变。图像在不同卷积核上进行卷积之后的效果图如下：

图像在LeNet网络上进行第一层卷积之后，结果为大小为 28*28 ，数量为 6 个的feature map。LeNet网络的第二层为pooling层（S2层），也称为下***样。在图像处理中，下***样之后，图像的大小会变为原来的 1/4 ，即水平方向和垂直方向上图像大小分别减半。Pooling有多种，这里主要介绍两种，max-pooling和***erage-pooling。max-pooling即为从四个元素中选取一个最大的来表示这四个元素，***erage-pooling则用四个元素的平均值来表示这四个元素。Pooling示意图如下：

在LeNet在进行第二层Pooling运算后，输出结果为 14*14 的 6 个feature map。其连接数为 (2*2+1) * 14 * 14 *6 = 5880 。Pooling层的主要作用就是减少数据，降低数据纬度的同时保留最重要的信息。在数据减少后，可以减少神经网络的纬度和计算量，可以防止参数太多过拟合。LeNet在这一层是将四个元素相加，然后乘以参数w再加上偏置b，然后计算sigmoid值。

LeNet第三层（C3层）也是卷积层，卷积核大小仍为 5*5 ，不过卷积核的数量变为 16 个。第三层的输入为 14*14 的 6 个feature map，卷积核大小为 5*5 ，因此卷积之后输出的feature map大小为 10*10 ，由于卷积核有 16 个，因此希望输出的feature map也为 16 个，但由于输入有 6 个feature map，因此需要进行额外的处理。输入的 6 个feature map与输出的 16 个feature map的关系图如下：

如上图所示，第一个卷积核处理前三幅输入的feature map，得出一个新的feature map。

上一层卷积运算之后，结果为大小为 10*10 的 16 个feature map，因此在第四层（S4层）进行pooling运算之后，输出结果为 16 个大小为 5*5 的feature map。与S2层进行同样的操作。

LeNet第五层是卷积层(C5层)，卷积核数目为120个，大小为 5*5 ，由于第四层输出的feature map大小为 5*5 ，因此第五层也可以看成全连接层，输出为120个大小为 1*1 的feature map。

LeNet第六层是全连接层（F6层），有84个神经元（84与输出层的设计有关），与C5层全连接。

LeNet神经网络结构在Caffe中的配置文件如下：

参考资料：

第五章神经网络

神经网络：神经网络是由具有适应性的简单单元组成的广泛并行互连的网络，它的组织能够模拟生物神经系统对真实世界物体所作出的交互反应。

神经网络中最基本的成分便是神经元模型。

M-P神经元模型：

感知机由两层神经元组成，分别为输入层、输出层。

以下是具体过程：

多层神经网络的拓扑结构如图：

如上图可知，多层网络由输入层、隐含层和输出层组成，顶层是输出层，底层是输入层，中间的便是隐含层。隐含层与输出层都具有功能神经元。

多层前馈神经网络的结构需要满足：

1、每层神经元必须与下一层完全互连

2、神经元之间不存在同层连接

3、神经元不可跨层连接

只需包含一个足够多神经元的隐层，就能以任意精度逼近任意复杂度的连续函数

BP神经网络由于学习能力太强大比较荣誉造成过拟合问题，故有两种策略来减缓过拟合的问题：

1、早停：将数据分成训练集和验证集，训练集学习，验证集评估性能，在训练过程中，若训练集的累积误差降低，而验证集的累积误差提高，则终止训练；

2、引入正则化：其基本思想是在误差目标函数中增加一个用于描述网络复杂程度的部分，有如连接权和阈值的平方和：

其中λ∈（0,1）用于对累积经验误差与网络复杂度这两项进行折中，常通过交叉验证法来估计。

神经网络的训练过程可看作一个参数寻优的过程，即寻找到适当的参数使得E最小。于是我们时常会谈及“全局最小”和“局部最小”。

1、全局最小：即全局最小解，在参数空间中，所有其他点的误差函数值均大于该点；

2、局部最小：即局部最小解，在参数空间中，其邻近的点的误差函数值均大于该点。

我们要达到局部极小点，很容易，只要满足梯度为零的点便是了，局部极小点可以有多个，但全局最小点只有一个。显然，我们追求的是全局最小，而非局部极小，于是人们通常***用以下策略来试图“跳出”局部极小，使其接近全局最小：

1、以多组不同参数值初始化多个神经网络，按标准方法训练，在迭代停止后，取其中误差最小的解作为最终参数；

2、使用随机梯度下降（在计算梯度时加入了随机因素），使得在局部最小时，计算的梯度仍可能不为0，从而可能跳出局部极小，继续进行迭代；

3、“模拟退火”技术，在每一步都以一定的概率接受比当前解更差的结果，但接受“次优解”的概率要随着迭代进行，时间推移而逐渐减低以确保算法的稳定。

1、RBF网络

单隐层前馈神经网络，使用径向基函数作为隐层神经元激活函数，输出层是对隐层神经元输出的线性组合。RBF网络可表示为：

2、ART网络

竞争型学习（神经网络中一种常用的无监督学习策略）,由比较层、识别层、识别阈值和重置模块组成。接收到比较层的输入信号后，识别层神经元相互竞争以产生获胜神经元，最简单的方式就是计算输入向量与每个识别层神经元所对应的模式类代表向量间的距离，距离小者获胜。若获胜神经元对应的代表向量与输入向量间相似度大于识别阈值，则将输入样本归为该代表向量所属类别，网络连接权也会进行更新以保证后面接收到相似的输入样本时该模式类会计算出更大的相似度，使得这样的样本能够归于一类；如果相似度不大于识别阈值，则重置模块会在识别层加一个神经元，其代表向量就设置为当前输入向量。

3、SOM网络

竞争型学习的无监督神经网络，将高维输入数据映射到低维空间（通常是二维），且保持输入数据在高维空间的拓扑结构。

4、级联相关网络

结构自适应网络。

5、Elm***络

递归神经网络。

6、Boltzmann机

基于能量的模型，其神经元分为显层与隐层，显层用于数据输入输出，隐层被理解为数据的内在表达。其神经元皆为布尔型，1为激活，0为抑制。

理论上，参数越多的模型其复杂程度越高，能完成更加复杂的学习任务。但是复杂模型的训练效率低下，容易过拟合。但由于大数据时代、云计算，计算能力大幅提升缓解了训练效率低下，而训练数据的增加则可以降低过拟合风险。

于是如何增加模型的复杂程度呢？

1、增加隐层数；

2、增加隐层神经元数.