首页网络设计正文

不属于神经网络基础结构的是（神经网络按结构可分为）

网络设计 11个月前 (02-03) 959

今天给各位分享不属于神经网络基础结构的是的知识，其中也会对神经网络按结构可分为进行解释，如果能碰巧解决你现在面临的问题，别忘了关注本站，现在开始吧！本文目录一览： 1、(七)神经网络基本结构

今天给各位分享不属于神经网络基础结构的是的知识，其中也会对神经网络按结构可分为进行解释，如果能碰巧解决你现在面临的问题，别忘了关注本站，现在开始吧！

本文目录一览：

1、(七)神经网络基本结构
2、)GoogLeNet不属于卷积神经网络算法
3、一文看懂四种基本的神经网络架构
4、神经网络相关名词解释
5、神经网络控制系统的结构有哪几种
6、cnn的基本结构不包括

(七)神经网络基本结构

目前为止，我们已经学习了2个机器学习模型。线性回归一般用来处理线性问题，逻辑回归用来处理2分类问题。虽然逻辑回归也可以处理非线性的分类问题，但是当我们有非常多的特征时，例如大于100个变量，将会有数量非常惊人的特征组合。这对于一般的逻辑回归来说需要计算的特征太多了，负荷太大。而神经网络既可以解决复杂的非线性分类问题，又可以避免庞大的计算量。

人工神经网络是由很多神经元（激活单元）构成的，神经元是神经网络的基本元素。

实际上，可以这样理解神经元工作过程，当将输入送进神经元后，神经元将输入与权值线性组合（实际上就是θ T X）输出一个线性表达式，再将这个表达式送入激活函数中，便得到了神经元的真实输出。

神经网络由好多个激活单元构成，如下图所示：

激活函数的选择是构建神经网络过程中的重要环节，下面简要介绍常用的激活函数。

(1) 线性函数( Liner Function )

(2) 斜面函数( Ramp Function )**

(3) 阈值函数( Threshold Function )**

以上3个激活函数都属于线性函数，下面介绍两个常用的非线性激活函数。

(4) S形函数( Sigmoid Function )

S形函数与双极S形函数的图像如下：

双极S形函数与S形函数主要区别在于函数的值域，双极S形函数值域是(-1,1)，而S形函数值域是(0,1)。由于S形函数与双极S形函数都是可导的 (导函数是连续函数)，因此适合用在BP神经网络中。（BP算法要求激活函数可导）

人工神经网络中，最常用的激活函数就是sigmoid函数

神经网络是由大量的神经元互联而构成的网络。根据网络中神经元的互联方式，常见网络结构主要可以分为下面3类：

前馈网络也称前向网络，是最常见的神经网络，前文提到的都是前馈网络。称之为前馈是因为它在输出和模型本身之间没有反馈，数据只能向前传送，直到到达输出层，层间没有向后的反馈信号。

反馈型神经网络是一种从输出到输入具有反馈连接的神经网络，其结构比前馈网络要复杂得多。

自组织神经网络是一种无监督学习网络。它通过自动寻找样本中的内在规律和本质属性，自组织、自适应地改变网络参数与结构。

)GoogLeNet不属于卷积神经网络算法

不属于。一般的卷积神经网络都是堆叠卷积层、BN层、池化层还有一些全连接层，而GoogLenet真正摈弃了这些传统的结构。

不属于神经网络基础结构的是（神经网络按结构可分为）

一文看懂四种基本的神经网络架构

原文链接：

更多干货就在我的个人博客欢迎关注

刚刚入门神经网络，往往会对众多的神经网络架构感到困惑，神经网络看起来复杂多样，但是这么多架构无非也就是三类，前馈神经网络，循环网络，对称连接网络，本文将介绍四种常见的神经网络，分别是CNN，RNN，DBN，GAN。通过这四种基本的神经网络架构，我们来对神经网络进行一定的了解。

神经网络是机器学习中的一种模型，是一种模仿动物神经网络行为特征，进行分布式并行信息处理的算法数学模型。这种网络依靠系统的复杂程度，通过调整内部大量节点之间相互连接的关系，从而达到处理信息的目的。

一般来说，神经网络的架构可以分为三类：

前馈神经网络：

这是实际应用中最常见的神经网络类型。第一层是输入，最后一层是输出。如果有多个隐藏层，我们称之为“深度”神经网络。他们计算出一系列改变样本相似性的变换。各层神经元的活动是前一层活动的非线性函数。

循环网络：

循环网络在他们的连接图中定向了循环，这意味着你可以按照箭头回到你开始的地方。他们可以有复杂的动态，使其很难训练。他们更具有生物真实性。

循环网络的目的使用来处理序列数据。在传统的神经网络模型中，是从输入层到隐含层再到输出层，层与层之间是全连接的，每层之间的节点是无连接的。但是这种普通的神经网络对于很多问题却无能无力。例如，你要预测句子的下一个单词是什么，一般需要用到前面的单词，因为一个句子中前后单词并不是独立的。

循环神经网路，即一个序列当前的输出与前面的输出也有关。具体的表现形式为网络会对前面的信息进行记忆并应用于当前输出的计算中，即隐藏层之间的节点不再无连接而是有连接的，并且隐藏层的输入不仅包括输入层的输出还包括上一时刻隐藏层的输出。

对称连接网络：

对称连接网络有点像循环网络，但是单元之间的连接是对称的（它们在两个方向上权重相同）。比起循环网络，对称连接网络更容易分析。这个网络中有更多的限制，因为它们遵守能量函数定律。没有隐藏单元的对称连接网络被称为“Hopfield 网络”。有隐藏单元的对称连接的网络被称为玻尔兹曼机。

其实之前的帖子讲过一些关于感知机的内容，这里再复述一下。

首先还是这张图

这是一个M-P神经元

一个神经元有n个输入，每一个输入对应一个权值w，神经元内会对输入与权重做乘法后求和，求和的结果与偏置做差，最终将结果放入激活函数中，由激活函数给出最后的输出，输出往往是二进制的，0 状态代表抑制，1 状态代表激活。

可以把感知机看作是 n 维实例空间中的超平面决策面，对于超平面一侧的样本，感知器输出 1，对于另一侧的实例输出 0，这个决策超平面方程是 w⋅x=0。那些可以被某一个超平面分割的正反样例集合称为线性可分(linearly separable)样例集合，它们就可以使用图中的感知机表示。

与、或、非问题都是线性可分的问题，使用一个有两输入的感知机能容易地表示，而异或并不是一个线性可分的问题，所以使用单层感知机是不行的，这时候就要使用多层感知机来解决疑惑问题了。

如果我们要训练一个感知机，应该怎么办呢？

我们会从随机的权值开始，反复地应用这个感知机到每个训练样例，只要它误分类样例就修改感知机的权值。重复这个过程，直到感知机正确分类所有的样例。每一步根据感知机训练法则来修改权值，也就是修改与输入 xi 对应的权 wi，法则如下：

这里 t 是当前训练样例的目标输出，o 是感知机的输出，η 是一个正的常数称为学习速率。学习速率的作用是缓和每一步调整权的程度，它通常被设为一个小的数值（例如 0.1），而且有时会使其随着权调整次数的增加而衰减。

多层感知机，或者说是多层神经网络无非就是在输入层与输出层之间加了多个隐藏层而已，后续的CNN，DBN等神经网络只不过是将重新设计了每一层的类型。感知机可以说是神经网络的基础，后续更为复杂的神经网络都离不开最简单的感知机的模型，

谈到机器学习，我们往往还会跟上一个词语，叫做模式识别，但是真实环境中的模式识别往往会出现各种问题。比如：

图像分割：真实场景中总是掺杂着其它物体。很难判断哪些部分属于同一个对象。对象的某些部分可以隐藏在其他对象的后面。

物体光照：像素的强度被光照强烈影响。

图像变形：物体可以以各种非仿射方式变形。例如，手写也可以有一个大的圆圈或只是一个尖头。

情景支持：物体所属类别通常由它们的使用方式来定义。例如，椅子是为了让人们坐在上面而设计的，因此它们具有各种各样的物理形状。

卷积神经网络与普通神经网络的区别在于，卷积神经网络包含了一个由卷积层和子***样层构成的特征抽取器。在卷积神经网络的卷积层中，一个神经元只与部分邻层神经元连接。在CNN的一个卷积层中，通常包含若干个特征平面(featureMap)，每个特征平面由一些矩形排列的的神经元组成，同一特征平面的神经元共享权值，这里共享的权值就是卷积核。卷积核一般以随机小数矩阵的形式初始化，在网络的训练过程中卷积核将学习得到合理的权值。共享权值（卷积核）带来的直接好处是减少网络各层之间的连接，同时又降低了过拟合的风险。子***样也叫做池化（pooling），通常有均值子***样（mean pooling）和最大值子***样（max pooling）两种形式。子***样可以看作一种特殊的卷积过程。卷积和子***样大大简化了模型复杂度，减少了模型的参数。

卷积神经网络由三部分构成。第一部分是输入层。第二部分由n个卷积层和池化层的组合组成。第三部分由一个全连结的多层感知机分类器构成。

这里举AlexNet为例：

·输入：224×224大小的图片，3通道

·第一层卷积：11×11大小的卷积核96个，每个GPU上48个。

·第一层max-pooling：2×2的核。

·第二层卷积：5×5卷积核256个，每个GPU上128个。

·第二层max-pooling：2×2的核。

·第三层卷积：与上一层是全连接，3*3的卷积核384个。分到两个GPU上个192个。

·第四层卷积：3×3的卷积核384个，两个GPU各192个。该层与上一层连接没有经过pooling层。

·第五层卷积：3×3的卷积核256个，两个GPU上个128个。

·第五层max-pooling：2×2的核。

·第一层全连接：4096维，将第五层max-pooling的输出连接成为一个一维向量，作为该层的输入。

·第二层全连接：4096维

·Softmax层：输出为1000，输出的每一维都是图片属于该类别的概率。

卷积神经网络在模式识别领域有着重要应用，当然这里只是对卷积神经网络做了最简单的讲解，卷积神经网络中仍然有很多知识，比如局部感受野，权值共享，多卷积核等内容，后续有机会再进行讲解。

传统的神经网络对于很多问题难以处理，比如你要预测句子的下一个单词是什么，一般需要用到前面的单词，因为一个句子中前后单词并不是独立的。RNN之所以称为循环神经网路，即一个序列当前的输出与前面的输出也有关。具体的表现形式为网络会对前面的信息进行记忆并应用于当前输出的计算中，即隐藏层之间的节点不再无连接而是有连接的，并且隐藏层的输入不仅包括输入层的输出还包括上一时刻隐藏层的输出。理论上，RNN能够对任何长度的序列数据进行处理。

这是一个简单的RNN的结构，可以看到隐藏层自己是可以跟自己进行连接的。

那么RNN为什么隐藏层能够看到上一刻的隐藏层的输出呢，其实我们把这个网络展开来开就很清晰了。

从上面的公式我们可以看出，循环层和全连接层的区别就是循环层多了一个权重矩阵 W。

如果反复把式2带入到式1，我们将得到：

在讲DBN之前，我们需要对DBN的基本组成单位有一定的了解，那就是RBM，受限玻尔兹曼机。

首先什么是玻尔兹曼机？

[图片上传失败...(image-d36b31-1519636788074)]

如图所示为一个玻尔兹曼机，其蓝色节点为隐层，白色节点为输入层。

玻尔兹曼机和递归神经网络相比，区别体现在以下几点：

1、递归神经网络本质是学习一个函数，因此有输入和输出层的概念，而玻尔兹曼机的用处在于学习一组数据的“内在表示”，因此其没有输出层的概念。

2、递归神经网络各节点链接为有向环，而玻尔兹曼机各节点连接成无向完全图。

而受限玻尔兹曼机是什么呢？

最简单的来说就是加入了限制，这个限制就是将完全图变成了二分图。即由一个显层和一个隐层构成，显层与隐层的神经元之间为双向全连接。

h表示隐藏层，v表示显层

在RBM中，任意两个相连的神经元之间有一个权值w表示其连接强度，每个神经元自身有一个偏置系数b（对显层神经元）和c（对隐层神经元）来表示其自身权重。

具体的公式推导在这里就不展示了

DBN是一个概率生成模型，与传统的判别模型的神经网络相对，生成模型是建立一个观察数据和标签之间的联合分布，对P(Observation|Label)和 P(Label|Observation)都做了评估，而判别模型仅仅而已评估了后者，也就是P(Label|Observation)。

DBN由多个限制玻尔兹曼机（Restricted Boltzmann Machines）层组成，一个典型的神经网络类型如图所示。这些网络被“限制”为一个可视层和一个隐层，层间存在连接，但层内的单元间不存在连接。隐层单元被训练去捕捉在可视层表现出来的高阶数据的相关性。

生成对抗网络其实在之前的帖子中做过讲解，这里在说明一下。

生成对抗网络的目标在于生成，我们传统的网络结构往往都是判别模型，即判断一个样本的真实性。而生成模型能够根据所提供的样本生成类似的新样本，注意这些样本是由计算机学习而来的。

GAN一般由两个网络组成，生成模型网络，判别模型网络。

生成模型 G 捕捉样本数据的分布，用服从某一分布（均匀分布，高斯分布等）的噪声 z 生成一个类似真实训练数据的样本，追求效果是越像真实样本越好；判别模型 D 是一个二分类器，估计一个样本来自于训练数据（而非生成数据）的概率，如果样本来自于真实的训练数据，D 输出大概率，否则，D 输出小概率。

举个例子：生成网络 G 好比*** 制造团伙，专门制造*** ，判别网络 D 好比警察，专门检测使用的货币是真币还是*** ，G 的目标是想方设法生成和真币一样的货币，使得 D 判别不出来，D 的目标是想方设法检测出来 G 生成的*** 。

传统的判别网络：

生成对抗网络：

下面展示一个cDCGAN的例子（前面帖子中写过的）

生成网络

判别网络

最终结果，使用MNIST作为初始样本，通过学习后生成的数字，可以看到学习的效果还是不错的。

本文非常简单的介绍了四种神经网络的架构，CNN，RNN，DBN，GAN。当然也仅仅是简单的介绍，并没有深层次讲解其内涵。这四种神经网络的架构十分常见，应用也十分广泛。当然关于神经网络的知识，不可能几篇帖子就讲解完，这里知识讲解一些基础知识，帮助大家快速入（zhuang）门（bi）。后面的帖子将对深度自动编码器，Hopfield 网络长短期记忆网络（LSTM）进行讲解。

神经网络相关名词解释

很多人认为深度学习很枯燥，大部分情况是因为对深度学习的学术词语，特别是专有名词很困惑，即便对相关从业者，亦很难深入浅出地解释这些词语的含义。

相信读过此文的圈友，会对深度学习有个全新的认识，机器人圈希望可以为圈友的深度学习之路起到一些辅助作用。

人工智能，深度学习，机器学习—无论你在做什么，如果你对它不是很了解的话—去学习它。否则的话不用三年你就跟不上时代的潮流了。——马克.库班

马克.库班的这个观点可能听起来很极端——但是它所传达的信息是完全正确的！我们正处于一场革命的旋涡之中——一场由大数据和计算能力引起的革命。

只需要一分钟，我们来想象一下，在20世纪初，如果一个人不了解电力，他/她会觉得如何？你会习惯于以某种特定的方式来做事情，日复一日，年复一年，而你周围的一切事情都在发生变化，一件需要很多人才能完成的事情仅依靠一个人和电力就可以轻松搞定，而我们今天正以机器学习和深度学习的方式在经历一场相似的旅程。

所以，如果你还没有探索或理解深度学习的神奇力量——那你应该从今天就开始进入这一领域。

与主题相关的术语

为了帮助你了解各种术语，我已经将它们分成3组。如果你正在寻找特定术语，你可以跳到该部分。如果你是这个领域的新手，那我建议你按照我写的顺序来通读它们。

1.神经网络基础（Basics of Neural Networks） ——常用激活函数（Common Activation Functions）

2.卷积神经网络（Convolutional Neural Networks）

3.循环神经网络（Recurrent Neural Networks）

神经网络基础

1）神经元（Neuron） ——就像形成我们大脑基本元素的神经元一样，神经元形成神经网络的基本结构。想象一下，当我们得到新信息时我们该怎么做。当我们获取信息时，我们一般会处理它，然后生成一个输出。类似地，在神经网络的情况下，神经元接收输入，处理它并产生输出，而这个输出被发送到其他神经元用于进一步处理，或者作为最终输出进行输出。

2）权重（Weights） ——当输入进入神经元时，它会乘以一个权重。例如，如果一个神经元有两个输入，则每个输入将具有分配给它的一个关联权重。我们随机初始化权重，并在模型训练过程中更新这些权重。训练后的神经网络对其输入赋予较高的权重，这是它认为与不那么重要的输入相比更为重要的输入。为零的权重则表示特定的特征是微不足道的。

让我们***设输入为a，并且与其相关联的权重为W1，那么在通过节点之后，输入变为a * W1

3）偏差（Bias） ——除了权重之外，另一个被应用于输入的线性分量被称为偏差。它被加到权重与输入相乘的结果中。基本上添加偏差的目的是来改变权重与输入相乘所得结果的范围的。添加偏差后，结果将看起来像a* W1 +偏差。这是输入变换的最终线性分量。

4）激活函数（Activation Function） ——一旦将线性分量应用于输入，将会需要应用一个非线性函数。这通过将激活函数应用于线性组合来完成。激活函数将输入信号转换为输出信号。应用激活函数后的输出看起来像f（a * W1 + b），其中f（）就是激活函数。

在下图中，我们将“n”个输入给定为X1到Xn而与其相应的权重为Wk1到Wkn。我们有一个给定值为bk的偏差。权重首先乘以与其对应的输入，然后与偏差加在一起。而这个值叫做u。

U =ΣW* X+ b

激活函数被应用于u，即 f(u)，并且我们会从神经元接收最终输出，如yk = f（u）。

常用的激活函数

最常用的激活函数就是Sigmoid，ReLU和softmax

a）Sigmoid ——最常用的激活函数之一是Sigmoid，它被定义为：

Sigmoid变换产生一个值为0到1之间更平滑的范围。我们可能需要观察在输入值略有变化时输出值中发生的变化。光滑的曲线使我们能够做到这一点，因此优于阶跃函数。

b）ReLU（整流线性单位） ——与Sigmoid函数不同的是，最近的网络更喜欢使用ReLu激活函数来处理隐藏层。该函数定义为：

当X0时，函数的输出值为X；当X=0时，输出值为0。函数图如下图所示：

使用ReLU函数的最主要的好处是对于大于0的所有输入来说，它都有一个不变的导数值。常数导数值有助于网络训练进行得更快。

c） Softmax ——Softmax激活函数通常用于输出层，用于分类问题。它与sigmoid函数是很类似的，唯一的区别就是输出被归一化为总和为1。Sigmoid函数将发挥作用以防我们有一个二进制输出，但是如果我们有一个多类分类问题，softmax函数使为每个类分配值这种操作变得相当简单，而这可以将其解释为概率。

以这种方式来操作的话，我们很容易看到——***设你正在尝试识别一个可能看起来像8的6。该函数将为每个数字分配值如下。我们可以很容易地看出，最高概率被分配给6，而下一个最高概率分配给8，依此类推……

5）神经网络（Neural Network） ——神经网络构成了深度学习的支柱。神经网络的目标是找到一个未知函数的近似值。它由相互联系的神经元形成。这些神经元具有权重和在网络训练期间根据错误来进行更新的偏差。激活函数将非线性变换置于线性组合，而这个线性组合稍后会生成输出。激活的神经元的组合会给出输出值。

一个很好的神经网络定义——

“神经网络由许多相互关联的概念化的人造神经元组成，它们之间传递相互数据，并且具有根据网络”经验“调整的相关权重。神经元具有激活阈值，如果通过其相关权重的组合和传递给他们的数据满足这个阈值的话，其将被解雇;发射神经元的组合导致“学习”。

6）输入/输出/隐藏层（Input / Output / Hidden Layer） ——正如它们名字所代表的那样，输入层是接收输入那一层，本质上是网络的第一层。而输出层是生成输出的那一层，也可以说是网络的最终层。处理层是网络中的隐藏层。这些隐藏层是对传入数据执行特定任务并将其生成的输出传递到下一层的那些层。输入和输出层是我们可见的，而中间层则是隐藏的。

7）MLP（多层感知器） ——单个神经元将无法执行高度复杂的任务。因此，我们使用堆栈的神经元来生成我们所需要的输出。在最简单的网络中，我们将有一个输入层、一个隐藏层和一个输出层。每个层都有多个神经元，并且每个层中的所有神经元都连接到下一层的所有神经元。这些网络也可以被称为完全连接的网络。

8）正向传播（Forward Propagation） ——正向传播是指输入通过隐藏层到输出层的运动。在正向传播中，信息沿着一个单一方向前进。输入层将输入提供给隐藏层，然后生成输出。这过程中是没有反向运动的。

9）成本函数（Cost Function） ——当我们建立一个网络时，网络试图将输出预测得尽可能靠近实际值。我们使用成本/损失函数来衡量网络的准确性。而成本或损失函数会在发生错误时尝试惩罚网络。

我们在运行网络时的目标是提高我们的预测精度并减少误差，从而最大限度地降低成本。最优化的输出是那些成本或损失函数值最小的输出。

如果我将成本函数定义为均方误差，则可以写为：

C= 1/m ∑(y–a)^2，

其中m是训练输入的数量，a是预测值，y是该特定示例的实际值。

学习过程围绕最小化成本来进行。

10）梯度下降（Gradient Descent） ——梯度下降是一种最小化成本的优化算法。要直观地想一想，在爬山的时候，你应该会***取小步骤，一步一步走下来，而不是一下子跳下来。因此，我们所做的就是，如果我们从一个点x开始，我们向下移动一点，即Δh，并将我们的位置更新为x-Δh，并且我们继续保持一致，直到达到底部。考虑最低成本点。

在数学上，为了找到函数的局部最小值，我们通常***取与函数梯度的负数成比例的步长。

11）学习率（Learning Rate） ——学习率被定义为每次迭代中成本函数中最小化的量。简单来说，我们下降到成本函数的最小值的速率是学习率。我们应该非常仔细地选择学习率，因为它不应该是非常大的，以至于最佳解决方案被错过，也不应该非常低，以至于网络需要融合。

12）反向传播（Backpropagation） ——当我们定义神经网络时，我们为我们的节点分配随机权重和偏差值。一旦我们收到单次迭代的输出，我们就可以计算出网络的错误。然后将该错误与成本函数的梯度一起反馈给网络以更新网络的权重。最后更新这些权重，以便减少后续迭代中的错误。使用成本函数的梯度的权重的更新被称为反向传播。

在反向传播中，网络的运动是向后的，错误随着梯度从外层通过隐藏层流回，权重被更新。

13）批次（Batches） ——在训练神经网络的同时，不用一次发送整个输入，我们将输入分成几个随机大小相等的块。与整个数据集一次性馈送到网络时建立的模型相比，批量训练数据使得模型更加广义化。

14）周期（Epochs） ——周期被定义为向前和向后传播中所有批次的单次训练迭代。这意味着1个周期是整个输入数据的单次向前和向后传递。

你可以选择你用来训练网络的周期数量，更多的周期将显示出更高的网络准确性，然而，网络融合也需要更长的时间。另外，你必须注意，如果周期数太高，网络可能会过度拟合。

15）丢弃（Dropout） ——Dropout是一种正则化技术，可防止网络过度拟合套。顾名思义，在训练期间，隐藏层中的一定数量的神经元被随机地丢弃。这意味着训练发生在神经网络的不同组合的神经网络的几个架构上。你可以将Dropout视为一种综合技术，然后将多个网络的输出用于产生最终输出。

16）批量归一化（Batch Normalization） ——作为一个概念，批量归一化可以被认为是我们在河流中设定为特定检查点的水坝。这样做是为了确保数据的分发与希望获得的下一层相同。当我们训练神经网络时，权重在梯度下降的每个步骤之后都会改变，这会改变数据的形状如何发送到下一层。

但是下一层预期分布类似于之前所看到的分布。所以我们在将数据发送到下一层之前明确规范化数据。

17）滤波器（Filters） ——CNN中的滤波器与加权矩阵一样，它与输入图像的一部分相乘以产生一个回旋输出。我们***设有一个大小为28 * 28的图像，我们随机分配一个大小为3 * 3的滤波器，然后与图像不同的3 * 3部分相乘，形成所谓的卷积输出。滤波器尺寸通常小于原始图像尺寸。在成本最小化的反向传播期间，滤波器值被更新为重量值。

参考一下下图，这里filter是一个3 * 3矩阵：

与图像的每个3 * 3部分相乘以形成卷积特征。

18）卷积神经网络（CNN） ——卷积神经网络基本上应用于图像数据。***设我们有一个输入的大小（28 * 28 * 3），如果我们使用正常的神经网络，将有2352（28 * 28 * 3）参数。并且随着图像的大小增加参数的数量变得非常大。我们“卷积”图像以减少参数数量（如上面滤波器定义所示）。当我们将滤波器滑动到输入体积的宽度和高度时，将产生一个二维激活图，给出该滤波器在每个位置的输出。我们将沿深度尺寸堆叠这些激活图，并产生输出量。

你可以看到下面的图，以获得更清晰的印象。

19）池化（Pooling） ——通常在卷积层之间定期引入池层。这基本上是为了减少一些参数，并防止过度拟合。最常见的池化类型是使用MAX操作的滤波器尺寸（2,2）的池层。它会做的是，它将占用原始图像的每个4 * 4矩阵的最大值。

你还可以使用其他操作（如平均池）进行池化，但是最大池数量在实践中表现更好。

20）填充（Padding） ——填充是指在图像之间添加额外的零层，以使输出图像的大小与输入相同。这被称为相同的填充。

在应用滤波器之后，在相同填充的情况下，卷积层具有等于实际图像的大小。

有效填充是指将图像保持为具有实际或“有效”的图像的所有像素。在这种情况下，在应用滤波器之后，输出的长度和宽度的大小在每个卷积层处不断减小。

21）数据增强（Data Augmentation） ——数据增强是指从给定数据导出的新数据的添加，这可能被证明对预测有益。例如，如果你使光线变亮，可能更容易在较暗的图像中看到猫，或者例如，数字识别中的9可能会稍微倾斜或旋转。在这种情况下，旋转将解决问题并提高我们的模型的准确性。通过旋转或增亮，我们正在提高数据的质量。这被称为数据增强。

循环神经网络

22）循环神经元（Recurrent Neuron） ——循环神经元是在T时间内将神经元的输出发送回给它。如果你看图，输出将返回输入t次。展开的神经元看起来像连接在一起的t个不同的神经元。这个神经元的基本优点是它给出了更广义的输出。

23）循环神经网络（RNN） ——循环神经网络特别用于顺序数据，其中先前的输出用于预测下一个输出。在这种情况下，网络中有循环。隐藏神经元内的循环使他们能够存储有关前一个单词的信息一段时间，以便能够预测输出。隐藏层的输出在t时间戳内再次发送到隐藏层。展开的神经元看起来像上图。只有在完成所有的时间戳后，循环神经元的输出才能进入下一层。发送的输出更广泛，以前的信息保留的时间也较长。

然后根据展开的网络将错误反向传播以更新权重。这被称为通过时间的反向传播（BPTT）。

24）消失梯度问题（Vanishing Gradient Problem） ——激活函数的梯度非常小的情况下会出现消失梯度问题。在权重乘以这些低梯度时的反向传播过程中，它们往往变得非常小，并且随着网络进一步深入而“消失”。这使得神经网络忘记了长距离依赖。这对循环神经网络来说是一个问题，长期依赖对于网络来说是非常重要的。

这可以通过使用不具有小梯度的激活函数ReLu来解决。

25）激增梯度问题（Exploding Gradient Problem） ——这与消失的梯度问题完全相反，激活函数的梯度过大。在反向传播期间，它使特定节点的权重相对于其他节点的权重非常高，这使得它们不重要。这可以通过剪切梯度来轻松解决，使其不超过一定值。