深度学习以其学习器的计算深度命名,即需要多少个连续的计算层。因此,学习者是深度学习方法的定义特征,与联结主义领域形成了密切的联系。联结主义专注于人工神经网络及其许多变体的发展。这些学习器是受神经启发的互联虚拟神经元系统。由于它们在深度学习方法中的突出地位,模型讨论的其余部分集中在人工神经网络的变体上。
数学讨论不是本次审查的目的;然而,这个讨论的大部分内容都受到科学家们的深度学习的启发,其中包含广泛的严格对待深度学习方法。尽管学习器架构存在巨大差异,但评估和优化过程仍由几种方法主导。在神经网络的情况下,评估步骤通常是一个简单的函数,用于评估学习器跨批次或所有数据的表现;两个常见的例子是均方根偏差或交叉熵成本函数。
神经网络通常采用的优化是强大的反向传播算法。这种方法将梯度从输出反向传播到输入,并使用其中包含的信息改变每个非输入节点的参数,从而降低预测值和真实值。为了突出学习器网络如此不同的原因,现在讨论三种主要架构。深度神经网络。深度神经网络是典型的深度学习架构。深度神经网络包含三种独立的类型,输入、隐藏和输出。每层由一组神经元组成,在全连接系统中,每个隐藏层神经元都连接到前一层和后一层的所有神经元。
网络的“布线”以及每个神经元执行的功能通常被称为网络的拓扑,网络的性能高度依赖于所选择的拓扑。输入层中的每个神经元从每个数据点接收单个实数,因此表示为固定大小的向量。深度神经网络经常与扩展连接指纹表示一起使用,其中表示存在特定的子结构特征,它可能对应于或可能不对应于可识别的功能组,而零表示不存在。隐藏层和输出层中的神经元具有两种类型的可训练参数。
每个传入连接都有一个与之相关的标量权重,该权重在矩阵中表示,然后,每个神经元都有自己的标量项,称为偏差,收集到每一层的向量中。通过将输入向量与权重矩阵相乘以产生输出向量来计算前向数据传递。然后将偏差添加到此输出向量,然后通过激活函数传递。此功能至关重要,因为它允许网络对非线性现象进行建模。最简单和最广泛使用的激活函数之一是整流线性单元,它简单地将任何非正数映射到零并返回任何正数不变。
输出层通常是单个实数,表示网络是为回归而构建的,或者是包含输入被分类为某些对象的可能性的向量,因此是一个分类网络。这允许网络在类型上产生分布,表明最有可能。利用矩阵运算,这些模型可以利用图形处理单元来大幅加速计算。给出了该矩阵乘法过程的总结。这些网络中的学习涉及反向传播算法,该算法应用微积分中的多元链式法则来有效地计算网络中每个可训练参数的梯度,然后使用这些以降低成本函数的方式改变参数。深度神经网络在解决化学问题方面非常有效。
计算机视觉是一个研究领域,旨在使用计算机以类似于人类的方式进行观察。卷积神经网络是专门用于与网格状数据进行交互的网络。由于分子通常不表示为2D网格,因此化学家专注于这种方法的一种变体:分子图上的图卷积神经网络。分子图具有关键优势:它们绕过了使用3D表示的构象挑战,同时由于它们的成对定义而保持旋转和平移的不变性。近年来,已经开发了各种各样的分子图实现。