前言

书接上回，我们继续学习 lenet5.

V. 多对象识别：启发式过分割

手写识别中最困难的问题之一是不仅要识别孤立的字符，而且要识别字符串，例如邮政编码、支票金额或单词。

由于大多数识别器只能一次处理一个字符，因此我们必须首先将字符串分割成单个字符图像。

然而，几乎不可能设计图像分析技术，可以将自然书写的字符序列无误地分割成规范的字符。

自动语音识别的最近历史提醒我们 [28]，[67]，通过优化全局标准（在词或句子级别）来训练识别器要比仅仅在手动分割的音素或其他单位上训练它要好得多。

几项最近的研究已经表明，对于手写识别 [38]，同样适用：优化单词级标准优于仅仅在预分割字符上训练识别器，因为识别器不仅可以学习识别单个字符，还可以拒绝错误分割的字符，从而最小化整体单词错误。

本节和下一节详细描述了使用简单的 GTN 来解决阅读字符串（例如单词或支票金额）的问题的一个简单示例。

该方法避免了在传统系统上训练时通常需要手动验证分割结果的昂贵且不可靠的任务，这些系统是在单独标记的字符图像上进行训练的。

A. 分割图

现在一种经典的单词分割和识别方法被称为启发式过分割（Heuristic Over-Segmentation）[68]，[69]。

与其他分割方法相比，其主要优势在于通过考虑大量不同的分割方式来避免对分割做出硬性决定。

其思想是利用启发式图像处理技术找到单词或字符串的候选切割点，然后使用识别器对生成的备选分割进行评分。该过程如图16所示。

首先，生成多个候选切割点。可以通过定位垂直投影剖面的最小值或单词的上下轮廓之间的距离的最小值来找到良好的切割点候选位置。

更好的分割启发式算法在第十节中描述。

切割点生成启发式算法被设计为生成比必要更多的切割点，希望“正确”的切割点集会被包括在内。

一旦生成了切割点，备选分割最好用一个称为分割图的图来表示。

分割图是一个有向无环图（DAG），具有起始节点和结束节点。每个内部节点与分割算法产生的一个候选切割点相关联。源节点和目标节点之间的每个弧与一个图像相关联，该图像包含与源节点关联的切割点和与目标节点关联的切割点之间的所有墨迹。如果分割器决定两个相应的切割点之间的墨迹可以形成一个候选字符，则在两个节点之间创建一条弧。

通常，每个单独的墨迹都会与一个弧相关联。连续墨迹对也会被包括进来，除非它们之间有很大的间隙，这清楚地表明它们属于不同的字符。

图中的每条完整路径只包含每个墨迹一次。每条路径对应于一种将墨迹组合在一起形成字符的不同方式。

F17 F18

F17-F18

B. 识别变换器和维特比变换器

图17显示了用于识别字符字符串的简单GTN。它由两个图形变换器组成，称为识别变换器Trec和维特比变换器Tvit。识别变换器的目标是生成一个图形，称为解释图或识别图Gint，其中包含输入的所有可能分割的所有可能解释。Gint中的每条路径表示输入的一个特定分割的一个可能解释。维特比变换器的作用是从解释图中提取最佳解释。

识别变换器Trec以分割图Gseg作为输入，并对与分割图中每个弧相关联的图像应用单个字符的识别器。解释图Gint的结构几乎与分割图相同，只是每个弧被替换为从同一节点到同一节点的一组弧。在这组弧中，对于Gseg中对应弧相关联的图像的每个可能类别，都有一个弧。如图18所示，每个弧附有一个类别标签，以及由识别器产生的图像属于该类别的惩罚。如果分割器已经计算了候选段的惩罚，则将这些惩罚与字符识别器计算的惩罚结合起来，以获得解释图上的弧的惩罚。尽管合并不同性质的惩罚似乎是高度启发式的，但GTN训练过程将调整惩罚，并利用这种组合。解释图中的每条路径对应于输入单词的一种可能解释。特定分割的特定解释的惩罚由解释图中相应路径上的所有弧的惩罚之和给出。独立于分割计算解释的惩罚需要将具有该解释的所有路径的惩罚组合起来。关于组合平行路径的惩罚的适当规则在第VI-C节中给出。维特比变换器生成一个具有单个路径的图Gvit。此路径是解释图中累积惩罚最小的路径。通过读取维特比变换器提取的图Gvit上的弧的标签，可以产生识别的结果。维特比变换器的名称来自著名的维特比算法[70]，这是动态规划原理在高效地寻找图中最短路径的一种应用。让ci表示与弧i相关联的惩罚，源节点为si，目标节点为di（请注意，两个节点之间可以有多个弧）。在解释图中，弧也有一个标签li。维特比算法的步骤如下。每个节点n都与累积维特比惩罚vn相关联。这些累积惩罚以满足解释图（它是有向且无环的）定义的偏序的任何顺序计算。起始节点初始化为累积惩罚vstart = 0。

从其父节点的v值通过上游弧 U_n = {arc in destinction d_i = n}：

v_n = min (c_i + v_s_i ) 其中 i 属于 U_n (10)

此外，对于最小化右侧的每个节点n的i值进行标注mn，最小化进入弧。

当达到结束节点时，我们得到vend，即具有最小总惩罚的路径的总惩罚。

我们将这种惩罚称为维特比惩罚，并将这个弧和节点的序列称为维特比路径。

要获取带有节点n1：：：nT和弧i1：：：iT-1的维特比路径，我们从这些节点和弧开始回溯，方法如下：从nT =结束节点开始，并递归使用最小化进入弧：it = mnt+1，并nt = sit，直到到达起始节点。

然后，可以从维特比路径的弧中读取标签。

VI. 图形变换器网络的全局训练

前一节描述了使用启发式过分割识别字符串的过程，假设识别器经过训练，以便对正确分割的字符的正确类别标签给出低惩罚，对正确分割的字符的错误类别给出高惩罚，并对形式不良的字符的所有类别给出高惩罚。

本节将解释如何在字符串级别对系统进行训练，以实现上述目标，而无需手动标记字符片段。这种训练将使用稍微与前一节描述的识别架构略有不同的GTN进行。

在许多应用中，关于对每个模块期望得到什么有足够的先验知识，以便单独对它们进行训练。

例如，使用启发式过分割，可以单独标记单个字符图像，并对其进行字符识别器的训练，但是可能难以获取一组适当的非字符图像，以训练模型拒绝错误分割的候选对象。尽管单独的训练简单，但它需要额外的监督信息，这通常是缺失或不完整的（正确的分割和错误候选分段的标签）。此外，可以证明单独训练是次优的。

下一节将描述用于在字符串级别训练基于GTN的手写识别器的三种不同的基于梯度的方法：维特比训练、辨别式维特比训练、前向训练和辨别式前向训练。

最后一个是将MAP标准推广到基于图形的系统的一般化，MAP标准是在第II-C节中介绍的。

辨别式前向训练在某种程度上类似于用于训练语音识别中的HMM的最大互信息准则。

然而，我们的基本原理与经典的不同。我们没有借助概率解释，而是表明在基于梯度的学习方法中，辨别式训练是错误纠正学习普遍原理的一个简单实例。

用于基于图形的序列识别系统的训练方法，例如HMM，在语音识别的背景下已被广泛研究。

这些方法要求系统基于数据的概率生成模型，这些模型提供可能输入序列空间上的标准化似然。

流行的HMM学习方法，例如Baum-Welsh算法，依赖于这种标准化。当集成非生成模型，例如神经网络时，标准化无法保留。在这种情况下必须使用其他技术，例如辨别式训练方法。有几位作者提出了这样的方法，以在单词或句子级别训练神经网络/HMM语音识别器。

其他全局可训练的序列识别系统通过不使用基于图形的技术来避免统计建模的困难。最好的例子是循环神经网络（RNN）。

不幸的是，尽管早期的热情，使用基于梯度的技术训练RNN在实践中证明非常困难。

下面介绍的GTN技术简化和推广了用于语音识别的全局训练方法。

A. 维特比训练

在识别过程中，我们使用维特比算法选择解释图中具有最低惩罚的路径。

理想情况下，我们希望这条具有最低惩罚的路径尽可能与正确的标签序列相关联。因此，一个明显的损失函数是训练集上与具有最低惩罚的路径相关联的正确标签序列的路径惩罚的平均值。训练的目标是找到一组识别器参数（如果识别器是神经网络，则为权重），使得这个“正确”的最低惩罚路径的平均惩罚最小化。这个损失函数的梯度可以通过反向传播计算，通过图19中所示的GTN架构。这个训练架构与前一节描述的识别架构几乎相同，唯一的区别是在解释图和维特比变换器之间插入了一个额外的图变换器，称为路径选择器。这个变换器将解释图和期望的标签序列作为输入。它从解释图中提取包含正确（期望）标签序列的路径。它的输出图Gc称为约束解释图（在HMM文献中也称为强制对齐），包含与正确标签序列相对应的所有路径。然后，约束解释图被发送到维特比变换器，该变换器产生一个带有单条路径的图Gcvit。这条路径是具有最低惩罚的“正确”路径。最后，路径评分变换器接收Gcvit，并简单地通过将路径上的惩罚相加来计算其累积惩罚Ccvit。

这个GTN的输出是当前模式的损失函数：

Evit = Ccvit (11)

上述系统所需的唯一标签信息是期望字符标签的序列。监督者不需要对正确的分割有任何知识，因为它从解释图中选择出产生最低惩罚的分割之一。

现在描述通过维特比训练GTN反向传播梯度的过程。如第IV节所述，必须通过GTN的所有模块向后传播梯度，以便计算前面模块的梯度，然后调整它们的参数。

通过路径评分器反向传播梯度是相当直接的。损失函数对于约束维特比路径Gcvit上的各个惩罚的偏导数等于1，因为损失函数仅仅是这些惩罚的总和。通过维特比变换器进行反向传播同样简单。Evit对于约束图Gc上的弧的惩罚的偏导数对于出现在约束维特比路径Gcvit中的那些弧是1，对于那些不出现的弧是0。为什么可以通过本质上是离散函数的维特比变换器进行反向传播？

答案是维特比变换器不过是一组最小函数和加法器的组合。在第IV节中已经表明，可以通过最小函数进行反向传播而不会产生不利影响。通过路径选择器变换器的反向传播类似于通过维特比变换器的反向传播。出现在Gc中的Gint中的弧与Gc中的对应弧具有相同的梯度，即1或0，取决于弧是否出现在Gcvit中。其他弧，即没有在Gc中有对应物的弧，因为它们不包含正确的标签，所以梯度为0。在通过识别变换器的正向传播期间，为分割图中的每个弧创建了单个字符识别器的实例。识别器实例的状态被存储。由于Gint中的每个弧惩罚都是由识别器实例的单个输出产生的，因此现在对于每个识别器实例的每个

输出，我们都有一个梯度（1或0）。具有非零梯度的识别器输出是正确答案的一部分，因此它们的值将被推下去。现在可以通过每个识别器实例将梯度传播回每个识别器实例。对于每个识别器实例，我们得到一个损失函数相对于识别器实例参数的偏导数向量。所有识别器实例共享相同的参数向量，因为它们只是彼此的克隆，因此损失函数相对于识别器参数向量的完整梯度简单地是每个识别器实例产生的梯度向量的总和。尽管维特比训练的形式不同，但通常在基于HMM的语音识别系统中使用 [28]。类似的算法已经应用于将神经网络与时间对齐集成的语音识别系统 [71] [72] [76]或混合神经网络/HMM系统 [29] [74] [75]。尽管这个训练架构看起来简单而令人满意，但它有一个潜在的严重缺陷。这个问题在第II-C节中已经提到过。如果识别器是一个简单的具有sigmoid输出单元的神经网络，则损失函数的最小值是在识别器总是给出正确答案时达到的，而不是在识别器忽略输入并将其输出设置为具有所有分量的小值的常数向量时达到的。

这被称为坍缩问题。只有当识别器的输出同时取最小值时，才会发生坍缩。另一方面，如果识别器的输出层包含具有固定参数的RBF单元，则没有这样的平凡解。这是因为具有固定不同参数向量的一组RBF不能同时取最小值。在这种情况下，上述完全坍塌不会发生。然而，这并不完全阻止轻微坍塌的发生，因为损失函数仍然对于一个具有恒定识别器输出的平凡解有一个“平坦点”。

这个平坦点是一个鞍点，但它在几乎所有方向上都是有吸引力的，使用基于梯度的最小化程序很难摆脱它。如果允许RBF的参数适应，则坍缩问题会重新出现，因为RBF中心可以全部收敛到单个向量，并且基础神经网络可以学习产生该向量并忽略输入。如果还允许RBF的宽度适应，则会发生另一种类型的坍塌。仅当可训练模块（例如神经网络）馈送RBF时，坍缩才会发生。

在基于HMM的语音识别系统中不会发生坍塌，因为它们是产生输入数据的标准化似然的生成系统（稍后详细说明）。

避免坍塌的另一种方法是根据辨别式训练准则训练整个系统，例如最大化给定输入图像的正确解释（正确类别标签序列）的条件概率。

维特比训练的另一个问题是，答案的惩罚不能可靠地用作置信度的度量，因为它没有考虑低惩罚（或高得分）的竞争答案。

B. 有区分性的维特比训练

对训练标准的修改可以规避上述所描述的崩溃问题，同时产生更可靠的置信度值。这个想法是不仅要最小化在受限制的图中具有最低惩罚路径与在（无约束的）解释图中的维特比路径之间的惩罚差，即最佳正确路径的惩罚与最佳路径（正确或不正确）的惩罚之间的差异。相应的 GTN 训练架构如图 20 所示。图的左侧与用于非区分性维特比训练的 GTN 相同。该损失函数降低了崩溃风险，因为它强制识别器增加了错误识别对象的惩罚。有区分性训练也可以被视为另一个错误校正过程的示例，它倾向于最小化图 20 左半部分中计算的期望输出与图 20 右半部分中实际输出之间的差异。

让有区分性的维特比损失函数表示为 Edvit，让我们称 Ccvit 为受限图中维特比路径的惩罚，Cvit 为在无约束解释图中维特比路径的惩罚：

Edvit = Ccvit - Cvit

由于受限图是解释图中路径的子集，并且维特比算法选择具有最低总惩罚的路径，因此 Edvit 总是正的。在理想情况下，两条路径 Ccvit 和 Cvit 相符，Edvit 为零。

通过有区分性维特比 GTN 反向传播梯度会向先前描述的非区分性训练添加一些“负”训练。

图 20 显示了梯度如何进行反向传播。

F20

左半部分与非区分性维特比训练 GTN 相同，因此反向传播是相同的。通过 GTN 右半部分反向传播的梯度乘以 -1，因为 Cvit 以负号贡献给损失。否则，该过程与左半部分相似。 Gint 的弧的梯度从左半部分获得正的贡献，从右半部分获得负的贡献。这两种贡献必须相加，因为 Gint 弧上的惩罚通过正向传播的 “Y” 连接发送到两个半部分。

在 Gint 中既不出现在 Gvit 中也不出现在 Gcvit 中的弧的梯度为零。它们不会对成本产生影响。同时出现在 Gvit 和 Gcvit 中的弧也具有零梯度。右半部分的 -1 贡献会抵消左半部分的 +1 贡献。换句话说，当一条弧合理地成为答案的一部分时，没有梯度。如果一条弧出现在 Gcvit 中但不在 Gvit 中，则梯度为 +1。该弧应该具有更低的惩罚才能进入 Gvit。如果一条弧在 Gvit 中但不在 Gcvit 中，则梯度为 -1。该弧的惩罚较低，但应该具有较高的惩罚，因为它不是期望答案的一部分。

这种技术的变种已被用于语音识别。Driancourt 和 Bottou 使用了其中一种版本，其中损失函数被饱和到一个固定值。这可以看作是学习向量量化 2 (LVQ-2) 损失函数的泛化。

该方法的其他变体不仅使用维特比路径，还使用 K 最佳路径。有区分性维特比算法没有非区分性版本的缺陷，但仍然存在问题。主要问题是该标准不会在类之间建立边界。一旦受限制的维特比路径的惩罚等于维特比路径的惩罚，梯度就为零。当错误路径与正确路径危险地接近时，希望增加错误路径的惩罚。下一节将提出解决这个问题的方法。

C. 前向评分和前向训练

虽然维特比路径的惩罚对于识别目的是完全合适的，但它只提供了局部情况的部分图景。

想象一下，对应于产生相同答案（相同标签序列）的几种不同分割的最低惩罚路径。

那么可以说，对于解释的整体惩罚应该小于仅有一条路径产生该解释时获得的惩罚，因为具有相同标签序列的多条路径更多地证明了标签序列是正确的。可以使用几个规则来计算与包含多条平行路径的图相关联的惩罚。我们使用从惩罚的概率解释中借用的组合规则。在概率框架中，解释的后验概率应该是产生该解释的所有路径的后验概率的总和。

用惩罚的术语来说，解释的惩罚应该是各个路径的惩罚的负对数之和。总体惩罚将小于各个路径的所有惩罚。

给定一个解释，有一种众所周知的方法，称为前向算法，可以高效地计算上述数量。使用这种过程计算的特定解释的惩罚称为前向惩罚。再次考虑约束图的概念，约束图是解释图的子图，其中仅包含与特定标签序列一致的路径。对于每个可能的标签序列，都有一个约束图（其中一些可能是空图，具有无穷大的惩罚）。给定一个解释，在相应的约束图上运行前向算法可以给出该解释的前向惩罚。前向算法的执行方式与维特比算法非常相似，只是在每个节点上用于组合传入的累积惩罚的操作，而不是使用最小函数，而是所谓的 logadd 操作，可以看作是最小函数的“软”版本：

fn = logaddi∈Un(ci + fsi)：(13)

其中 fstart = 0，Un 是节点 n 的上游弧的集合，ci 是弧 i 上的惩罚，以及

logadd(x1；x2；...；xn) = log(Σni=1 exi) (14)

请注意，由于数值不准确性，最好将最大的 exi（对应于最小的惩罚）从对数中分解出来。

如果我们考虑将前向算法应用于的图形等同于在其中进行前向传播的神经网络，那么可以绘制出一个有趣的类比，只是将乘法替换为加法，加法替换为对数加法，并且没有 sigmoid。

有趣的类比可以绘制如下：考虑到我们应用前向算法的图等效于我们运行前向传播的神经网络，只是乘法被加法替换，加法被对数加法替换，并且没有Sigmoid函数。

理解前向算法的一种方式是考虑到乘法得分（例如，概率）而不是弧上的加法惩罚：得分 = exp（惩罚）。在这种情况下，维特比算法选择具有最大累积得分的路径（得分沿路径相乘），而前向得分是与从起始到终止节点的每条可能路径相关联的累积得分之和。前向惩罚始终低于任何路径上的累积惩罚，但如果一条路径“占优势”（惩罚要低得多），则其惩罚几乎等于前向惩罚。前向算法得名于用于训练隐马尔可夫模型的著名Baum-Welsh算法的前向传递。第VIII-E节更详细地说明了本文与HMM之间的关系。

与维特比惩罚相比，前向惩罚的优势在于它考虑了产生答案的所有不同方式，而不仅仅是具有最低惩罚的方式。如果在分割中存在一些歧义，这一点很重要，因为与另一标签序列相关的两个路径C1和C2的组合前向惩罚可能小于与另一标签序列相关的路径C3的惩罚，即使C3的惩罚可能小于C1或C2的任何一个。

前向训练GTN只是稍微修改了先前介绍的维特比训练GTN。将图19中的维特比变换器转换为接受解释图作为输入并产生该图的前向惩罚作为输出的前向评分器就足够了。然后，将包含正确答案的所有路径的惩罚降低，而不仅仅是最佳路径的惩罚。

通过前向惩罚计算（前向变换器）进行反向传播与通过维特比变换器进行反向传播非常不同。输入图的所有惩罚都对前向惩罚产生影响，但属于低惩罚路径的惩罚具有更强的影响。通过对图的每个n节点计算的前向惩罚fn进行反向传播以计算导数是通过图进行的。

图21显示了基于启发式过分割的字符串识别器的判别性前向训练GTN架构。其中，

E = efn × Σi∈Dn (∂E/∂fdi) efdici

这里，Dn = {arc i

源节点 si = n} 是节点 n 的下游弧的集合。从上述导数中，可以得到对弧惩罚的导数：

(∂E/∂ci) = (∂E/∂fdi) ecifsi + efdi

这可以看作是通过维特比评分器和变换器进行反向传播的一种“软”版本。图中的所有弧都对损失函数产生影响。属于低惩罚路径的弧具有更大的影响力。通过路径选择器的反向传播与以前相同。

与 Gc 中有对应弧的 Gint 弧相关的导数简单地从对应的弧复制过来。对于其他弧的导数为0。

一些作者已经应用了通过前向评分器反向传播梯度的想法来训练语音识别系统，包括 Bridle 及其神经网络模型[73]和 Haner 及其 TDNN 模型[81]，但这些作者推荐了如下所述的判别性训练。

D. 判别性前向训练

前向惩罚中包含的信息可以用于另一种判别性训练标准，我们将其称为判别性前向标准。该标准对应于最大化选择与正确解释相关联的路径的后验概率。这个后验概率被定义为受限制前向惩罚的指数减去未受限前向惩罚的指数，并由未受限前向惩罚的指数进行归一化。请注意，受限图的前向惩罚始终大于或等于未受限解释图的前向惩罚。理想情况下，我们希望受限图的前向惩罚等于完整解释图的前向惩罚。当正确标签序列的路径的综合惩罚与所有其他路径的惩罚相比微不足道时，或者与正确解释相关联的后验概率几乎为1时，这两个量之间的等式被实现，这正是我们想要的。对应的 GTN 训练架构如图21所示。让差异被表示为 Edforw，并将 Ccforw 表示为受限图的前向惩罚，Cforw 表示完整解释图的前向惩罚：

E_dforw = C_cforw - C_forw

Edforw 总是正值，因为受限图是解释图中路径的子集，而图的前向惩罚总是大于该图的子图的前向惩罚。在理想情况下，不正确路径的惩罚是无限大的，因此这两个惩罚相等，Edforw 为零。

熟悉玻尔兹曼机连接模型的读者可能会将受限图和未受限图视为类似于玻尔兹曼机算法的“固定”（由输出变量的观察值约束）和“自由”（未约束）阶段。

通过判别性前向 GTN 反向传播导数会比在维特比情况下更均匀地分布梯度。导数通过图21左半部分反向传播到解释图。导数被否定并通过右半部分反向传播，然后将每个弧的结果添加到左半部分的贡献中。现在，Gint 中的每个弧都有一个导数。属于正确路径的弧具有正导数。如果不正确路径的惩罚低于所有正确路径，则此导数非常大。

类似地，与低惩罚不正确路径相关的弧的导数为负数。另一方面，如果与正确解释相关联的路径的惩罚远小于所有其他路径，则损失函数非常接近于0，几乎没有梯度被反向传播。

因此，训练集中的示例主要集中在导致分类错误的图像片段上。判别性前向训练是解决学习机器操纵“动态”数据结构（如图）中的臭名昭著的学分分配问题的一种优雅且有效的方法。

更普遍地说，相同的思想可以用于所有需要在离散替代解释之间进行选择的情况。

与之前一样，解释图中的惩罚的导数可以反向传播到字符识别器实例中。通过字符识别器的反向传播得到其参数的导数。

将不同候选段的所有梯度贡献相加，以获得与一个对（输入图像、正确标签序列）相关的总梯度，也就是训练集中的一个示例。然后可以应用一步随机梯度下降来更新参数。

E. 对判别性训练的备注

在上述讨论中，全局训练标准被赋予了概率解释，但是图中弧的个别惩罚没有。这样做是有充分理由的。

例如，如果一些惩罚与不同的类标签相关联，则它们可能（1）必须总和为1（类后验概率），或者（2）在输入域上积分为1（似然）。

首先讨论第一种情况（类后验概率归一化）。这种对惩罚的局部归一化可能会消除对局部拒绝所有类别的信息的重要性，例如，当图像的一部分不对应于有效的字符类别时，因为某些分割候选可能是错误的。尽管可以在概率框架中引入明确的“垃圾类”来解决这个问题，但是一些问题仍然存在，因为很难从概率上表征这样一个类，并以这种方式训练系统（这将需要一个看不见或未标记样本的密度模型）。

个别变量的概率解释在 Baum-Welsh 算法与期望最大化过程结合中起着重要作用。不幸的是，这些方法无法应用于判别性训练标准，只能使用基于梯度的方法。在进行基于梯度的学习时强制执行概率量的归一化是复杂、低效、耗时且导致损失函数的病态条件化。

因此，我们更倾向于尽可能地推迟归一化（实际上，直到系统的最终决策阶段）。如果没有归一化，系统中操作的量就没有直接的概率解释。

现在让我们讨论第二种情况（使用输入的生成模型）。生成模型间接地建立边界，首先为每个类建立独立的密度模型，然后根据这些模型做出分类决策。这不是一种判别性方法，因为它不专注于学习的最终目标，即学习分类决策界面。理论上的论点表明，当真正的目标是获得分类判别函数时，估计输入密度是一种次优策略。在理论上，在高维空间中估计密度的问题比找到决策边界更加难以解决。

即使系统的内部变量没有直接的概率解释，整体系统仍然可以被视为为类别产生后验概率。事实上，假设特定的标签序列作为“期望序列”提供给图21中的 GTN，那么减去 Edforw 的指数可以被解释为给定输入的该标签序列的后验概率的估计。所有可能标签序列的这些后验概率的总和为1。

另一种方法是直接最小化误分类数量的近似。我们更倾向于使用判别性前向损失函数，因为它在优化过程中引起的数值问题较少。

我们将在第X-C节中看到，这是一种获得基于拒绝策略的评分的良好方法。这里要强调的重要一点是，任何参数化模型的选择都是自由的，只要被视为适合分类模型的。特定参数化使用内部变量没有明确的概率解释并不会使模型比操作归一化量的模型更不合法。

全局和判别性训练的一个重要优势是学习集中于最重要的错误，并且系统学习将分割算法的歧义与字符识别器的歧义整合在一起。

在第IX节中，我们将展示在线手写识别系统的实验结果，证实了使用全局训练与单独训练相比的优势。使用神经网络和HMM的混合体进行语音识别的实验也显示了全局训练带来的显著改进。

PS: 用神经网络首先识别出可能的结果，然后再通过概率推断出最大概率的结果？

参考资料

http://vision.stanford.edu/cs598_spring07/papers/Lecun98.pdf

前言
V. 多对象识别：启发式过分割
A. 分割图
B. 识别变换器和维特比变换器
VI. 图形变换器网络的全局训练
A. 维特比训练
B. 有区分性的维特比训练
C. 前向评分和前向训练
D. 判别性前向训练
E. 对判别性训练的备注
参考资料

dl4j doc-03-minist 手写识别 Lenet-5 paper 论文学习《Gradient-Based Learning Applied to Document Recognition》 V

前言