1、 1 中文 3230 字 外文翻译: 原文来源 : Computer Speech and Language (2014) 译文正文 : 基于网络的自动语音识别能度语言模型 本文描述了一种基于可能性理论的新的语言模型。这些新模型的目的是为了更好地利用Web 上可用的数据进行语言建模。这些模型的目的在于 整合与不可能单词序列有关的信息。我们找到了使用这种模型的两个主要问题:如何估算单词序列的长度以及如何把这种模型整合到自动语音识别系统 (ASR)中去。 我们提出了一个单词序列可能性的措施和一个基于单词序列统计数据的实用估算方 法,这种方法尤其适用于来自于 Web 数据的估算。对于在一个经典的 依
2、靠一个语音识别过程中的概率模型的 自动语音识别引擎中使用这些模型,我们提出了一些策略和构想。 这项工作在两种典型的使用场景中进行评估:具有非常大训练集的广播新闻转录和在一个专业领域,对只有非常有限训练数据的医疗视频的转录。 该结果表明,在专业领域的任务中,能度模型提供了显著低的单词错误率,但是经典的n 元模型由于训练材料的缺少没有能够做到这一点。在广播新闻方面,概率模型仍然优于能度模型。但是,这两种模型的对数线性组合优于所有单独使用的模型, 这表明能度 模型带来了概率模型所没有的信息。 1.简介 最先进的大词汇量连续语音识别系统 ( LVCSR) 是基于 n 元语法模型的,这种模型是在由数十亿
3、单词组成的文本集合中被估算的。这些模型在很大范围的应用中证明了自己的效率, 但是它们的准确度是依赖于庞大的相关训练语料库的可用性上,但是如果对于资源很少的语言或者特定的某一领域,大量的数据集就不能保证了。 处理这种训练数据缺乏的最受欢迎的方法之一在于在互联网上搜集文本材料和在这些自动搜集的数据集上估算 n 元统计模型。这种方法得益于互联网两个有趣的特点:覆盖范围广和持续更新。 覆盖依 赖于这样一个事实, Web 可能 被看作 是一个趋于无限的语料库,大多数的语言实现都可以在这里找到。 互联网提供了一个比通常在 LM 训练中用到的文本集合大得多的语言覆盖。 用户通过不断地增加包含新单词和新的惯用
4、语言形式的文档来提供更新。最后一点被广泛地用于统计语言模型的各个方面,典型的应用如新单词的发现, n 元语法模型的适应,不可见的 n 元语法模型的评价。 然而,与互联网内容的规模和不稳定性相关的技术问题限制了对大范围和统计语言模型更新的利用。标准的方法会是定期地搜集互联网上可以利用的所有数据,在结果语料库上来估算 n 元模型 。这样的一种技术很明显是难以实施的;一些作者提出了使对庞大的 LM 数据集的估算可行的解决方法: Guthrie 和 Hepple( 2010) 解决了稀疏 n 元模型占用内存减少的问题;快速平滑的技术在 Brants( 2007) 等被提出;基于分布式的数据存储与处理的
5、技术方法在 Ghemawat(2003), Chang( 2006) 等 文章 上被发表。 最后,即使软件和硬件技术不断发展,在整个 Web 内容上最新的 LM 的训练仍然是一个具有挑战性的问题。 另一个问题是和单词序列在 Web 上的分布相关。由于文档来源的多样性,生产的可变 2 性和使用的环 境等因素,它们的可靠性很低。分布不仅仅不可靠,也不会匹配一个定向的应用程序上下文,这个应用程序上下文决定着可能的主题、说话的风格和语言的等级等。 考虑到使用整个 Web 在实 用上和理论上的 诸多限制,以前的很多研究都是提取相关的和易于处理的 Web 子集,这些 Web 子集被作为传统的估算 n 元统
6、计模型的语料库来使用。语料库是通过自动查询搜索引擎取得的 。就覆盖,语言风格等而言,查询组成技术决定了语料库的精确度。不幸的是,查询是基于以前的知识或者是一个与领域相关的描述的自动提取,这种描述可能是不完整或者不准确的。 此外,独立于 查询组成技术,搜索到的数据依赖于在商业引擎里面使用的搜索策略,这些搜索策略可能完全或者部分是机密的。 即使这些方法成功地在各种应用程序上下文中得到使用,一些作者仍试图通过使用动态n 元语法估算方法从 Web 的特殊性中得到更多的好处。 在 Beger 和 Miller( 1998) 的文章中,一个刚好及时的适应过程被提出了,它是基于一个在线的文档主题分析和快速
7、LM 更新。在Zhu 和 Rosenfeld( 2010)的文章中,作者们提出了一个倒转的技术,它通过计算包含它的Web 文档的数量来估算一个单词序列的概率。这个数量是通过使用一 个带有定向单词序列查询的搜索引擎返回的成功地案列数目。 这篇文章专注于 LM 适应于一个专门的领域,但是它介绍了使用一个搜索引擎进行语言成绩专门估算的思想。我们在 Oger( 2009a) 等里面拓展了这个思想,在这里我们提出了一个高效的方法,在一个自动语音识别别系统中使用 Web搜索引擎的命中率作为概率。一个特别的 n 元统计模型估计提供更新了的统计数据,但是没有解决 Web 统计数据可靠性的问题。为了解决这个问题
8、, 我们在 Oger( 2009b) 等提出了考虑单词序列存在与否而不是它们出现的频率的语言模型。这些模型是基于可能性理论 的,可能性理论提供了一个在理论上解决不确定性问题的框架。我们通过 Web 查询提出了一个量化单词序列可能性大小的方法,同时将这种能度策略整合到一个基于概率模型的自动语音识别系统中。 在多数情况下,基于概率的语言模型都表现不俗,尤其是在高频率和中等频率的事件中。低频率事件发生概率的估计基本上依赖于一个 倒转或者平滑的策略,这种策略会导致不太可靠的概率。已提出的能度语言模型仅仅在这些低频率事件上起作用 ,通过测量这些事件的可信度,这种可信度实际上 不是由通常估计这些事件的概率
9、的平滑和倒转的技术检测的。因此,提出的并没有取 代基于能度的语言模型基于概率的语言模型,而是在基于概率的语言模型不可靠的情况下对其进行补充,这种情况,也就是低频率事件。基于能度的语言模型的目标估计这些低频事件的可信度,目的是为了在当主要的语言模型错误地分配给它们一个本应有的更高的概率 的时候过滤掉它们。 这篇文章讲述了一个可能性语言模型的深入研究。我们将会声明我们的动机和这些模型理论上的基础以及陈述一个经验上的估算可能性的方法和新的把它们整合到一个自动语音识别系统中的 方法。能度模型与 传统的 n 元语言模型 在 Web 和传统的文本语料库的估算方面比较和结合 。 我们围 绕两个任务做了实验:
10、广播新闻转录,有大量的训练材料可以提供,以及医疗视频转录,这通常是致力于训练外科医生的。后者应用的环境对应于一个只有很少的可提供资源的非常专业的领域。 本文剩余部分的内容组织安排如下。第二部分从传统的语料库概率模型开始,提供了一个逐步的 Web 能度 语言 模型的描述 。第三部分陈述了把能度语言模型整合到一个统计学的自动语音识别系统中各种各样的策略。第四部分描述了实验的设置,同时也做了对比的实验。最后第五部分进行了总结并且提出了一些观点与看法。 2.从语料库的可能性到 Web 的可能性 在这一部分,我 们通过使用新的数据源 ( 也就是 Web)提出了新的方法来改进语言建 3 模和一个新的理论框
11、架,也就是可能性理论。我们首先描述了传统的基于语料库的概率语言模型,这种语言模型在大多数最先进的语音识别系统中得到使用。其次,我们介绍了一个新的方法来从 Web 中估算这些概率。最后,我们提出使用从可能性理论中的观念来建造新的可以被在 Web 上以及传统的封闭语料库中估算的策略:能度策略。 2 1 基于语料库的概率 在自动语音识别系统领域,语言模型设计的目的主要是 估算一个单词序列 W 的先验概率P( W): W=(w1, w2, ,wn), wiv 这个概率可以被分解为 条件概率的产物: P(W)=P(wi|w1,w2, ,wi-1) 这个公式假设一个单词 Wi 只能通过前面的单词序列来预测
12、。整体上来讲, n 元语言模型组成一个将会在自动语音识别系统中被使用的条件概率的集合,为了一个单词的预测给一个部分转录假设。 就像在 Eq 中表现的那样,单词的概率取决于整个语言的历史。实际上,这样长期的相关性 由于复杂性和语料库的限制不能被估算:估算如此长的单词序列所需要的训练数据的量是巨大的,并且对一个 n( n6) 元语言模型的高阶统计的直接估算通常是不可能完成的。因此 ,大多数先进的自动语音识别系统只使用 4 或 5 元模型。 一些可以替代的语言评估的方法被提出使得长序列的单词序列概率估算可行,主要使用提供有效的(但是间接的)推理和平滑的机制的神经网络。然而,理想的情况在一个详尽的语料库中进行直接的精确的概率估算,在这种情况下,所有可能的句子都会被发现。这将表明自动语音识别的问题,可以被看做是在一个封闭的文本文档集合中对正确转录的搜索。