1、中文 7340字, 5000 单词, 25000 英文字符 出处: Sun H, Duan N, Duan Y, et al. Answer extraction from passage graph for question ans weringC/Proceedings of the Twenty-Third international joint conference on Artificial Intelligence. AAAI Press, 2013: 2169-2175. 问 答通道图中 的 答案抽取 摘要 : 在问答中,答案抽取旨在针指向通道的确切答案。然而,大多数以前的方法都
2、是单独的对每个通道进行提取,而没有考虑到其他通道所提供的线索。本文通过充分利用不同通道之间的联系提出了一种新的方法来提取答案。特别地,提取是通过建立在添加了大量的通道联系的通道图来执行的。不同的通道是通过具有相同的连接词进行联系的。我们通过使用因子图作为我们的模型来提取答案。多个 QA数据上的实验结果集表明,我们的方法显著提高答案抽取的性能。 1、 说明 问答( QA)的任务旨在自动解答自然语言描述中的问题。答案提取是 QA系统中的一个重要组成部分, 用来生成通道中的精确答案。答案提取首先从通道中生成候选答案,再通过一些评分函数进行排名,例如候选的频度。以往的研究已经检查答案抽取不同的方法,如
3、命名实体识别( NER)或模式匹配,然而,这些拥有相同财产的人是从单独的通道中抽取出来的,不考虑由其他通道提供的任何信息。 然而,其他通道所提供的线索是有用的。如果我们把答案抽取看作是通道中每个文字是否是问题答案的一项任务,当我们运用这种分类时,所有通道中的一致信息都是有用的。让我们从基本词法观点来考虑:所有的通道都是由同一检索查询时,有可能不同通道中相同的文字表示了 相同的意思,作为结果他们可能都是答案或者他们可能都不是答案。另外,他们共享的上下文越相似,作为是否是答案候选的标签是否相同就越有可能。因此,有可能针指向更多的正确答案或纠正提取过程中的边界问题。 表 1: 2002 年 TREC
4、 问题。检索通道 通过使用作为查询问题 问:什么是阿拉斯加的州鸟? 答:柳雷鸟 通道 1 :官方阿拉斯加的州鸟是柳雷鸟 通道 2 :本系列被摄制柳松鸡 拍下 .公园在阿拉斯加 通道 3 :柳松鸡是相当大的鸟,非常小的鸡。 考虑表 1 中描述的例子,通道 1 中的证据很明显的表示“柳雷鸟”作为一个正确的答 案,因为句子结构与问题相似以及关键词在通道中有提到使得答案很变的很明确。与此相反,通道 2 和通道 3 中的证据不是那么明显,因为这两个通道描述了关于“柳雷鸟”的其他方面。此外,“柳雷鸟“通道 2 中没有提到,这使得它更难被提取。但是,如果我们利用通道 1 中“柳雷鸟“的标签,这两个标签作为候
5、选答案的概率会提高。在通道 3 中,“柳”和“松鸡”很容易被分离,但把通道 1 中的“柳雷鸟”作为候选答案边界将会被修改。其结果是,找到正确答案的频率将会提高。这有助于提高正确回答问题的可能性。 在本文中,出于这种观察,我们提出了通过不同通道 之间的充分连接进行答案的提取。特别地,答案提取是执行在为描述所有通道中相同问题而建立的通道图上。不同通道之间的关联是通过相同连接词之间添加边来建立。以这种方式,一个字符串是否可以被确定为候选答案由两个因素共同决定:( 1)本地通道中包含证据( 2 )在其他通道中的有与标签中相同的字的证据。我们采用因子图作为模型。在因子图,随机变量表示通道中的文字,用来生
6、成一个 1/0 的标签。在不同的通道中,我们通过添加一个因素节点来连接两个变量,这两个变量的“茎”是相同的,用来表示变量之间的相近度。实验执行在四大公共 QA数据集 上。结果表明,利用通道之间的关系,相对于没有使用这种关系的方法,答案提取的性能有着显著的提高。 2相关工作: 以往对答案抽取的研究已经讨论使用不同的结构进行答案抽取,包括模式,命名实体,正克和句法结构。 2001 Soubbotin ,使用手工绘制图案从文本中提取候选人来预先定义问题的类型(一些工作用使用问题类型来描述该问题是否被问到有关职能标记,列表,定义等等。本文重点是智能标记 QA ,我们按照符号在许多 QA文件中不区分问题的类型和答案型) 候选人的分数取决于他们来自哪个模式。无需人工努力, Ravichandran2002 年 Hovy 自动学习这种模式集并自动生成成绩。他们发送问题条款和答案到一个搜索引擎上并从通道检索上提取模式。 Ravichandran等, 2003通过在问题条款中增加语义类型来提高以前的方法,并使用自动学习型态