1、(附件 1:外文译文一) International Journal of Uncertainty, Fuzziness and Knowledge-Based Systems Vol. 15, Suppl. (February 2007) 43-57 World Scientific Publishing Company 模糊数据表示和 XML数据库查询 EKlN USTUNKAYA and ADNAN YAZICI Department of Computer Engineering, Middle East Technical University, 06531, Ankara - Tu
2、rkey Email: ell2925, yazicijceng.metu.edu.tr ROY GEORGE* Department of Computer Science, Clark-Atlanta University, Atlanta, GA, USA Email: 真实世界的信息,包括主观的意见和判断,需要不精确数据为蓝本来表示并在数据库中查询。近年来,可扩展标记语言( XML)事实上已经成为数据建模和交流的标准。在 XML 中,对不精确性的建模和代表这些数据做出的努力没有得到充分发展。本文中,提出了基于 XML的模糊数据表示和查询系统。用模糊扩展的 XML 来表示复杂和不精确的
3、数据。这种表示法形成了一个基础系统,能够在 XML 文档使用 XML 的一种查询语言 XQuery 进行模糊查询。该系统还可以通过 XML 架构重组,合并 XML 元素文件。通过使用此功能的 系统,应用程序特定的XML 架构和 XML 文件可以从现有的文件中产生。 关键字 :模糊查询, XML,原生 XML 数据库。 1、简介 数据库是数据的一个有组织的集合。传统的数据库管理系统特别适合于代表那些使用标准结构的清晰、明确界定的数据,。然而,现实世界的信息,包括主观的意见和判断,需要复杂和不准确的数据建模同时也需要明确界定的数据。在数据库中代表这种不确定性和复杂的数据仍然是一个正在研究中的问题。
4、扩展非第一范式( ExNF2) 1数据模型是一个已为拟议的代表这种不确定和不精确数据模型。 可扩展标记语言( XML) 2345,被广泛用于数据代表和交换。 XML 允许内容和表现的分离,也就是说, XML 文档简单定义了数据表示但是并不处理它的表现形式。 XML 可以用来表示复杂和层次性的信息,这是 ExNF 模型的基本造型结构。 选择最合适的数据库管理系统,以处理基于应用程序和数据结构的 XML 数据。随着越来越大的数据量作为 XML 文档表示,有必要有效地存储和查询这些 XML 文档。在管理 XML 数据中,原生的 XML 数据库比传统的数据库管理系统具有几个优点。当数据是半结构化时,映
5、射到一个关系数据库结 果中将导致大量的空列(浪费空间)或大量的表(低效的)。另一个在原生 XML 数据库存储数据的原因是检索速度。原生 XML 数据库在物理存储数据方面,检索数据比关系型数据库快得多。这是因为原生 XML 运用存储策略存储整个文件或在文件的各部分中使用物理(而不是逻辑)指针 ;允许要检索的文件没有连接或存在物理连接,这两者速度都比关系型数据库上的逻辑连接据库快得多 11。 几个 XML 查询语言(如 XML- QL 的 6, XPATH7和 XQuery8)已经被 XML 提出。 XML的一个特有优势在于它在代表来自不同来源 的信息时具有的灵活性。要利用此灵活性, XML查询语
6、言必须为这些不同来源的信息提供检索和解释功能。 XQuery8已被 W3C 批准作为用于 XML 查询的标准语言 9。 在数据库领域中,传统的查询语言允许在精确的数据的基础上进行数据选择。查询的价值在于能在那些完全满足查询条件和那些不满足条件的地方产生 Boolean 分区数据。现实世界信息是既复杂又不确切,许多知识密集的应用程序需要使用这些数据 10, 12, 13,14, 15, 16, 17。使用模糊逻辑查询允许用户自定义软目标和约束, 并向用户提供查询数据的相对重要性。 本文中,我们介绍了将复杂和不确定的数据映射到 XML 代表的方法。这项研究的动机是为了在 XML 文档中的结合模糊和
7、不确定的数据代表处理 ExNF 数据模型性并推广 XML 数据库系统的使用。 XML 的结构非常类似于关系数据库元组,因此,将 INF 文件的元组映射到 XML 元素是很简单的 1819。然而, ExNF 模型 1介绍的是经扩展的,较复杂的,不确定的和模糊的数据,不容易用 XML 表示。在这项研究中, XML 文档适用于 ExNF2 模型的格式,包括代表不精确、复杂性数据的元 素和属性。我们使用这些概念,开发一个系统,允许在 XML 文档中进行模糊查询。系统中 XML 文档的概念通过模糊属性得到扩展。除了模糊查询,系统可通过合并XML 文档的元素重组 XML 架构。通过使用此功能的系统,特定的
8、 XML Schema 应用程序和 XML文档可从现有的文件中产生。要查询的 XML 文档在原生 XML 数据库管理系统塔米诺 20中存储。 本文的组织构架如下:第 2 节将描述以 XML 为基础的模糊查询系统的设计。第 3 节将描述在实施这项研究中所做的细节性工作。最后,第 4 节作出结论总结。 2、基于 XML 的模糊查询系统的设 计 本节中,我们首先提出包括在这项研究中的模糊和其他不确定属性的定义以及它们的 XML表示。参考模型是 ExNF 数据库模型 1。 2.1 系统目标 这项研究的主要目标是开发一个系统,它通过使用由非第一扩展范式( ExNF2) 1的扩展介绍,在 XML 中,为现
9、实世界的数据提供了一个模型。在 XML 数据中执行模糊查询,并允许XML 模式转型。该系统应以图形用户界面提供用户构建模糊查询和 XML 重组架构。 2.2 复杂和不确定的数据建模 本节引入在 ExNF 模型 1中介绍的属性类型的定义以及在属性类型的 XML 表示。在 ExNF模型中属性类型的介绍包括原子,空值,设定值,关系值,模糊值,范围值属性以及 XML表示形式的基础。 2.2.1 在 ExNF 数据模型中不确定性的代表 在数据库中不确定性可以通过扩展的嵌套关系 2122代表而非 INF 数据模型 23, 24,25。扩展模型,即扩展非第一范式( ExNF) 1,在数据库中提供包括不确定性
10、的扩展是必要的。 ExNF 关系可以定义如下 1: 定义: 定义 Sch R 是一个与属性 R 相关的属性 ( A1, A2, An)。每个属性 Aj 可能是简单的设定值,模糊值,范围值或关系值,如下文定义。假设 D1, D2, Dn 是有限域设置。使 e, R 的一个实例,组成一套有序的形式 ,这是( D1 x D2xx Dn)的一个子集。 Dj( 1jk)的域,可以是以下内容中的一个: (一) Dj 是一个原子值属性域。每个值 Aj 是 Dj 的一个元素;也就是说,它是一个典型的简单明确界定的属性值。 (二) Dj 是一个空值的属性域。域名 Dj 组成了明确定义的值 a1, a2, ,an可以扩展到域 Dj= DjU unk,dne,ni。 (三) Dj 是一个不完整(范围)值的属性,其值可以是原子或一个区间。区间表示为 aj1 - aj2,其中 aj1 为最小值, aj2 是范围的最大值。这两个值都取自域 Dj。 (四) Dj 是一个模糊值属性域。域包含了一组模糊集语言。一个模糊的属性值是一个非空子集的 Dj 和 aj1, aj2, ajm的代表。 (五) Dj 是集值属性域,其值代表明确界定的集 aj1, aj2, ajm。任何这个属性