1、PDF外文:http:/ 毕业设计(论文)外文资料翻译 系 部: 计算机科学与技术系 专 业: 计算机科学与技术 姓 名: 洪维坤  
2、; 学 号: 0807012215 外 文 出 处: Proceeding of Workshop on the (用外文写) of Artificial,Hualien,TaiWan,20
3、05 指导老师评语: 签名: 年 月 日 不确定性数据挖掘:一种新的研究方向 1 不确定性数据挖掘:一种新的研究方向 Michael Chau1, Reynold Cheng2, and Ben Kao3 1:商学院,香港大学, 薄扶林 ,香港 2:计算机系,香港理工大学九龙湖校区,香港 3:计算机科学系,香港大学, 薄扶林 ,香港 摘要 由于 不精确 测量、过时的来源 或抽
4、 样误差等原因, 数据不确定性 常常出现在真实世界应用中。目前,在数据库数据不确定性处理领域中,很多研究结果已经被发表。我们认为,当不确定性数据被执行数据挖掘时,数据不确定性不 得不被考虑在内,才能获得高质量的数据挖掘结果。我们称之为“不确定性数据挖掘”问题。在本文中,我们为这个领域可能的研究方向提出一个框架。同时,我们以 UK-means聚类算法为例来阐明传统 K-means算法怎么被改进来处理数据挖掘中的数据不确定性。 1.引言 由于测量不精确、抽样误差、过时数据来源或其他等原因,数据往往带有不确定性性质。特别在需要与物理环境交互的应用中,如:移动定位服务 15和传
5、感器监测 3。例如:在追踪移动目标(如车辆或人)的情境中,数据库是不可能完全追踪到所有目标在所有瞬间的准确位置。因 此,每个目标的位置的变化过程是伴有不确定性的。为了提供准确地查询和挖掘结果,这些导致数据不确定性的多方面来源不得不被考虑。 在最近几年里,已有在数据库中不确定性数据管理方面的大量研究,如:数据库中不确定性的表现和不确定性数据查询。然而,很少有研究成果能够解决不确定性数据挖掘的问题。 我 们注意到 ,不确定性 使 数据 值 不再 具有原子性 。 对于使用传统数据挖掘技术,不确定性数据不得不被归纳为原子性数值。再以追踪移动目标应用为例,一个目标的位置可以通过它最后的记录位
6、置或通过一个预期位置(如果这个目标位置概率分布被考虑到)归纳 得到。不幸地是,归纳得到的记录与真实记录之间的误差可能会严重也影响挖掘结果。图 1 阐明了当一种聚类算法被应用追踪带有不确定性位置的移动目标时所发生的问题。 不确定性数据挖掘:一种新的研究方向 2 图 1( a)表示一组目标的真实数据,而图 1( b)则表示记录的已过时的这些目标的位置。如果这些实际位置是有效的话,那么它们与那些从过时数据值中得到的数据集群有明显差异。如果我们仅仅依靠记录的数据值,那么将会很多的目标可能被置于错误的数据集群中。更糟糕地是,一个群中的每一个成员都有可能改变群的质心,
7、因此导致更多的错误。 图 1 数据图 图 1.( a)表示真实数据 划分成的三个集群( a、 b、 c)。( b)表示的有些目标(隐藏的)的记录位置与它们真实的数据不一样,因此形成集群 a、 b、 c和 c”。注意到 a集群中比 a 集群少了一个目标,而 b集群中比 b 集群多一个目标。同时, c 也误拆分会为 c和 c”。 (c)表示方向不确定性被考虑来推测出集群 a, b和 c。这种聚类产生的结果比( b)结果更加接近( a)。 我们建议将不确定性数据的概率密度函数等不确定性信息与现有的数据挖掘方法结合,这样在实际数据可利用于数据挖掘的情况下会使得挖
8、掘结果更接近从真实数据中获得的结果。 本文研究了不 确定性怎么通过把数据聚类当成一种激励范例使用使得不确定性因素与数据挖掘相结合。我们称之为不确定性数据挖掘问题。在本文中,我们为这个领域可能的研究方向提出一个框架。 文章接下来的结构如下。第二章是有关工作综述。在第三章中,我们定义了不确定性数据聚类问题和介绍我们提议的算法。第四章将呈现我们算法在移动目标数据库的应用。详细地的实习结果将在第五章解释。最后在第六章总结论文并提出可能的研究方向。 2.研究背景 近年来,人们对数据不确定性管理有明显的研究兴趣。数据不确定性被为两类,即已存在的不确定生和数值不确定性。在 第一种类型中,不管目标或数据元组存在是否,数据本身就已经存在不确定性了。例如,关系数据库中的元组可能与能表现