1、 数据挖掘技术综述数据挖掘技术综述 数据挖掘(Data Mining)是一项较新的数据库技术,它基于由日常积累的大量 数据所构成的数据库,从中发现潜在的、有价值的信息称为知识,用于支持 决策。数据挖掘是一项数据库应用技术,本文首先对数据挖掘进行概述,阐明什 么是数据挖掘,数据挖掘的技术是什么,然后介绍数据挖掘的常用技术,数据挖 掘的主要过程, 如何进行数据挖掘,主要应用领域以及国内外现状分析。 一. 研究背景及意义 近十几年来,随着数据库系统的广泛流行以及计算机技术的快速发展,人们利用 信息技术生产和搜集数据的能力大幅度提高。 千万个数据库被用于商业管理、政 府办公、 科学研究和工程开发等,
2、特别是网络系统的流行, 使得信息爆炸性增长。 这一趋势将持续发展下去。 大量信息在给人们带来方便的同时也带来了一大堆的 问题:第一是信息过量,难以消化;第二是信息真假难以辨认;第三是信息安全 难以保证;第四是信息形式不一致,难以统一处理。面对这种状况,一个新的挑 战被提出来:如何才能不被信息的汪洋大海所淹没,从中及时发现有用的知识, 提高信息利用率呢?这时出现了新的技术数据挖掘(Data Mining)技术便 应用而生了。 面对海量的存储数据,如何从中发现有价值的信息或知识,成为一项非常艰巨的 任务。数据挖掘就是为迎合这种要求而产生并迅速发展起来的。数据挖掘研究的 目的主要是发现知识、使数据可
3、视化、纠正数据。 二. 概述 1,数据挖掘 数据挖掘(Data Mining)就是从大量的、不完全的、有噪声的、模糊的、随机的 数据中,提取隐含在其中的、人们事先不知道的、但又是潜在有用的信息和知识 的过程。这些数据可以是结构化的,如关系数据库中的数据,也可以是半结构化 的,如文本,图形,图像数据,甚至是分布在网络上的异构型数据。发现知识的 方法可以是数学的,也可以是非数学的,可以是演绎的,也可以是归纳的。发现 了的知识可以被用于信息管理、查询优化、决策支持、过程控制等,还可以进行 数据自身的维护。 数据挖掘借助了多年来数理统计技术和人工智能以及知识工程 等领域的研究成果构建自己的理论体系,是
4、一个交叉学科领域,可以集成数据数 据库、人工智能、数理统计、可视化、并行计算等技术。 2,数据挖掘技术 数据挖掘就是对观测到的数据集进行分析, 目的是发现未知的关系和以数据拥有 者可以理解并对其有价值的新颖方式来总结数据。 它利用各种分析方法和分析工 具在大规模海量数据中建立模型和发现数据间关系的过程, 这些模型和关系可以 用来做出决策和预测。 数据挖掘的过程就是知识发现的过程,其所能发现的知识有如下几种:广义型知 识,反映同类事物共同性质的知识;特征型知识,反映事物各方面的特征知识; 差异型知识,反映不同事物之间属性差别的知识;关联型知识,反映事物之间依 赖或关联的知识;预测型知识,根据历史的和当前的数据推测未来数据;偏离型 知识,揭示事物偏离常规的异常现象。所有这些知识都可以在不同的概念层次上 被发现,随着概念树的提升,从微观到中观再到宏观,以满足不同用户、不同层 次决策的需要。 数据挖掘是涉及数据库、人工智能、数理统计、机械学、人工神经网络、可视化、 并行计算等的交叉学科, 是目前国际上数据库和决策支持领域的最前沿的研究方 向之一。 3,数据挖掘的功能 数据挖掘通过预