1、 i 目目 录录 摘要 iii Abstract . iv 第一章 绪论 . 1 1.1 数据挖掘技术 1 1.1.1 数据挖掘技术的应用背景. 1 1.1.2 数据挖掘的定义及系统结构 . 2 1.1.3 数据挖掘的方法. 4 1.1.4 数据挖掘系统的发展. 5 1.1.5 数据挖掘的应用与面临的挑战. 6 1.2 决策树分类算法及其研究现状 8 1.3 数据挖掘分类算法的研究意义 10 1.4 本文的主要内容 11 第二章 决策树分类算法相关知识 . 12 2.1 决策树方法介绍 12 2.1.1 决策树的结构 12 2.1.2 决策树的基本原理 13 2.1.3 决策树的剪枝 15 2
2、.1.4 决策树的特性 16 2.1.5 决策树的适用问题 18 2.2 ID3 分类算法基本原理 18 2.3 其它常见决策树算法 20 2.4 决策树算法总结比较 24 2.5 实现平台简介 25 2.6 本章小结 29 第三章 ID3 算法的具体分析 30 3.1 ID3 算法分析 30 3.1.1 ID3 算法流程 30 3.1.2 ID3 算法评价 33 3.2 决策树模型的建立 34 3.2.1 决策树的生成 34 3.2.2 分类规则的提取. 377 3.2.3 模型准确性评估 . 388 3.3 本章小结 . 39 ii 第四章 实验结果分析 . 40 4.1 实验结果分析 .
3、 40 4.1.1 生成的决策树 40 4.1.2 分类规则的提取 40 4.2 本章小结 . 41 第五章 总结与展望 . 42 参考文献 . 44 致谢 . 45 附录 . 46 iii 摘要摘要:信息高速发展的今天,面对海量数据的出现,如何有效利用海量的原始数 据分析现状和预测未来,已经成为人类面临的一大挑战。由此,数据挖掘技术 应运而生并得到迅猛发展。 数据挖掘是信息技术自然演化的结果, 是指从大量数据中抽取挖掘出来隐含 未知的、有价值的模式或规律等知识的复杂过程。 本文主要介绍如何利用决策树方法对数据进行分类挖掘。 文中详细的阐述了 决策树的基本知识和相关算法, 并对几种典型的决策树
4、算法进行了分析比较, 如: 核心经典算法ID3 算法;能够处理不完整的数据、对连续属性的数据离散化 处理以及克服了 ID3 算法偏向于选择取值较多的属性作为测试属性的缺点的 C4.5 算法;利用 GINI 系数判别数据集中的分裂属性并形成二叉树的 CART 算法; 使数据的分类不受机器主存的限制,有着良好的伸缩和并行性的 SLIQ 和 SPRNIT 算法。ID3 算法是最核心的技术,所以本文主要对它进行了研究和设计实现。 第四章在 JAVA 编译器上实现 ID3 算法,并对结果进行分析,决策树生成, 分类规则的提取,以便于以后直接使用这一规则进行数据分析。在论文的最后一 章介绍了目前数据挖掘技
5、术的研究前景。 关键关键词词:数据挖掘;决策树;ID3 算法;信息增益;熵值 iv AbstractAbstract: Today, the massage is passed very quickly. How to investigate current status and forecast the future with good use of tremendous original Data has been becoming the big challenge to human beings when facing the emergence of mass Data in inf
6、ormation era. Consequently, Data mining technology emerge and boom quickly. Data mining, is the product of the evolution of information technology, which is a complex process excacting the implicated and valuable pattens, knowledge and rules from a large scale of dataset. This paper mainly introduces the decision tree algorithm for classification. Firstly, the basic knowledge about decision tree and some representative algorithms for inducing decision tree are discussed, including