1、 数据挖掘教程 塞思保罗 杰米 麦克伦南 唐昭辉 斯科特 欧俉桑 摘要 : 微软的 SQL Server 2005 年提供了一个综合 完整的 环境,用于创建和 从事 数据挖掘模型工作 。 本教程使用如下四个实例: 目标邮购 , 数据预测 , 购物篮 , 序列簇 用来演示阐述如何使用挖掘模型算法,挖掘模型 浏览器 ,和数据挖掘工具 ,这些是包含在本次发布的 SQL Server 中 。 在本文件所载的信息,代表了当前微软公司对于出版日期的讨论的看法。因为 Microsoft 必须响应不断变化的市场条件,它不应被解释为是一种代表微软的承诺,微软和 Microsoft 不能保证出版日期后提出的任何资
2、料的准确性。 本白皮书仅供参考,对于本文件中的资讯, Microsoft 不作任何担保,明示或暗指。 遵守所有适用的版权法是用户的责任。在没有版权的情况下,未经微软公司明确的书面许可,不得以任何形式或以任何方式(电子,机械,影印,录音或其他方式)或为任何目的而复制,储存或引入检索系统,或传输本文件任何一部分。 本文件中可能涉及到微软的专利,专利申请,商标,版权或其他知识产权事项。除明文规定外的任何书面许可协议,微软提供的这份文件没有给你任何许可这些专利,商标,版权或其他知识产权 。 2003 年微软公司。保留所有权利。 微软既是一个注册商标又是微软公司在美国和 /或其他国家的商标。 文中提到的
3、公司和产品的名字可能是它们各自所有者的商标。 介绍 数据挖掘教程的目的是引导您通过微软 SQL Server 2005 创建数据挖掘模型 。该数据挖掘算法和工具,在 SQL Server 2005 可以很容易地建立一个全面的解决方案的各种项目,包括 购物篮 分析,预测分析, 和邮购 分析。 对这些解决方案的描述在教程中有更详细的解释。 SQL Server 2005 最明显的部分 是 用来创建和处理数据挖掘模型 的 工作室 。在线分析处理( OLAP )和数据挖掘工具 被统一 为两个工作环境:商业智能开发工作室和 SQL Server 管理工作室 。通过 商业智能开发工作室,您可以 在与 服务
4、器断开 连接的情况下 建立一个服务项目分析。当项目已经准备就绪,您可以 发布 到服务器上。您也可以直接 面向服务器工作 。 SQL Server 管理工作室的 主要职能是管理服务器。 之后将有针对 每一个环境 的 详细说明。欲了解更多 关于从两个环境中 选择 的信息,请参看 SQL Server 联机丛书中 的 “ 在 SQL Server 工作室 和商业智能开发工作室 中选择 ”。 所有的数 据挖掘工具中存在的数据挖掘编辑器。使用编辑器,您可以管理挖掘模型,创造新的模式,以期车型,比较模型,并建立预测的基础上现有的模式。 当您建立一个挖掘模型 后 ,你会想要探索它,寻找有趣的模式和规则。 编
5、辑器中 每个挖掘模型 视图都被 定制 为由 具体算法 创建的探索模型 。 欲了解更多关于视图的信息 , 请参看 SQL Server 联机丛书中 的“查看数据挖掘模型”。 您的项目往往会包含多个挖掘模型,所以才能使用的模式创建的预测,你要能够确定哪些模式是最准确的。出于这个原因,编辑包含一个模型比较工具挖掘精度的图表标签。使用此工具,您可 以比较准确的预测模型和您确定最佳模式。 为了建立数据预期,你将使用一种 DME语言, DMX扩展了传统的 SQL语法,包含了一些创建修改和建立数据预期的命令,关于 DMX 的详细信息,请参考 SQL BOL 中的 “ Data Mining Extensio
6、ns (DMX) Reference”章节。 因为建立一个数据预期可能比较复杂,所以数据挖掘编辑器包含了一个工具叫做 “ Prediction Query Builder”, 该工具可以让你在一个图形化的界面下编辑DMX 查询语句,你也可以在该工具中可以查看自动生成的 DMX 语句。 了解了前面介绍的实现数据挖掘的工具之外,同等重要的是了解数据挖掘模型的结构本身,建立一个数据模型的关键是数据挖掘算法,该算法在你操作的数据中寻找我们需要的部分,并且转换这些数据成为一个可操作的数据模型, SQL2005 包含 9 中数据模型算法: 决策树 簇 传统贝叶斯 序列簇 时间系 联结 神经 网络 线性回归
7、 逻辑回归 组合的使用这 9 种数据算法,你能够创建适应大部分商业逻辑的数据挖掘解决方案,本教程将详细的介绍这些算法。 一些很重要的建立数据挖掘解决方案的步骤是用来整理准备那些用于建立数据模型的数据 ,SQL2005 包含一个 DTS 的工作环境以及一些 DTS 的工具用于清理验证准备数据,关于 DTS 的更多信息请查看 SQL BOL 中的 DTS Data Mining Tasks and Transformations章节。 为了阐述 SQL2005 中的数据挖掘特性,本教程使用了一个新的示例数据库AdventureWorksDW , 该数据库包含在 SQL2005 中它提供 OLAP
8、以及数据挖掘的一些实例数据。为了使用这个数据库你需要在安装 SQL 的时候选择它。 Adventure 数据库 AdventureWorksDW 数据库是基于一个虚构的自行车制造公司而建立,公司的名称叫做 “ Adventure Works Cycles”(简称 AW 公司)。 AW 公司 生产 并向 北美,欧洲和亚洲的商业市场销售金属和复合材料的自行车 ,主要的工作都在 华盛顿 Bothell 完成,那里拥有 500 员工,以及一些地区销售部门遍及各地。 AW 公司通过 INTERNET 批发和零售他们的产品,本教程中的数据模型实例需要你使用这些网络销售数据作为数据模型。 关于 AW 公司数
9、据库的更多信息,请参考 SQL Server 联机丛书 中的如下章节: Sample Databases and Business Scenarios。 数据库详细信息 网络销售数据构架包含 9242 个客户的信息,这些客户分布在 6 个国家,并被 合并 为 3 个区域: 南美 (83%) 欧洲 (12%) 澳大利亚 (7%) 该数据库包含三个财政年度的数据: 2002 年, 2003 年和 2004 年。 数据库中的产品根据 子类别,型号和产品 来分类 。 商业智能开发工作室 商业智能开发工作室是一套用于创建商务智能项目 的工具 。由于商业智能开发工作室是创建 于 IDE 环境 中的 , 在
10、该环境中,你可以在脱机状态下创建一个完整 地解决方案。你可以想改多少数据挖掘对象就改多少,但是在你发布该项目前,这些改变将不会反映在服务器上。 在 商业智能开发工作室 下工作 是有益的,理由如下: 您具有强大的可定制的工具来配置商业智能开发工作室以满足您的需要。 你可以将各种数据挖掘技术与 SSAS 项目集成,在同一个工具中完成一个全面的解决方案 . 强大的源码以及版本控制支持使你的团队可以协作的建立一个解决方案 . 建立一个 SSAS 项目是所有商业智能项目的基础,一个 SSAS 项目独立的建立一个 SSAS 数据库用于集成多种技术,这个数据库作为数据挖掘模型以及 OLAP 等技术的基础。你可以使用商业智能 建立和修改一个 SSAS 项目并部署这个项目到一个或多个 SSAS 服务 如果你在开发一个 SSAS 项目你也可以使用商业智能开发工作室直接连接数据库,这样你所作的改动可以立刻影响到数据库中。