1、 目录目录 1. 绪论. 2 1.1 项目背景. 2 1.2 提出问题. 2 2 数据库仓库与数据集的概念介绍 2 2.1 数据仓库 2 2.2 数据集 2 3 数据仓库 3 3.1 数据仓库的设计. 3 3.1.1 数据仓库的概念模型设计. 3 3.1.2 数据仓库的逻辑模型设计. 3 3.2 数据仓库的建立. 3 3.2.1 数据仓库数据集. 3 3.2.2 建立维表. 4 4.数据挖掘操作. 4 4.1 数据预处理 4 4.1.1 描述性数据汇总. 4 4.2 决策树 4 5、实验心得 12 6、大总结 12 1. 绪论绪论 1.11.1 项目背景项目背景 在现在大数据时代,各行各业需要
2、对商品及相关关节的数据进行收集处理, 尤其零售行业,于企业对产品的市场需求进行科学合理的分析,从而预测出将来 的市场,制定出高效的决策,给企业带来经济收益。 1.2 1.2 提出问题提出问题 对于超市的商品的购买时期和购买数量的如何决定,才可以使销售量最大, 不积压商品,不缺货,对不同时期季节和不同人群制定不同方案,使企业收益最 大,通过数据挖掘对数据进行决策树分析,关联分析,顺序分析与决策分析等可 以制定出最佳方案。 2 数据库仓库与数据集的概念介绍数据库仓库与数据集的概念介绍 2.12.1 数据仓库数据仓库 数据仓库是为企业所有级别的决策制定过程提供支持的所有类型数据的战 略集合。它是单个
3、数据存储,出于分析性报告和决策支持的目的而创建。 为企 业提供需要业务智能来指导业务流程改进和监视时间、成本、质量和控制。 数据仓库是决策系统支持(dss)和联机分析应用数据源的结构化数据环境。 数据仓库研究和解决从数据库中获取信息的问题。数据仓库的特征在于面向主 题、集成性、稳定性和时变性。 2.22.2 数据集数据集 数据集是指一种由数据所组成的集合。Data set(或 dataset)是一个数据 的集合,通常以表格形式出现。每一列代表一个特定变量。每一行都对应于某一 成员的数据集的问题。它列出的价值观为每一个变量,如身高和体重的一个物体 或价值的随机数。每个数值被称为数据资料。对应于行
4、数,该数据集的数据可能 包括一个或多个成员。 3 数据仓库数据仓库 3.1 3.1 数据仓库的设计数据仓库的设计 3.1.1 数据仓库的概念模型设计数据仓库的概念模型设计 概念模型的设计是整个概念模型开发过程的三阶段。 设计阶段依据概念模型 分析以及分析过程中收集的任何数据,完成星型模型和雪花型模型的设计。如果 仅依赖 ERD,那只能对商品、销售、客户主题设计成如图所示的概念模型。这种 模型适合于传统的数据库设计,但不适合于数据仓库的设计。 3.1.2 数据仓库的逻辑模型设计数据仓库的逻辑模型设计 逻辑建模是数据仓库实施中的重要一环,因为它能直接反映出各个业务的 需求,同时对系统的物理实施有着重要的指导作用,它的作用在于可以通过实体 和关系勾勒出企业的数据蓝图,数据仓库的逻辑模型设计任务主要有:分析主题 域,确定要装载到数据仓库的主题、确认粒度层次划分、确认数据分割策略、关 系模式的定义和记录系统定义、确认数据抽取模型等。逻辑模型最终设计成果包 括每个主题的逻辑定义,并将相关内容记录在数据仓库的元数据中、粒度划分、 数据分割策略、表划分和数据来源等。 3.2 3.2 数