1、数据分析方法课程设计 I 目录 1.设计目的 1 1.1 设计问题. 1 1,2 问题分析. 1 2.设计原理 1 3 设计程序 3 3.1 设计步骤. 3 3.1.1 聚类中的步骤. 3 3.1.2 因子分析步骤. 4 4 结果分析 5 4.1 聚类中得到的结果 5 4.2 在因子分析中得到结果 8 5.设计总结 13 参考文献 14 数据分析方法课程设计 II 摘 要 数据分析课程在自然科学、社会科学、工农业生产、金融、经济等各方面有 着广泛的应用。各行各业的各个领域无处不有数据的存在,而如何处理大量杂乱 无章的数据从而从中得到其内在规律、 发掘有用的信息以指导人们进行科学的推 断与决策,
2、就需要进行数据分析。 现实居民消费支出结构决定了一个地区的经济发展情况,生产力发展、居民 收入、价格波动、消费政策取向、消费者的消费观念、消费心理等许多因素的对 及各地区有着很强的制约,在现实生活中,影响消费支出结构的各种因素很难形成 绝对合理、绝对均衡的配置,不仅任何一种因素的不合理,会影响居民消费支出比 例合理配置,而且,反过来,居民消费支出结构的不合理性也会通过需求结构的错 误信息传导,影响消费政策的选择及生产力的协调发展。因此,研究居民消费支出 结构,自觉地按照消费结构的变化规律进行适当的调整,促进国民经济的协调发展, 就成为国民经济研究系统中不可缺少的一部分。 本论文对各省市的消费支
3、出运用 均值聚类,因子分析对数据进行处理把各省市进行分类。 关键词关键词:消费支出 因子分析 均值聚类 数据分析方法课程设计 1 中国城镇居民消费结构的分析 1 .设计目的设计目的 为了更好的了解数据分析方法的知识, 熟练掌握数据分析方法在实际问题上 的应用, 并将所学的知识结spss对数据的处理解决实际问题。 本设计是利用spss 的快速聚类和主成分分析对问题建立数学模型,并用 spss 软件进行解算。 1.1 设计问题设计问题 改革开放以来,中国经济高涨,,对居民消费支出影响最大的当属交通通信, 住房、医疗保健和教育文化的支出。其中被称为“三高”的教育、医疗、住房支 出占居民总消费支出的比
4、重不断扩大, 导致居民用于其他方面的消费受到一定抑 制。同时,随着人们生活水平的日渐提高以及各项交通通信技术的进步,城镇居 民的消费重点已从基本生活消费品转向了以住、行为代表的新型消费领域,而交 通通信费用的增长速度尤为突出!在科技的不断进步下,随着居民收入水平的提 高及电子通讯、家用汽车价格的下调,移动电话及家用汽车己成为我国近几年形 成的新消费热点之一。从趋势上看,这方面的消费需求将会持续旺盛。近年来, 很多学者在分别对教育、住房、医疗对消费的挤出方面做出了深入的研究。本文 在中华人民共和国国家统计局的数据库中找到2010年的以下数据。并对其分析, 其中,行表示各方面的支出,列表示各地区。
5、数据见附录1 (1) 对各省市的消费情况进行分类。 (2) 对消费支出类型进行主成分分析。 1,2 问题分析问题分析 通过查找,在中华人民共和国国家统计局的数据库找到数据,根据数据聚类 方法的意义,我们可以通过软件对数据进行处理,进行分类。达到要求,根据各 省市的消费支出水平对各省市进行分类,之后本文通过对数据进行因子分析,可 以清楚地知道哪些因子起主要作用。 2.设计原理设计原理 聚类分析: K-均值聚类算法的工作原理: K-means 算法的工作原理:算法首先随机从 数据集中选取 K 个点作为初始聚类中心,然后计算各个样本到聚类中的距离, 把样本归到离它最近的那个聚类中心所在的类。 计算新
6、形成的每一个聚类的数据 对象的平均值来得到新的聚类中心,如果相邻两次的聚类中心没有任何变化,说 明样本调整结束,聚类准则函数 已经收敛。本算法的一个特点是在每次迭代中 数据分析方法课程设计 2 都要考察每个样本的分类是否正确。 若不正确, 就要调整, 在全部样本调整完后, 再修改聚类中心,进入下一次迭代。如果在一次迭代算法中,所有的样本被正确 分类,则不会有调整,聚类中心也不会有任何变化,这标志着 已经收敛,因此 算法结束。 2.K-means 聚类算法的一般步骤: (1) 从 n 个数据对象任意选择 k 个对象作为初始聚类中心; (2) 根据每个聚类对象的均值(中心对象) ,计算每个对象与这些中心对 象的距离;并根据最小距离重新对相应对象进行划分; (3) 重新计算每个(有变化)聚类的均值(中心对象) ; (4) 循环(2)到(3)直到每个聚类不再发生变化为止 因子分析: 因子分析法是从研究变量内部相关的依赖关系出发,把一些具有错综复 杂关系的变量归结为少数几个综合因子的一种多变量统计分析方法。 它的基本思 想是将观测变量进行分类,将相关性较高,即联系比较紧密的