1、 毕业设计(论文)开题报告毕业设计(论文)开题报告 题目名称 时间序列的聚类算法研究 学生姓名 专业班级 信管 081 班 学号 一、 选题的目的和意义: 随着数据信息的积累, 如何从海量数据中有效快速的提取所需要的知识与信息 已经成为数据挖掘研究的一个重要内容, 时间序列的聚类分析正是该研究的一个重要 方向。时间序列数据广泛存在于经济、金融、气象预报、以及多媒体医疗等领域,而 时间序列数据本身具有高维性、复杂性、动态性、大规模性,若直接在时间序列上进 行数据挖掘不仅在存储和计算上花费高昂,而且可能会影响算法的准确性和可靠性。 时间序列的聚类分析是数据分析的一个有效工具, 通过将得到的时间序列
2、数据划分成 多个类,从而实现对数据的有效迅速分析。目前,时间序列的聚类分析已在国民经济 宏观控制、企业经营管理、金融股票走势预测、市场潜量预测,气象预报、水文预报 等诸多领域得到广泛运用,如在金融领域,时间序列聚类分析可以对不同股票进行分 类,对具有相似变化趋势的股票进行分类,进而为投资者选择适当的股票提供依据。 时间序列的聚类分析,通过对大量数据进行有效快速的分析,为各个领域的决策提供 参考信息,大大降低了决策的风险。通过对时间序列的聚类算法进行研究,不仅可以 对所学知识进行检查,而且可以进行简单的数据分析,做到学以致用。 二、 国内外研究综述: 时间序列是将某种现象的某一个统计指标在不同时
3、间上的各个数值, 按时间先 后顺序排列而形成的序列,由长期趋势、季节变动、循环变动、不规则变动四个因素 构成。聚类分析是由若干模式组成的,以相似性为基础,在聚类中的模式之间比不在 同一聚类中的模式之间有着更多的相似性,聚类分析方法主要有:划分法、层次法、 基于密度的方法、基于网格的方法、基于模型的方法、K-MEANS 算法、K-MEDOIDS 算法等,K-MEANS 算法是目前为止国内外应用最为广泛的一种聚类方法, 。时间序 列的聚类分析就是运用各种聚类分析方法对得到的时间序列数据进行分析。 时间序列数据与静态数据有着极大的不同, 因此对其进行聚类分析有着很大的 复杂性。目前,国内外研究人员提
4、出许多时间序列聚类方法,这些时间序列数据聚类 方法大体上可以分为三种: 基于原始数据的聚类、 基于特征的聚类和基于模型的聚类。 其中后两种方法的核心思想是利用时间序列的模式表示方法把时间序列数据转化为 静态的特征数据或者是模型参数, 然后再直接应用静态数据的聚类方法来完成聚类任 务。 三、 毕业设计(论文)所用的主要技术与方法: 毕业设计主要利用 SQL Server 建立时间序列数据库,利用各种聚类分析计算 方法等数据挖掘技术对数据进行分析研究,利用 C+编程语言完成各种算法的实现。 四、 主要参考文献与资料获得情况: 【1】(美)Pang-Ning Tan,Michael Steinbach,Vipin Kumar 著 范明,范宏建等译 数 据挖掘导论 人民邮电出版社 2011 【2】钱能 C+程序设计教程 清华大学出版社 2009 【3】苏新宁数据仓库与数据挖掘清华大学出版社 2006 【4】李明华数据挖掘中聚类算法的新发展 苏州大学 2008 五、 毕业设计(论文)进度安排(按周说明) 第一、二周:学习数据挖掘的相关知识,并进行简单的数据分析 第