1、 本科生毕业论文(设计)册 学 院: 数学与信息科学学院 专 业: 计算机科学与技术 班 级: 2009 级计算机班 学 生: 郝蓓 指导教师: 郭瑞强 河北师范大学本科毕业论文(设计)任务书 论文(设计)题目: 数据挖掘 K-均值算法 实现 学 院: 数学与信息科学学院 专业: 计算机科学与技术 班级: 2009 级计算机班 学生姓名: 郝蓓 学号: 2009010915 指导教师: 郭瑞强 职称: 副教授 1、 论文(设计)研究目标及主要任务 本文主要研究聚类分析 K-均值算法,并对该算法的优 缺点进行分析,并通过该算法的缺点通过实验验证,这些敏感的因素 对聚类结果具有哪些影响。本文的主要
2、任务是实现K-均值算法,并通过改变不同的初始条件得出算法 聚类 结果,并对结果进行比对,得出结论。 2、 论文(设计)的主要内容 本文主要介绍了聚类分析,包括它各个方面的性能 指标 测量函数和常见的聚类方法,着重介绍了基于划分的聚类算法中的 K-均值算法,详细分析了该算法的基本思想,算法流程和算法本身的特点 ,并通过实验实现了该算法 ,在实现该算法的基础上,对影响聚类结果的 两 方面因素初始点和数据输入顺序的不同分别进行实验 。 3、 论文(设计)的基础条件及研究路线 本 文 是 在 C+的 基 础 上 实 现 的 K-均 值 算 法 , 数 据 集 是 从 数 据 堂 下 载 的c-fat5
3、00-10.txt 数据集,在运行实现该 算法的基础上,改变初始点和数据输入顺序,进行了六次试验,分别进行实验 这 两 个初始条件的不同会对聚类结果有哪些影响。 4、 主要参考文献 1 T Zhang R Ramakrishnan and M ogihara An efficient data clustering method for very largedatabases In Pror 1996 ACM-SlGMOD hat Conf Management of Data, Montreal。Canada, June 1996: 103 114. 2Sambasivam S, Theod
4、osopoulos N Advanced data clustering methods ofmining web documents Issues in Informing Science and Information Technology, 2006, 8(3): 563 579. 3 Z Huang Extensions to the K-means algorithm for clustering large data sets with categorical values Data Mining and Knowledge discovery,1998, (2): 283-304. Applied Math, 1999, 90: 326 5、 计划进度 阶段 起止日期 1 确定题目 2012 年 12 月 2013 年 01 月 2 查阅资料 2013 年 01 月 2013 年 02 月 3 论文撰写 2013 年 02 月 2013 年 04 月 4 论文修改 2013 年 04 月 2013 年 05 月 5 论文答辩 2013 年 05 月 指 导 教师 : 年 月 日 教研室主任 : 年 月 日