1、文献综述文献综述 学生姓名: 学号: 专业:网络工程 班级: 文献综述题目:基于数据挖掘的聚类算法研究综述 引用文献:中文 7 篇;英文 7 篇; 其中期刊:10 种;专著 3 本; 引用文献时间跨度: 1967 年 2015 年 指导教师审阅签名: 摘要:摘要: 现代社会是一个高速发展的社会,交通便利,信息流通,人与人之间的交流越来越密切,在这样一个 环境下,数据也在爆炸式增长。为了从海量的数据中提取有价值的信息,数据挖掘应运而生。而聚类算法 作为数据挖掘的重要工具之一,在生物学、商务和 WEB 文档分类等方面得到广泛的应用。本文就数据挖 掘中的聚类算法展开讨论。首先总结了基于数据挖掘的聚类
2、算法的研究的目的和意义、国内外研究现状, 然后简要阐述并归纳了传统的聚类算法,最后分析了数据挖掘领域内聚类算法的新发展。 Abstract: Abstract: Modern society is a high-speed development of the society. The convenient transportation , the flowing information and the communication between people which is closer and closer are changing our lives. In such an envir
3、onment, the data is also in the explosive growth. In order to extract valuable information from the vast amount of data, data mining emerges as the times require. Clustering algorithm, as one of the important tools of data mining, has been widely used in biology, business and WEB document classifica
4、tion. In this paper, we discuss the clustering algorithm in data mining. Firstly, we summarize the based on clustering algorithm of data mining research purpose and significance, the domestic and foreign research status. Then, we briefly analyzed and summarized the traditional clustering algorithm.
5、Finally, the paper analyzes the new developments in the field of class clustering algorithm of data mining. 关键词:关键词: 数据挖掘;聚类算法;新发展 引言:引言: 资料显示,目前每天全球互联网流量累计达 2.5EB。人们已经明显感受到了大数据的来势凶猛。大数 据不是掌握的数据越多越好,大数据的任务应当是从海量的数据中挖掘出有用的信息。数据挖掘有很多方 法,其中聚类方法是数据挖掘应用最多的方法之一,所以本文针对基于数据挖掘的聚类算法的研究状况进 行总结。 1.1.研究的目的和意义研究的
6、目的和意义 我国古时的一句名言“物以类聚,人以群分”就体现了聚类思想,随着科技不断进步,这一思想也被 发扬光大。聚类分析就是将聚类对象按照一定的规则分类,在某一类内,所有的对象之间的差别较小,而 在不同的类,聚类对象的差别就相对而言较大一些了。 1聚类算法的目的是寻找数据中潜在的自然分组结 构,而聚类分析则是用已有的数学方法对所给的数据对象进行分类以及表示不同的类的相似度,是在数据 不做任何假设时进行分析计算的工具,它是机器学习中获取知识的非常重要的步骤。通过聚类分析,人们 可以将数据按照一定的规则分类,以便于挖掘出有用的信息。 根据潜在的各种不同的业务需要,因而对聚类算法提出了各种要求,具体如下2: (1)可伸缩性:很多算法当只有少量的数据对象时聚类效果很好,对于大数据集时就会产生不同的错 误。 (2)具有处理不同类型属性的能力:可以处理不同种类的数据,如数值型或非数值型、离散或连续域 内的数据等。 (3)能够发现任意形状的聚类:一般的聚类方法用欧式距离来衡量数据的相似度,但是这样的算法只 能发现具有相似密度和尺度的球状簇,