1、 本科毕业设计(论文)开题报告本科毕业设计(论文)开题报告 学院 电子工程学院 专业 电子科学与技术 班级 学生姓名 学号 班内序号 指导教师姓名 所在单位 电子工程学院 职称 讲师 设计(论文)题目 基于数据挖掘算法的网络数据处理研究 1.1. 选题的背景和意义选题的背景和意义 随着信息技术的飞速发展,移动互联网、云计算、物联网等技术相继进入人们的日 常工作和生活, 以博客、 社交网络、 基于位置服务为代表的新型信息发布方式不断涌现, 全球数据信息量呈指数式爆炸增长之势。数据来源的极大丰富和数据体量的爆炸性增长 促使大数据(big data)出现并得到广泛应用。大数据的分析与利用也不再仅仅局
2、限于 信息技术产业,还事关国计民生、经济大势,涉及政府、学术界、产业界、资本市场等 领域。因此,无论从数据规模和结构,还是对社会生活和生产的影响来看,当下都已全 面进入大数据时代。大数据正以前所未有的速度,颠覆人们探索世界的方法,驱动产业 间的融合与分立。 国内企业受限于 IT 产业链所处的位置,普遍在数据库、数据仓库、商业智能等领 域基础薄弱, 因此, 在大数据上布局不如跨国企业全面。 但国内相对强势的互联网企业、 电信运营商、电信设备供应商已经开始启动产业布局,以互联网应用服务为切入点抢占 大数据制高点。对大数据的挖掘和应用,可以有效提高生产效率,创造出大量的市场价 值。中国大数据应用市场
3、已然显露冰山一角。 大数据分析的理论核心就是数据挖掘算法,各种数据挖掘的算法基于不同的数据类 型和格式才能更加科学地呈现出数据本身具备的特点,也正是因为这些被全世界统计学 家所公认的各种统计方法才能深入数据内部,挖掘出公认的价值。另外一个方面也是因 为有这些数据挖掘的算法才能更快速地处理大数据,如果一个算法得花上好几年才能得 出结论,那大数据的价值也就无从说起了。 云计算是大数据处理的基础,现有大数据平台广泛地使用云计算架构及云计算服 务。目前,Hadoop 已经成为 AOL、Facebook、Twitter 和 Netflix 等公司大数据分析的 主要解决方案。此外,对于短期大数据处理项目,
4、如果大数据需要大量的计算资源和存 储资源,云平台是唯一可行选择。在项目启动期间,可以迅速获得云中的存储空间和处 理能力,而在项目结束之后,可以迅速释放这些资源和能力。 云计算代表着一种数据存储、计算能力,大数据代表着一种数据知识挑战,计算需 要数据来体现其效率,数据需要计算来体现价值。云计算技术是大数据处理的基础,大 数据是云计算的延伸,云计算结合大数据,这是时代的发展必然趋势。 2.2.研究的基本内容和拟解决的主要问题研究的基本内容和拟解决的主要问题 基本内容:基本内容: 开发一个数据采集分析系统。 即先用火车采集器从目标网站上进行数据采集, 整理数据后,用 Hadoop 平台进行数据分析。
5、如以北邮人论坛数据为例分析得到不同 ID 之间的亲密关系。 拟解决的主要问题拟解决的主要问题: 用火车采集器在目标网站进行数据采集时如何选择合适的关键词才 能有效地采集到想要的数据;在数据采集分析系统中如何保持数据格式的兼容性,使得 各种数据都可以在 Hadoop 平台进行数据分析等等。 3.3.研究方研究方法及措施法及措施 主要采用以下方法进行研究: 1、网络课程学习。在网易云课堂上有许多大数据以及算法方面的教学视频,刚刚接触 大数据的我可以进行观看学习。 2、阅读书本及论文等资料。在前四周,由于不了解课题相关的名词概念,可以阅读相 关书籍、论文进行学习,对课题以及任务所需的知识有所了解。
6、3、找同学或者老师交流。由于以前从未接触过大数据相关的方面,在研究过程中必然 会遇到许多问题, 除了同一个课题的同学可以讨论交流, 还可以去找老师以及学长咨询。 4、善用电脑软件。学习使用相关软件简化开发系统的进程,比如数据采集方面,可以 学习使用火车采集器抓取数据,这样也可使研究进程更加有效率。 4.4.研究工作的步骤与进度研究工作的步骤与进度 14 周了解课题内容,学习大数据、云计算相关的知识,学习使用火车采集器进行数据 采集;58 周从目标网站进行数据采集,并用 Hadoop 平台进行数据分析;912 周完成 开发数据采集分析系统;1315 周完成论文并上交;16 周毕业论文答辩。 5.5.主要参考文献主要参考文献 1 张尼、张云勇、胡坤、刘明辉、宫雪、陶冶等. 大数据安全技术与应用M. 北 京:人民邮电出版社,2014 2 Pang-Ning Tan, Michael Steinbach, Vipin Kumar. 数据挖掘导论M. 北京: 人民邮 电出版社,2011 3 谢邦昌,李扬,匡宏波,北京商智通团队. 从数据采集到数据挖掘M