1、 本科毕业设计(论文)开题报告本科毕业设计(论文)开题报告 学院 电子工程学院 专业 电子信息科学与技术 班级 学生姓名 学号 班内序号 指导教师姓名 所在单位 电子工程学院 职称 教授 设计(论文)题目 基于数据挖掘算法的网络数据处理技术研究 1. 选题的背景和意义选题的背景和意义 数据是知识的源泉。但是,拥有大量的数据与拥有许多有用的知识完全是两回事。 过去几年中,从数据库中发现知识这一领域发展的很快。广阔的市场和研究利益促使这 一领域的飞速发展。计算机技术和数据收集技术的进步使人们可以从更加广泛的范围和 几年前不可想象的速度收集和存储信息。收集数据是为了得到信息,然而大量的数据本 身并不
2、意味信息。尽管现代的数据库技术使我们很容易存储大量的数据流,但现在还没 有一种成熟的技术帮助我们分析、理解并使数据以可理解的信息表示出来。在过去,我 们常用的知识获取方法是由知识工程师把专家经验知识经过分析、筛选、比较、综合、 再提取出知识和规则。然而,由于知识工程师所拥有知识的有局限性,所以对于获得知识 的可信度就应该打个折扣。目前,传统的知识获取技术面对巨型数据仓库无能为力,数据 挖掘技术就应运而生。 数据的迅速增加与数据分析方法的滞后之间的矛盾越来越突出,人们希望在对已有 的大量数据分析的基础上进行科学研究、商业决策或者企业管理,但是目前所拥有的数 据分析工具很难对数据进行深层次的处理,
3、使得人们只能望“数”兴叹。数据挖掘正是 为了解决传统分析方法的不足,并针对大规模数据的分析处理而出现的。数据挖掘通过 在大量数据的基础上对各种学习算法的训练,得到数据对象间的关系模式,这些模式反 映了数据的内在特性,是对数据包含信息的更高层次的抽象。目前,在需要处理大数据量 的科研领域中,数据挖掘受到越来越多的关注,同时,在实际问题中,大量成功运用数据 挖掘的实例说明了数据挖掘对科学研究具有很大的促进作用。数据挖掘可以帮助人们对 大规模数据进行高效的分析处理,以节约时间,将更多的精力投入到更高层的研究中,从 而提高科研工作的效率。 2.研究的基本内容和拟解决的主要问题研究的基本内容和拟解决的主
4、要问题 2.1 研究的基本内容研究的基本内容 1)利用该火车采集器从一些目标网站上有针对性地采集相关数据,并将数据进行整理。 抓取的方案可以是前后截取和正则提取。 2)利用 Hadoop 平台进行数据分析,结合 excel和 matlab 得出一定的结论。 3)综合前两点,开发一个独立的数据采集分析系统,并应用于实践。 2.2 拟解决的主要问题拟解决的主要问题 1) 从理想的目标网站中采集所需的数据。首先需要分析该网站是否具有行业的代表性, 并对数据的真实性等方面进行考虑,如关于工作方面, 智联招聘就算是比较权威 的网站。 2) 选择合适的特征属性进行数据筛选,挑选合适的样本策略,剔除数据中不
5、正常的数 据并补足不够的部分,比如关键词的确定,如搜索“大数据”来统计。 3) 将采集的数据用恰当的降维、变换使数据挖掘过程与数据模型相适合或相匹配以便 于下一步的数据分析,即得到的数据能够在 Hadoop 上分析。 4) 将所得到结果信息化或可视化,然后与现有的知识相结合比较。 3.研究方法及措施研究方法及措施 根据本课题的研究内容和拟解决的主要问题,主要采用以下方法进行研究: 1)文献阅读。在课题的准备阶段,对于不熟悉的专业名词及专业知识,可以进行充分 的文献阅读,学习与研究相关的知识,获取灵感,在文献中寻找可能的解决办法。 2)研讨讨论。本课题由本人独立完成,在遇到瓶颈时可以找学长讨论,
6、邀请指导老师 参与,充分交流意见,以期得到最优的解决方案。 3)网络学习。本课题需要用到火车采集器等一些数据采集软件,由于是第一次使用, 所以需要看一些网络教学视频进行学习。 4)实验室学习。本课题需要用 Hadoop 进行数据分析,可能会用到实验室的服务器帮助 运算解决一些问题。 4.研究工作的步骤与进度研究工作的步骤与进度 第 14 周:了解课题目标及内容,查找相关资料,学习使用火车采集器进行数据采集。 第 58 周: ,归纳并整理采集的数据,并用 Hadoop 进行数据分析。 第 912 周:着力开发一个数据采集分析系统,并进行调试。 第 1318 周:完成完善数据采集分析系统,并将系统应用于实践。同时完成毕业设计的 最终论文。 5.主要参考文献主要参考文献 1 刘美玲, 李熹等. 数据挖掘技术在高校教学与管理中的应用J. 计算机工程与设 计, 2013,(5): 1130-1133 2 刘军. 基于 SQL Sever 2005 的数据挖掘系统设计方案J. 计算机光盘软件与应 用,2012 3 王爱平等. 数据挖掘中常用关联规则挖掘算法