1、 毕业设计(论文)开题报告 题 目: 数据挖掘在教学系统中的应用 系: 计算机科学与技术 专 业: 计算机科学与技术 2009 年 3 月 20 日 毕 业 设 计(论 文)开 题 报 告 1文献综述:结合毕业设计(论文)课题情况,根据所查阅的文献资料, 每人撰写 2500 字以上的文献综述,文后应列出所查阅的文献资料。 数据挖掘技术已经在多个领域取得令人满意的应用如零售业、电信业。近些年, 随着高校招生规模的不断扩大,教育信息数据库中积累了大量数据。这些数据以往只 是被用来进行一般的查询和报表打印,并没有得到充分利用。事实上,在高校的教育 信息数据库中蕴涵着大量有价值的规律需要我们运用数据挖
2、掘这一新型工具去发现, 可以辅助领导层在招生就业、课程安排、素质教育和创新人才培养等方面进行决策, 从而促进教育决策的科学化。 1数据挖掘技术 数据挖掘(Data Mining)是从大量的、不完全的、有噪声的、模糊的、随机的数据集 中识别出有效的、新颖的、潜在有用的,以及最终可理解模式的非平凡过程。原则上 讲,数据挖掘可以在任何类型的信息存储上进行。这包括关系数据库、数据仓库、事 务数据库、高级数据库系统、展开文件和 WWW。由于关系数据库具有坚实的数学基础、 统一的组织结构、完整的规范化理论、”一体化”的查询语言等优点,成为当前数据 挖掘的主要对象。 数据挖掘的过程可看作一个线性过程:(1)
3、陈述问题和阐明假设;(2)数据收集;(3) 数据预处理;(4)挖掘知识;(5)根据挖掘结果执行并评估效益。其中第四步是数据挖 掘的核心阶段也是人们研究的重点。 数据挖掘的主要功能有:(1)概念,类描述:特征化和区分。数据特征化是目标类数据 的一般特征或特征的汇总。通常,用户指定类的数据通过数据库查询收集。数据区分 是将目标类对象的一般特性与一个或多个类对象的一般性比较。目标类和对比类由用 户指定,而对应的数据通过数据库查询检索。(2)关联分析。它是从数据库中发现知识 的一种重要方法。若两个或多个数据项的取值之问重复出现且概率很高时,它就存在 某种关联,可以建立起这些数据项的关联规则。(3)分类
4、和预测。分类是找出一个类别 的概念描述,它代表了这类数据的整体信息,即该类的内涵描述一般用规则或决策 树模式表示。预测是利用历史数据找出变化规律,建立模型,并用此模型来预测未来 数据的种类、特征等。(4)聚类分析。聚类分析数据对象对象根据最大化类内的相似 性、最小化类问的相似性的原则进行聚类或分组即使得在一个簇中的对象具有很高 的相似性。而与其他簇中的对象很不相似。(5)孤立点分析。在一些应用中,罕见的事 件可能比正常出现的那些更有趣。(6)演变分析。数据演变分析描述行为随时问变化的 对象的规律或趋势,并对其建模。 2 常用数据挖掘功能、算法及其典型应用领域 (1)数据挖掘功能: 关联规则;
5、算法:统计学、集合理论; 典型应用领域:市场分 析 (2)数据挖掘功能: 分类; 算法:决策树、神经网络、粗集; 典型应用领域:产品 营销、定量控制、危险评估 (3)数据挖掘功能: 聚类; 算法:神经网络、统计学; 典型应用领域:市场分析 (4)数据挖掘功能: 时问序列预测; 算法:统计学、ARMA 模型; 典型应用领域:销售 预测、利润预测 3数据挖掘技术在教学系统中的应用 31 关联规则挖掘和聚类规则挖掘在成绩分析方面的运用 关联规则挖掘是寻找库中值的相关性。它反映一个事件和其他事件之间依赖或关联的 知识。寻找在同一个事件中出现的不同项的相关性,如在一次购买括动中所买不同商 品的相关性。关
6、联规则的挖掘过程一般分为两个过程:(1)先找出所有的频繁项集;(2) 由频繁项集产生强关联规则。这两步中,第二步是在第一步的基础上进行。工作量非 常小。挖掘关联规则的总体性能由第一步决定。现有的挖掘关联规则的方法总体而言 可以归结为以下几种:在遍历方向上是自顶向下、自底向上或者是混合遍历:在搜 索策略上采用广度优先策略还是深度优先策略:在频繁项集的产生上是否需要产生候 选集测试候选集是否需要多次扫描数据库:是采用横向(Horizonta1)还是纵向 (Vertica1)数据库布局,以及采用什么样的数据结构(如:数组、位串或树结构)来表 示事务。考试是对教和学效果的检验,成绩是考试的结果,它除了激励学生学习及教 师工作此外还能为教育科研者提供研究资料为充分发挥考试的功效。客观公正评价命 题质量,及时反馈教学效果,沟通教学信息。教学部门对考试成绩进行统计分析和总 结是非常必要的。然而,不少学校目前仅停留在阅卷评分、成绩公布、分类登记,对 大量的成绩数据并没有进行深入分析,探寻有利于教学的信息。原因主要为靠传统手