1、 目录 第一章 绪论 1 第二章 数据基本分析 . 2 2.1 数据说明 2 2.2 质量分析 2 2.3 基本描述分析. 2 第三章 数据预处理 . 4 3.1 数据处理过程. 4 3.2 数据预处理方法 . 4 3.3 数据预处理结果 . 6 第四章 数据模型构建 . 8 4.1 数据流的构建. 8 第五章 模型结果分析 . 12 5.1 结果的分析处理 12 5.2 结果合理性分析 . 13 第六章 应用系统设计 . 16 6.1 模型接口 16 6.2 人机接口 19 6.3 软件测试 24 结论 . 30 参考文献. 31 结束语 . 32 1 第一章 绪论 由于网站的结构设计, 对
2、特定用户而言信息获取的代价与所经过的浏览路径 长度成正比, 这些位于路径中间的不必要的文档就无疑增加了用户获取信息的代 价。本文利用 Clementine 数据挖掘的方法和技术对用户所访问的页面序列进行 挖掘,构建网页推荐的模型,实现对当前站点排序方式的优化,从而最大限度地 优化用户访问体验,提高当前站点信息获取的整体效率。 关键词 网页推荐;Clememtine 数据挖掘;访问序列 传统的 Web 网站以系统自身为中心,为了容纳大量的信息,以图结构组织网 站,页面之间存在着比较复杂的层次关系。这些预先设计好的浏览路径(网站的 结构)严格按照设计者编辑好的层次返回页面,因此,为了获取特定的信息
3、,从 同一页面出发的所有用户都不得不重复地经过很多与自己毫无关系的、 不希望看 到的中间链接页面,使得用户为了获取少量的信息付出较大的代价。如果在确保 网页内容的前提下,实现网站物理结构的调整和再组织,就可以避免混乱。站点 路径优化实际上就是站点管理者优化其站点结构, 它的出现就是为了提高用户的 访问效率以及用户对站点的忠诚度。 2 第二章 数据基本分析 2.1 数据说明 本数据来自网络信息服务(IIS)网站 和 1999 年 9 月 28 日全天日志记录,每行连续数据表示单个用户 24 小时内浏览网页的记录,连续 数据中的数字表示用户对相应网页的浏览请求, 该访问请求不会被记录成详细的 记
4、录,即具体的网址,而只是单单记录了网页类型。这些网页类型分别是 “frontpage“, “news“, “tech“, “local“, “opinion“, “on-air“, “misc“, “weather“, “health“, “living“, “business“, “sports“, “summary“, “bbs“ (bulletin board service), “travel“, “msn-news“, and “msn-sports“。通过 超高速缓冲器(寄存器)每个网页的服务请求不会被记录到服务日志,因此,它 不会体现在数据中。 2.2 质量分析 此次分析的数据总
5、共有 989818,平均每个用户点击网页的次数是 5.7 次, 每个不同类型的网页有 10 到 5000 个不同的 URL(网页地址) 。从数据的质量上 看,这是一个较大的数据集,数据的量足够大,可以用于数据的挖掘分析,且数 据来源于 Internet Information Server (IIS),有足够可信度。用户平均点击 网页的数据也有 5.7 次,适合用于分析点击网页序列,每种类型的网页也有足够 多的不同网址,符合客观要求。因此从数据质量上看,所选取的数据有分析的必 要。 2.3 基本描述分析 截取部分数据如下: 1 1 2 3 2 2 4 2 2 2 3 3 5 1 6 1 1 6
6、 6 7 7 7 6 6 8 8 8 8 6 9 4 4 4 10 3 10 5 10 4 4 4 1 1 1 11 1 1 1 3 12 12 1 1 每一行代表一个用户所点击的网页,此次选取的数据之中一共有 17 个不 同类型的网页,分别是:frontpage news tech local opinion on-air misc weather msn-news health living business msn-sports sports summary bbs travel 为了方便处理,将以上各个网页进行编号,分别为 1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17。一第三行数据为例对单个用户的数据进行说明。用户 3 第 一次点击 3 号网页,第二次点击 2 号网页,第三次点击 2 号网页,第四次点击 4 号网页等一次类推下去。每一行都是一个用户的记录 4 第三章 数据预处理 3.1 数据处理过程 此次任务是设计基于网页点击次序来推送下一次可能点击的网页。 选取的方 法是 C