网页序列分析系统课程设计论文

资源ID：1399961 资源大小：8.50MB 全文页数：33页
资源格式： DOC 下载积分：100金币

快捷下载

账号登录下载

三方登录下载：

下载资源需要100金币

邮箱/手机：
温馨提示：	快捷下载时，用户名和密码都是您填写的邮箱或者手机号，方便查询和重复下载（系统自动生成）。如填写123，账号就是123，密码也是123。
支付方式：
验证码：	换一换

账号：
密码：
验证码：	换一换
当日自动登录忘记密码？

友情提示

1、下载资料失败解决办法

2、PDF文件下载后，可能会被浏览器默认打开，此种情况可以点击浏览器菜单，保存网页到桌面，就可以正常下载了。

3、本站不支持迅雷下载，请使用电脑自带的IE浏览器，或者360浏览器、谷歌浏览器下载即可。

4、本站资源下载后的文档和图纸-无水印,预览文档经过压缩，下载后原文更清晰。

网页序列分析系统课程设计论文

1、目录第一章绪论 1 第二章数据基本分析 . 2 2.1 数据说明 2 2.2 质量分析 2 2.3 基本描述分析. 2 第三章数据预处理 . 4 3.1 数据处理过程. 4 3.2 数据预处理方法 . 4 3.3 数据预处理结果 . 6 第四章数据模型构建 . 8 4.1 数据流的构建. 8 第五章模型结果分析 . 12 5.1 结果的分析处理 12 5.2 结果合理性分析 . 13 第六章应用系统设计 . 16 6.1 模型接口 16 6.2 人机接口 19 6.3 软件测试 24 结论 . 30 参考文献. 31 结束语 . 32 1 第一章绪论由于网站的结构设计，对

2、特定用户而言信息获取的代价与所经过的浏览路径长度成正比，这些位于路径中间的不必要的文档就无疑增加了用户获取信息的代价。本文利用 Clementine 数据挖掘的方法和技术对用户所访问的页面序列进行挖掘，构建网页推荐的模型，实现对当前站点排序方式的优化，从而最大限度地优化用户访问体验，提高当前站点信息获取的整体效率。关键词网页推荐；Clememtine 数据挖掘；访问序列传统的 Web 网站以系统自身为中心，为了容纳大量的信息，以图结构组织网站，页面之间存在着比较复杂的层次关系。这些预先设计好的浏览路径(网站的结构)严格按照设计者编辑好的层次返回页面，因此，为了获取特定的信息

3、，从同一页面出发的所有用户都不得不重复地经过很多与自己毫无关系的、不希望看到的中间链接页面，使得用户为了获取少量的信息付出较大的代价。如果在确保网页内容的前提下，实现网站物理结构的调整和再组织，就可以避免混乱。站点路径优化实际上就是站点管理者优化其站点结构，它的出现就是为了提高用户的访问效率以及用户对站点的忠诚度。 2 第二章数据基本分析 2.1 数据说明本数据来自网络信息服务（IIS）网站和 1999 年 9 月 28 日全天日志记录，每行连续数据表示单个用户 24 小时内浏览网页的记录，连续数据中的数字表示用户对相应网页的浏览请求，该访问请求不会被记录成详细的记

4、录，即具体的网址，而只是单单记录了网页类型。这些网页类型分别是 “frontpage“, “news“, “tech“, “local“, “opinion“, “on-air“, “misc“, “weather“, “health“, “living“, “business“, “sports“, “summary“, “bbs“ (bulletin board service), “travel“, “msn-news“, and “msn-sports“。通过超高速缓冲器（寄存器）每个网页的服务请求不会被记录到服务日志，因此，它不会体现在数据中。 2.2 质量分析此次分析的数据总

5、共有 989818，平均每个用户点击网页的次数是 5.7 次，每个不同类型的网页有 10 到 5000 个不同的 URL（网页地址）。从数据的质量上看，这是一个较大的数据集，数据的量足够大，可以用于数据的挖掘分析，且数据来源于 Internet Information Server (IIS)，有足够可信度。用户平均点击网页的数据也有 5.7 次，适合用于分析点击网页序列，每种类型的网页也有足够多的不同网址，符合客观要求。因此从数据质量上看，所选取的数据有分析的必要。 2.3 基本描述分析截取部分数据如下： 1 1 2 3 2 2 4 2 2 2 3 3 5 1 6 1 1 6

6、 6 7 7 7 6 6 8 8 8 8 6 9 4 4 4 10 3 10 5 10 4 4 4 1 1 1 11 1 1 1 3 12 12 1 1 每一行代表一个用户所点击的网页，此次选取的数据之中一共有 17 个不同类型的网页，分别是：frontpage news tech local opinion on-air misc weather msn-news health living business msn-sports sports summary bbs travel 为了方便处理，将以上各个网页进行编号，分别为 1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17。一第三行数据为例对单个用户的数据进行说明。用户 3 第一次点击 3 号网页，第二次点击 2 号网页，第三次点击 2 号网页，第四次点击 4 号网页等一次类推下去。每一行都是一个用户的记录 4 第三章数据预处理 3.1 数据处理过程此次任务是设计基于网页点击次序来推送下一次可能点击的网页。选取的方法是 C

注意事项: 本文（网页序列分析系统课程设计论文）为本站会员（毕***）主动上传，毕设资料网仅提供信息存储空间，仅对用户上传内容的表现方式做保护处理，对上载内容本身不做任何修改或编辑。若此文所含内容侵犯了您的版权或隐私，请联系网站客服QQ：540560583，我们立即给予删除！