1、1 目 录 摘要摘要 1 关键词关键词 1 AbstractAbstract . 1 KeywordsKeywords . 1 一、Web 日志挖掘 2 (一) 、数据预处理 . 2 (二) 、模式发现 . 4 (三) 、模式分析 . 5 二、关联分析 5 (一)关联规则 5 (二)Apriori 方法简介. 7 四、实证分析 8 (一)数据预处理 8 (二)模式发现 9 (三)模式分析 . 10 五、个性化推荐. 11 六 、结束语 12 参考文献. 13 附录. 15 2 基于关联分析的 Web 日志挖掘 摘要摘要:web 日志挖掘是 web 数据挖掘中的一个重要组成部分,通过从 Web
2、访 问日志中发现用户的访问模式,预测用户的浏览行为。 本文主要介绍了 web 数据 挖掘的一般过程及方法,对 Apriori 关联分析方法作了重点阐述,并利用该方法 对某网站某天的部分 web 日志数据进行了实证分析, 得出了用户浏览模式及网页 内容之间的关联规则, 找到单个用户在浏览页面兴趣爱好以及群体用户的浏览习 惯,继而对网站的网页规划布局提出了个性化的意见。 关键词关键词:web 日志挖掘;关联分析;实证分析 Web Log Mining Based On Association Analysis Abstract: Web log mining is an important par
3、t of web data mining, finding the users access pattern in the Web access logs ,the researcher can predict the users browsing behavior. This essay introduces the method of Association analysis in Web log mining,espacally the method of Apriori, at the same time ,we use this method to analysis a partic
4、ular sites log data to find the users browsing patterns and association rules between web pages ;It also finds the browsing interest of a single user and groups users browsing habits, all after then ,we put forward some individual suggestions on web planning. Keywords: Web log mining; Association an
5、alysis; Positive analysis 3 随着WWW在深度和广度上的发展,Internet也前所未有地改变着我们的生活, 数据信息已经在这个时代爆炸了。但是,我们又不得不面对“人们被数据淹没, 人们却饥饿于知识”的现实。随着兴起与20世纪80年代末的数据挖掘在web上的 应用, 从某种程度上改善了上述情况。 根据所挖掘的Web 数据的类型, 可以将Web 数据挖掘分为以下三类: Web 内容挖掘(Web Content Mining)、 Web 结构挖掘(Web Structure Mining)、Web 使用挖掘(Web Usage Mining)(也称为Web日志挖掘) 。
6、Web日志挖掘是指采用数据挖掘的技术, 通过对Web服务器日志中大量的用户访问 记录深入分析,发现用户的访问模式和兴趣爱好等有趣、新颖、潜在有用的以及 可理解的未知信息和知识, 用于分析站点的使用情况, 从而辅助管理和支持决策。 当前,web日志挖掘主要被用于个性化服务与定制、改进系统性能和结构、站点 修改、商业智能以及web特征描述等诸多领域。 一、Web 日志挖掘 Web日志挖掘主要是通过对web浏览的日志数据的分析,发现用户的浏览模 式,更好地规划站点。 下面是一段日志: 2006-10-17 00:00:00202.200.44.43 218.77.130.24 80 GET /favicon.ico Mozilla/5.0+(Windows;+U; +Windows+NT+5.1;+zh-CN;+rv:1.8.0.3)+Gecko/20060426+Firefox/1.5.0.3。 主要包括: 访问时间; 用户IP地址; 访问的URL, 端口; 请求方法( “GET” 、 “POST”等);访问模式;agent,即用户使用的操作系统类