1、 毕 业 设 计(论 文) 题 目: 数据流上频繁项挖掘方法研究 专 业: 信息安全 学生姓名: 班级学号: 指导教师: 指导单位: 信息安全系 日期: 2008 年 3 月 21 日至 2008 年 6 月 10 日 摘 要 发现数据流中的频繁项是数据流挖掘中最基本的问题之一。数据流的无限性和流动性 使得传统的频繁模式挖掘算法难以适应。针对数据流的特点,论文对数据流处理技术和数 据流挖掘中的关键问题进行了研究和总结,并对一些经典的频繁项挖掘算法进行了介绍。 在借鉴 FP-growth算法的基础上, 采用了一种较新的数据流频繁模式挖掘的算法: FP-stream 算法。 算法受能够进行有效频繁
2、项挖掘的数据结构 FP-tree 的启发, 创造了一个可以在数据 流上进行有效挖掘的数据结构 FP-stream。一个 FP-stream结构包含(a)一个可捕捉频繁项和 次频繁项的内存中的频繁树,(b)每一个频繁项都有的倾斜时间窗口表。构建、更新和维护 该结构实现了在数据流上的挖掘。分析和实验证明了其性能。最后对未来的研究方向进行 了展望。 关键词: 数据流; 频繁项; 流数据挖掘; FP-stream算法; 倾斜时间窗口; ABSTRACT Finding frequent items is one of the most basic problems in the data stream
3、. The limitless and mobility of data streams make the traditional frequent-pattern algorithm difficult to extend to data streams. According to the character of data streams, a new FP-stream algorithm for mining frequent items for data streams is proposed. Inspired by the fact that the FP-tree provid
4、es an effective data structure for frequent pattern mining, we develop FP-stream, an effective FP-tree-based model for mining frequent patterns from data streams. In addition, An FP-stream structure consists of (a) an in-memory frequent pattern-tree to capture the frequent itemset information, and (b) a tilted-time window table for each frequent pattern. Efficient algorithms for constructing, maintaining and updating an FP-stream