1、 毕业设计文献综述毕业设计文献综述 课题名称课题名称: 网络舆情信息监测方法研究网络舆情信息监测方法研究 学生姓名学生姓名: 学学 号:号: 学学 院:院: 信息科学与技术学院信息科学与技术学院 专业年级专业年级: 计算机科学与技术专业计算机科学与技术专业 指导教师指导教师: 职职 称称: 副教授副教授 完成日期:完成日期: 1 文献综述 1 前言前言 公共危机事件爆发时,犹如以石击水,相关信息在短时间内迅速传播,引起 群众的广泛关注。 一些非理性议论、 小道消息或负面报道常常在一定程度上激发人们普遍的危 机感, 甚至影响到群众对党和政府的信任, 影响到消费者对某一企业品牌的认同。 如不及时采
2、取正确的措施分析和应对,会造成难以估计的后果。所以关注行业敏 感舆情对于相关部门和企业来说非常重要。 目前大部分部门和企业的舆情监测和管理工作主要靠人工来完成。 这样负责 网络舆情监测任务的部门和人员承受着巨大的工作压力。 人工进行舆情监测还会 遇到很多问题: 舆情收集不全面 舆情发现不及时 舆情分析不准确 信息利用不便利 因此,经常出现涉及“与我相关”的舆情信息已经在网上快速传播,一些非 理性和不切实际的信息传播开来,造成了很坏的社会影响,或者通过其他部门得 到反馈,甚至领导都知道了,但是我们负责舆情监测的人员却毫不知情,失去了 第一时间获取和掌握舆情,进而进行及时处理的时机;舆情事件发生以
3、后,我们 也缺乏有效的舆情分析手段,无法提供定性定量的数据用于舆情分析判断;目前 完全靠人工进行舆情信息的收集和上报,费时费力效果不好,也无法提供更加有 用的舆情统计分析数据,为领导提供辅助决策服务。 在新的互联网形势下,需要借助互联网舆情监测工具,及时监测、汇集、研 究判断网上舆情,引导舆论方向,化解危机舆论。跟踪事态发展,及时向有关部 门通报,快速应对处理,变被动为主动,使网络舆情成为领导和相关部门决策的 重要依据。利用舆情监测系统平台,配合相应的舆情工作机制,听取百姓心声, 接受百姓意见建议,树立自觉接受群众监督意识。 本次设计是由识别出的热门话题和敏感词进行主题信息跟踪, 跟踪的具体内
4、 容包括: 信息来源、 转载量、 转载地址、 地域分布、 信息发布者等相关信息元素; 利用动态社会网络分析技术, 以建模的方法将相关信息元素作为关键词整理为矩 2 阵数据,对矩阵数据进行分析,绘制关键词网络图形,再进行社会网络分析中心 度分析,对关系数据进行可视化呈现及量化分析,分析社会网络的进化行为,进 行网络监测,同时运用社会网络变化检测技术进行图形相似度、图形模式识别, 探寻敏感和热点问题及其相互关系,分析敏感人群的关系网络,进行网络异常监 测和预测。 3 2 正文正文 2.1 理论研究理论研究 2.1.1 信息检索技术信息检索技术 信息检索(Information Retrieval)
5、是指信息按一定的方式组织起来,并 根据信息用户的需要找出有关的信息的过程和技术。 信息检索有广义和狭义的之分。 广义的信息检索全称为 “信息存储与检索” , 是指将信息按一定的方式组织和存储起来, 并根据用户的需要找出有关信息的过 程。狭义的信息检索为“信息存储与检索”的后半部分,通常称为“信息查找” 或“信息搜索” ,是指从信息集合中找出用户所需要的有关信息的过程。狭义的 信息检索包括 3 个方面的含义:了解用户的信息需求、信息检索的技术或方法、 满足信息用户的需求。按存储的载体和实现查找的技术手段为标准可划分为:手 工检索、机械检索、计算机检索,其中发展比较迅速的计算机检索是“网络信息 检
6、索” ,也是我们本次研究的重点。而在检索过程中,分类和聚类是经常被使用 到的两种算法,下面,我们对聚类和分类算法分别加以介绍。 2.1.1.1 聚类算法聚类算法 文本聚类主要是依据假设:同类的文档相似度较大,不同类的文档相似度较 小。其主要任务是把一个文本集分为若干个称为簇的子集,然后在给定的某种相 似性度量下,把各个文档分配到与其最相似的簇中。文本聚类不需要事先手工注 明文档的类别,它实现了在无监督机器学习方法中自动化程度较高的聚类。近年 来,在信息检索、多维度自动文摘、话题识别与跟踪等领域都得到了广泛应用。 文本聚类是一个无监督的学习过程, 因此相似性度量方法在此过程中起着至关重 要的作用。下面是基于本系统实现对该技术展开的介绍:VSM(向量空间模型) 、 STC(后缀树)算法和 Lingo 算法。 2.1.1.1.1 VSM 向量空间模型的基本思想是以向量来表示文本: (Wl,W2,Wn ) ,其中 W1 为第 1 个特征项的权重,那么选取什么作为特征项呢,一般可以选择字、词 4 或词组,根据实验结果,普遍认为选取词作为