1、 开题题目:基于关键字的交换内容过滤技术的研究与实现 1、选题描述:包括选题的背景、依据和意义、研究目标、研究内容以及对国内外相关领域研究现状的分 析(可附页) 选题背景、依据和意义: 进入21世纪以来,计算机在我国开始普及并迅速发展,在国家有关政策的积极鼓励推进下,我国的信息 化建设获得了巨大的成就。随着互联网的不断快速发展,信息个体之间的互联互通和信息共享已经成为人们 迫切需要解决的问题,企事业单位、政府和军队等部门内部积累了大量的基础数据。但是,出于内外网和不 对等区域之间数据交换安全性问题的考虑,这些部门无法实时和充分地利用这些基础数据作为信息化建设应 用扩展, 因而只能相互独立、数据
2、分散地形成一个个“信息孤岛”、“数据孤岛”,严重影响了其信息化建设的进 一步发展,也为信息化工作的开展带来了不便。此外,因病毒的疯狂肆虐、黑客日益猖獗、软件本身漏洞和 设计缺陷而导致的泄密事件也越来越多,对党政机关、军队等单位的信息安全构成了极大的威胁。 然而,传统的技术手段很难兼顾安全隔离和信息交换两者的需求,更缺乏对信息安全的严格审查,极易 导致攻击代码的流入和重要信息的泄漏。简单的物理隔离、网闸技术等都不能从根本上解决问题,并且缺少 对进程的交换数据中敏感的、涉密的信息进行实时的过滤防护。随之带来了严重的安全隐患。 安全、高效的数据交换是当前企事业单位、各级政府部门和军队信息化建设进一步
3、发展的核心和关键: 随着计算机网络和分布式系统规模的不断扩大,网络硬件平台和操作系统与网络协议之间的异构性越来越明 显, 不同的应用平台与分布式系统形成的一个个“信息孤岛”。 如何实现企业的分布式系统之间可靠的、 高效的、 实时的跨平台数据传输,使应用软件能够平滑地运行于不同平台上是目前政府和军队建设、企业生存和发展 急需解决的问题。然而,不同政务部门、不同级别专网、不同应用平台之间的信息交换存在着严重的安全隐 患,极易导致攻击代码的流入和重要信息的泄漏。因此,安全、高效的进行数据交换是目前迫切需要解决的 问题。 在此背景下,利用可控单向双通道通信、身份认证、访问控制、交换任务定制、敏感信息过
4、滤和交换行 为动态监管等技术,完成在可管可控条件下完成基于行为监管的实时的、高效的、安全的文件交换系统就显 得十分必要。 由于不同部门、不同应用平台和不同密级的信息系统之间的数据安全传输问题的研究和解决变得尤为重 要 , 如 何 来 确 保 信 息 系 统 之 间 所 交 换 信 息 的 安 全 性 , 尤 其 是 对 于 庞 杂 的 文 本 类 (.txt/.doc/.docx/.rtf/.pdf/.excel/.ppt等) 信息, 如何有效地组织和管理这些需要发送的信息, 并快速、 准确、全面地为数据安全交换系统从中检测且过滤出这些敏感的以及不符合要求的信息,是整个系统能否确 保安全交换的
5、关键技术之一。 传统的过滤只能支持少量的格式,主要是简单的TXT文本, 并且笼统地将数据过滤问题归结为某一类过滤, 已经不能满足当前信息发展的需要,而作为一个成熟的、全面的交换系统,我们必须更加全面地对可能出现 敏感信息的文件进行严格过滤,从文件大小、类型和内容过滤等方面,更加细粒度定制过滤交换数据以确保 降低通过交换系统传输的文件出现失泄密情况的可能性。因此为了满足用户日益增长的安全需求,对信息系 统需要传送的数据进行敏感信息、涉密信息检测和过滤的技术研究和实现就具有十分重要的意义。信息系统 交换数据内容中敏感成分检测和过滤模块的设计与实现是系统高效安全运行的重要保证。 研究目标、研究内容:
6、 由于安全交换系统中传输的文件可能包含敏感或涉密信息,因此,在文件发送之前在发送方进行简单的 敏感信息过滤是十分必要的。 敏感信息过滤主要针对文本类文件(.txt/.doc/.docx/.rtf 等)携带的内容进行扫描过滤。保证交换的 内容符合安全交换系统中的定制策略。我采用的基于内容的敏感信息过滤方式,主要包括以下四个过程: (1)建立用户需求模板; (2)提取待过滤文本内容的特征向量; (3)待过滤文本与用户需求的匹配(过滤过程) ; 1 (4)通信信息反馈,改进需求模板。 具体实现原理如下: (1)待过滤文本的特征向量表示 任一篇文本都可用关键词表示成一个n维向量。 设文本U的关键词为 12 (,.,) UUUUn TTTT , U i T 表示 文本中的第i个关键词,其对应的词频向量为 12 (,.,) UUUUn tttt ,词频 U i t 定义为关键词 U i T 在文本U中 出现的次数,若关键词 U i T 在文本中没有出现,则 U i t 为 0。定义文本U对应的权重向量为 12 (,.,) UUUUn WWWW ,其中 Ui W 定义为关键词 U i T