1、 1 本科毕业设计 (论文) 外文 翻译 学生姓名 专业班级 08 信息工程 1 班 中文译名 本体论语义搜索引擎模型 外 文原文名 Prototype of Semantic Search Engine Using Ontology 外 文原文版出处 2010 IEEE Conference on Open Systems (ICOS 2010), December 5-7, 2010, Kuala Lumpur, Malaysia 本体论 语义搜索引擎模型 Ahmad Maziz Esa, Shakirah Mohd Taib, Nguyen Thi Hong 计算机信息科学 马来西亚国油
2、大学 霹雳州 端洛 , .my, 摘要 在这篇文章中我们主要研究讨论网络信息检索的基本问题。信息在网络上是不会被 按照语义分类 并储存的。本文主要研究适合基于 Ontology 的搜索引擎的语义功能。通过使用 Ontology,搜索引擎将可以搜索概念相关的关键字来取代以往只搜索类似单词的搜索引擎。本文也提供了关于提议改进的搜索引 擎的较深层次的结构设计。本文描述了机制工作原理,基于机制工作原理,搜索引擎能够提取基于实体论而储存的信息并提出一个与搜索结果相关联的语义。在本文中也讨论了实体语义搜索引擎的成效以及在未来的发展。 关键词 ;搜索引擎 , 语义 , 信息检索 ,Ontology. 介绍
3、 最初的网络是静态的,它允许使用者们能够打开并阅读网页的内容,在用户和网络之间只存在一种单向的互动,随着技术的进步 ,Web-enabled装置越来越便宜 ,更无所不在的。 2 越来越多的人能够访问网络利用丰富的信息。这引发了一种在网站的使用和人们的互动网络上 的价值观的转换。专家的平民创造了这个转向网络 Web2.0。 Web2.0的地点让用户更方便的进行图形与声音上的网络 交互 1。用户还可以出版他们的资料以供其他使用者来购买。 这给予 Friendster2,Youtube3, Blogger4和 Facebook5等 基于 Web2.0的技术一个发展的方向。这是一个信息取之于用户,用之
4、于用户的时代。 内容创作并不是仅仅局限于一个组织而是任何一个有权访问互联网的用户。如 Tim Berners Lee在他的书编织网 6中提到的 ,网络将会在其搜索的网页 上实现语义功能使其能够理解人类所使用的单词和条款。 大量的信息放到网上可以使用搜索引擎检索。自从 Web1.0 出现以来 ,许多搜索引擎得到了迅速的发展并逐渐的商业化。这些搜索引擎诸如谷歌 7, Ask Jeeves 8、雅虎 9、以及Lycos10等,在他们的时代在所有的搜索引擎中都处于统治地位。搜索引擎通过在网络上搜索信息并方便快捷的检索给用户。但是早期的搜索引擎事实上并不是一个搜索引擎。相反它是一个服务提供商手动索引的包
5、含了索引信息的目录。谷歌最早的实现了自动化,检索以及爬虫机制,这些功能使得 搜索引擎能够自动的在网页上爬行并索引检索网页,以供用户搜索 11。 谷歌使用通过追踪而来的链接以及与那些链接相关联的其他网页排序而来的网页。一个页面所关联的链接越多,这个页面也就越可信,因此这个页面也将排在其他页面的前面。所有的这些都是利用数学算法通过计算频率以及反任期期限的频率来尖酸的。数据爬行以及抓取被储存在一个反向的数据库内,这使得搜索引擎能够找到术语存在的的文件以及链接。 毫无疑问,网上搜集的信息越来越多。至于现在,现在的搜索引擎利用数学算法将可以克服这些困难。随着 信息的采集越来越大 ,传统搜索引擎的 准确性
6、将越来越低。而不断降低的结果准确率将随着信息搜集量的急剧增长而进一步恶化。这项工作旨在从不同的角度 3 解决这个问题。不再依靠机器速度以及处理能力来保持搜索引擎的准确性,采用更加复杂的数学算法,这项工作将探索语义搜索引擎。通过在搜索引擎中实现语义机制,使得信息在理论上可以相互关联。这将给予信息一个语义的索引,它可以大大提升信息检索的功能。本次主要研究基本分析语义搜索引擎以及搜索引擎的发展,这种发展将使得用户可以更精确的得到所要的信息。 第二部分描述了所做的相关作品。第三部分描述了发展一个语义搜索引擎的分析方法。第四部分介绍了为搜索引擎提供语义功能的架构以及算法。第五部分总结全文,最后第六部分描
7、述了未来对这项工作的展望。 相关工作 目前 , 一个通用目的的 语义的 搜索引擎已经被发展出来。此搜索引擎在 可以获取。然而,大多数搜索引擎的机制拥有专利并被用于商业使用。 Tim Berners Lee 6提及,专利是网络发展的一个巨大的绊脚石。 Hakia12的所有技术都拥有专利并且是商业机密。这对于学术界对今后搜索引擎系统的改进以及其他应用的研究是一个巨大的阻碍。 许多搜索引擎已经发展在 全国各地来的。其中最具优势的是谷歌 7。各部门一起工作来产生搜索结果。在架构上,谷歌利用页级算法来识别结果的相关性。排序算法将在下一节里更加详细的解释。爬虫工作将穿越 24/7 超链接并下载网页内容放进储存器。所有的内容索引和解析被储存到另一个存储区域。该索引是反向的 ,让每一个术语可以与很多单词相关联。 排序算法按照引用的原则排序网页。越多的链接提到这个特别链接,那么这个链接分数便越高。网页的内容多少也会被给予考虑。如果一个网页内容丰富并引用了一个网页 ,它的分数将更高。更高的分数将在网页排序中得到更高的位置。 网页排序在所有的页面中