毕业设计---网络爬虫设计与实现

资源ID：1407245 资源大小：409.50KB 全文页数：36页
资源格式： DOC 下载积分：100金币

快捷下载

账号登录下载

三方登录下载：

下载资源需要100金币

邮箱/手机：
温馨提示：	快捷下载时，用户名和密码都是您填写的邮箱或者手机号，方便查询和重复下载（系统自动生成）。如填写123，账号就是123，密码也是123。
支付方式：
验证码：	换一换

账号：
密码：
验证码：	换一换
当日自动登录忘记密码？

友情提示

1、下载资料失败解决办法

2、PDF文件下载后，可能会被浏览器默认打开，此种情况可以点击浏览器菜单，保存网页到桌面，就可以正常下载了。

3、本站不支持迅雷下载，请使用电脑自带的IE浏览器，或者360浏览器、谷歌浏览器下载即可。

4、本站资源下载后的文档和图纸-无水印,预览文档经过压缩，下载后原文更清晰。

毕业设计---网络爬虫设计与实现

1、毕业设计（论文）说明书毕业设计（论文）说明书学学院院软件学院软件学院专专业业软件工程软件工程年年级级 2007 姓姓名名指导教师指导教师毕业设计（论文）任务书毕业设计（论文）任务书题目：网络爬虫设计与实现一、原始依据（包括设计或论文的工作基础、研究条件、应用环境、工作目的等。）互联网是一个庞大的非结构化的数据库，将数据有效的检索并组织呈现出来有着巨大的应用前景。搜索引擎作为一个辅助人们检索信息的工具成为用户访问万维网的入口和指南。但是，这些通用性搜索引擎也存在着一定的局限性。不同领域、不同背景的用户往往具有不同的检索目的和需求，通用搜索引擎所返回的

2、结果包含大量用户不关心的网页。所以需要一个能基于主题搜索的满足特定需求的网络爬虫。为了解决上述问题，参照成功的网络爬虫模式，对网络爬虫进行研究，从而能够为网络爬虫实现更深入的主题相关性，提供满足特定搜索需求的网络爬虫。二、参考文献 1Winter中文搜索引擎技术解密：网络蜘蛛 M北京：人民邮电出版社， 2004 年 2Sergey 等The Anatomy of a Large-Scale Hypertextual Web Search Engine M北京：清华大学出版社，1998 年 3WisenutWiseNut Search Engine white paper M北京：中国

3、电力出版社，2001 年 4Gary R.Wright W.Richard StevensTCP-IP 协议详解卷 3：TCP 事务协议， HTTP，NNTP 和 UNIX 域协议 M北京：机械工业出版社，2002 年 1 月. 5罗刚王振东自己动手写网络爬虫M北京：清华大学出版社，2010 年 10 月. 6李晓明，闫宏飞，王继民搜索引擎：原理、技术与系统华夏英才基金学术文库M北京：科学出版社，2005 年 04 月. 三、设计（研究）内容和要求（包括设计或研究内容、主要指标与技术参数，并根据课题性质对学生提出具体要求。）本课题的主要目的是设计面向主题的网络爬虫程序，同时需要满

4、足的是具有一定的性能，要考虑到网络爬虫的各种需求。网络爬虫应用宽度搜索技术。对 url 进行分析，去重。网络爬虫使用多线程技术，让爬虫具备更强大的抓取能力。网络爬虫要实现对特定主题的爬取。网络爬虫还要完成信息提取任务，对于抓取回来的网页提取出来:新闻、电子图书、行业信息等。对网络爬虫的连接网络设置连接及读取时间，避免无限制的等待。研究网络爬虫的原理并实现爬虫的相关功能。最终实现的网络爬虫应该能根据设定的主题，从设定的 url 进行一定深度的搜索，并最终得到需要的数据。指导教师（签字）年月日毕业设计（论文）开题报告课题名称网络爬虫设计与实现学院名称软件学院专

5、业名称软件工程学生姓名指导教师（内容包括：课题的来源及意义，国内外发展状况，本课题的研究目标、研究内容、研究方法、研究手段和进度安排，实验方案的可行性分析和已具备的实验条件以及主要参考文献等。）一课题的来源及意义互联网是一个庞大的非结构化的数据库，将数据有效的检索并组织呈现出来有着巨大的应用前景。搜索引擎作为一个辅助人们检索信息的工具成为用户访问万维网的入口和指南。但是，这些通用性搜索引擎也存在着一定的局限性。不同领域、不同背景的用户往往具有不同的检索目的和需求，通用搜索引擎所返回的结果包含大量用户不关心的网页。为了解决这个问题，一个灵活的爬虫有着无可替代的重要

6、意义。二国内外发展状况对于网络爬虫的研究从上世纪九十年代就开始了，目前爬虫技术已经趋见成熟，网络爬虫是搜索引擎的重要组成部分。网络上比较著名的开源爬虫包括 Nutch，Larbin，Heritrix。网络爬虫最重要的是网页搜索策略（广度优先和最佳度优先）和网页分析策略（基于网络拓扑的分析算法和基于网页内容的网页分析算法）。三研究目标本论文主要研究搜索引擎的搜索器（网络爬虫程序）的设计与实现,实现简单的可在后台自动运行的爬虫程序。 1.可以多线程进行抓取。 2.可以进行面向主题的抓取。四研究内容本课题研究的内容是如何使网络爬虫灵活高效。 1.如何具备更强的抓取能力。 2.如何分辨重复的网页内容。 3.如何确定主题相关性。 4.对于网络时延等的处理。五研究方法网络爬虫应用宽度搜索技术。对 url 进行分析，去重。网络爬虫使用多线程技术，让爬虫具备更强大的抓取能力。网络爬虫

注意事项: 本文（毕业设计---网络爬虫设计与实现）为本站会员（课***）主动上传，毕设资料网仅提供信息存储空间，仅对用户上传内容的表现方式做保护处理，对上载内容本身不做任何修改或编辑。若此文所含内容侵犯了您的版权或隐私，请联系网站客服QQ：540560583，我们立即给予删除！