欢迎来到毕设资料网! | 帮助中心 毕设资料交流与分享平台
毕设资料网
全部分类
  • 毕业设计>
  • 毕业论文>
  • 外文翻译>
  • 课程设计>
  • 实习报告>
  • 相关资料>
  • ImageVerifierCode 换一换
    首页 毕设资料网 > 资源分类 > DOC文档下载
    分享到微信 分享到微博 分享到QQ空间

    毕业设计---网络爬虫设计与实现

    • 资源ID:1407245       资源大小:409.50KB        全文页数:36页
    • 资源格式: DOC        下载积分:100金币
    快捷下载 游客一键下载
    账号登录下载
    三方登录下载: QQ登录
    下载资源需要100金币
    邮箱/手机:
    温馨提示:
    快捷下载时,用户名和密码都是您填写的邮箱或者手机号,方便查询和重复下载(系统自动生成)。
    如填写123,账号就是123,密码也是123。
    支付方式: 支付宝   
    验证码:   换一换

     
    账号:
    密码:
    验证码:   换一换
      忘记密码?
        
    友情提示
    2、PDF文件下载后,可能会被浏览器默认打开,此种情况可以点击浏览器菜单,保存网页到桌面,就可以正常下载了。
    3、本站不支持迅雷下载,请使用电脑自带的IE浏览器,或者360浏览器、谷歌浏览器下载即可。
    4、本站资源下载后的文档和图纸-无水印,预览文档经过压缩,下载后原文更清晰。

    毕业设计---网络爬虫设计与实现

    1、 毕业设计(论文)说明书毕业设计(论文)说明书 学学 院院 软件学院软件学院 专专 业业 软件工程软件工程 年年 级级 2007 姓姓 名名 指导教师指导教师 毕业设计(论文)任务书毕业设计(论文)任务书 题目:网络爬虫设计与实现 一、原始依据(包括设计或论文的工作基础、研究条件、应用环 境、工作目的等。 ) 互联网是一个庞大的非结构化的数据库, 将数据有效的检索并组织呈现出来 有着巨大的应用前景。 搜索引擎作为一个辅助人们检索信息的工具成为用户访问 万维网的入口和指南。但是,这些通用性搜索引擎也存在着一定的局限性。不同 领域、不同背景的用户往往具有不同的检索目的和需求,通用搜索引擎所返回的

    2、结果包含大量用户不关心的网页。 所以需要一个能基于主题搜索的满足特定需求 的网络爬虫。 为了解决上述问题,参照成功的网络爬虫模式,对网络爬虫进行研究,从而 能够为网络爬虫实现更深入的主题相关性,提供满足特定搜索需求的网络爬虫。 二、参考文献 1Winter中文搜索引擎技术解密:网络蜘蛛 M北京:人民邮电出版社, 2004 年 2Sergey 等The Anatomy of a Large-Scale Hypertextual Web Search Engine M北京:清华大学出版社,1998 年 3WisenutWiseNut Search Engine white paper M北京:中国

    3、电力出版 社,2001 年 4Gary R.Wright W.Richard StevensTCP-IP 协议详解卷 3:TCP 事务协议, HTTP,NNTP 和 UNIX 域协议 M北京:机械工业出版社,2002 年 1 月. 5罗刚 王振东自己动手写网络爬虫M北京:清华大学出版社,2010 年 10 月. 6李晓明,闫宏飞,王继民搜索引擎:原理、技术与系统华夏英才基金 学术文库M北京:科学出版社,2005 年 04 月. 三、设计(研究)内容和要求(包括设计或研究内容、主要指标 与技术参数,并根据课题性质对学生提出具体要求。 ) 本课题的主要目的是设计面向主题的网络爬虫程序, 同时需要满

    4、足的是具有 一定的性能,要考虑到网络爬虫的各种需求。 网络爬虫应用宽度搜索技术。对 url 进行分析,去重。网络爬虫使用多线程 技术,让爬虫具备更强大的抓取能力。网络爬虫要实现对特定主题的爬取。网络 爬虫还要完成信息提取任务,对于抓取回来的网页提取出来:新闻、电子图书、 行业信息等。对网络爬虫的连接网络设置连接及读取时间,避免无限制的等待。 研究网络爬虫的原理并实现爬虫的相关功能。 最终实现的网络爬虫应该能根据设定的主题, 从设定的 url 进行一定深度的 搜索,并最终得到需要的数据。 指导教师(签字) 年 月 日 毕业设计(论文)开题报告 课题名称 网络爬虫设计与实现 学院名称 软件学院 专

    5、业名称 软件工程 学生姓名 指导教师 (内容包括:课题的来源及意义,国内外发展状况,本课题的研究目标、研究内 容、研究方法、研究手段和进度安排,实验方案的可行性分析和已具备的实验条 件以及主要参考文献等。 ) 一课题的来源及意义 互联网是一个庞大的非结构化的数据库, 将数据有效的检索并组织呈现出来 有着巨大的应用前景。 搜索引擎作为一个辅助人们检索信息的工具成为用户访问 万维网的入口和指南。但是,这些通用性搜索引擎也存在着一定的局限性。不同 领域、不同背景的用户往往具有不同的检索目的和需求,通用搜索引擎所返回的 结果包含大量用户不关心的网页。为了解决这个问题,一个灵活的爬虫有着无可 替代的重要

    6、意义。 二国内外发展状况 对于网络爬虫的研究从上世纪九十年代就开始了, 目前爬虫技术已经趋见成 熟,网络爬虫是搜索引擎的重要组成部分。网络上比较著名的开源爬虫包括 Nutch,Larbin,Heritrix。网络爬虫最重要的是网页搜索策略(广度优先和最 佳度优先)和网页分析策略(基于网络拓扑的分析算法和基于网页内容的网页分 析算法) 。 三研究目标 本论文主要研究搜索引擎的搜索器(网络爬虫程序)的设计与实现,实现简 单的可在后台自动运行的爬虫程序。 1.可以多线程进行抓取。 2.可以进行面向主题的抓取。 四研究内容 本课题研究的内容是如何使网络爬虫灵活高效。 1.如何具备更强的抓取能力。 2.如何分辨重复的网页内容。 3.如何确定主题相关性。 4.对于网络时延等的处理。 五研究方法 网络爬虫应用宽度搜索技术。对 url 进行分析,去重。网络爬虫使用多线程 技术,让爬虫具备更强大的抓取能力。网络爬虫


    注意事项

    本文(毕业设计---网络爬虫设计与实现)为本站会员(课***)主动上传,毕设资料网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对上载内容本身不做任何修改或编辑。 若此文所含内容侵犯了您的版权或隐私,请联系网站客服QQ:540560583,我们立即给予删除!




    关于我们 - 网站声明 - 网站地图 - 资源地图 - 友情链接 - 网站客服 - 联系我们
    本站所有资料均属于原创者所有,仅提供参考和学习交流之用,请勿用做其他用途,转载必究!如有侵犯您的权利请联系本站,一经查实我们会立即删除相关内容!
    copyright@ 2008-2025 毕设资料网所有
    联系QQ:540560583