网络爬虫外文翻译---基于网络爬虫的有效URL缓存
《网络爬虫外文翻译---基于网络爬虫的有效URL缓存》由会员分享,可在线阅读,更多相关《网络爬虫外文翻译---基于网络爬虫的有效URL缓存(25页珍藏版)》请在毕设资料网上搜索。
1、外文资料原文 外文资料原文 Efficient URL Caching for World Wide Web Crawling Andrei Z. Broder IBM TJ Watson Research Center 19 Skyline Dr Hawthorne, NY 10532 Marc Najork Microsoft Research 1065 La Avenida Mountain View, CA 94043 Janet L. Wiener Hewlett Packard Labs 1501 Page Mill Road Palo Alto, CA 94304 ABST
2、RACT Crawling the web is deceptively simple: the basic algorithm is (a)Fetch a page (b) Parse it to extract all linked URLs (c) For all the URLs not seen before, repeat (a) (c). However, the size of the web (estimated at over 4 billion pages) and its rate of change (estimated at 7% per week) move th
- 配套讲稿:
如PPT文件的首页显示word图标,表示该PPT已包含配套word讲稿。双击word图标可打开word文档。
- 特殊限制:
部分文档作品中设计图片,仅作为作品整体效果示例展示,禁止商用。设计者仅对作品中独创性部分享有著作权。
- 关 键 词:
- 网络 爬虫 外文 翻译 基于 有效 URL 缓存
