4外文文献译文_外文文献及译文
4外文文献译文由刀豆文库小编整理,希望给你工作、学习、生活带来方便,猜你可能喜欢“外文文献及译文”。
毕业设计(论文)外文文献原文及译文
毕业论文题目: 常用博客和论坛数据自动抓取系
统的设计与实现
文献中文题目: UbiCrawler:一种可扩展的全分布式
网络爬虫
文献英文题目: UbiCrawler: a scalable fully distributed Web crawler 专 业 软件工程 学
号 学 生 姓 名 指 导 教 师 答 辩 日 期 2015-06-25
哈尔滨工业大学 哈尔滨工业大学本科毕业设计(论文)(外文文献)
外文文献译文
UbiCrawler:一种可扩展的全分布式网络爬虫
1.引言
在本文中我们介绍ubicrawler的设计与实现,一种可扩展的,可容错的全分布式网络爬虫,并且我们从先验和后验两方面评估了它的性能。ubicrawler设计的整体结构在[1],[2]和[3]进行了描述。
这项工作是一个项目的一部分,其目的是收集大量的数据集,研究Web的结构。这是从统计分析特定的网络域[4]估计的分布经典参数,如页面排名 5]和重新设计阿里安娜发展的技术,最大的意大利搜索引擎等。
由于该项目的第一阶段,我们发现集中爬虫已不再是足够的在网络中抓取有意义的部分。事实上,它已经认识到,“作为网络的大小成长,成为爬行的过程并行化势在必行,为了完成下载页在一个合理的时间量[6,7]。
许多商业和研究机构运行他们的网络爬虫收集关于Web的数据。即使没有可用的代码,在一些情况下,基本的设计已被公开:这都是是案例,例如,墨卡托 [8](AltaVista爬虫),原来的谷歌爬虫[9],和一些在学术界的爬虫{10–12]。
尽管如此,几乎没有发表的作品实际上探讨了在爬行过程中所涉及的不同任务的并行化这个基本的问题。特别是,我们知道的所有的方法都是使用某种集中管理,决定去访问哪些网址,并存储已经被抓取的网址。最好,这些组件可以被复制,他们的工作可以被划分为静态。
相反,当设计ubicrawler,我们决定把每一项任务,具有明显的可扩展性和容错性方面的优势。
ubicrawler的基本特征: • 平台独立性;
• 充分分配每一个任务(没有单一的故障点和没有集中协调); • 基于一致哈希的局部可计算的地址分配;
• 容忍故障:永久性以及短暂的优雅地处理故障; • 可扩展性。
哈尔滨工业大学本科毕业设计(论文)(外文文献)
• 网址的分布应该是平衡的,即,每个代理应该负责约相同数量的网址。在异构代理的情况下,网址的数目应该是成正比的代理的可用资源(如内存,硬盘容量等)。
可扩展性。每秒的页面数和代理应该是(几乎)独立的代理数量。换句话说,我们期望的吞吐量与代理的数量呈线性增长。
文雅性。一个平行的爬虫决不应该试图从一个给定的主机上获取一页以上的一页。此外,一个合适的延迟,应在随后的请求之间引入相同的主机。
容错性。一个分布式的爬虫应该能继续工作在崩溃故障下,这是当一些代理突然死亡的时候。在这种崩溃的存在下,没有行为可以被假定,除了有缺陷的代理停止通信;特别是,一个不能规定任何行动,一个崩溃的代理人,或恢复其状态之后。当一个代理崩溃,剩余的代理应继续满足就地平衡计算分配的要求:这意味着,在特定的URL,这架代理将被重新分配。
这有2个重要的后果。
• 不可能假设网址是静态分布。
• 由于“就地平衡计算任务的要求必须满足在任何时间”,在崩溃之后依靠分布式分配协议这是不合理的。事实上,在重新分配的要求将被破坏。
3.软件体系结构
ubicrawler由几个代理,自主协调它们的行为,在这样一种方式,每个人扫描其网络的共享。一个代理执行它的任务,通过运行多个线程,每一个单独的主机单独访问。更确切地说,每一个线程扫描一个主机使用广度优先访问。我们确保不同的线程访问不同的主机在同一时间,因此,每个主机不超载太多的要求。这是不是本地主机的给定样本被派遣到代理权,使其在页面被访问队列。因此,整体的Web访问是广度优先,但尽快达到一个新的主机,它是完全访问(可能有界深度达到或总页数),再次在广度优先的方式。
更先进的方法(可以考虑适当的优先级相关的网址,如,他们的排名)可以很容易地实现。然而,值得注意的是,有几个作者(见,例如,[13])认为,广度优先访问倾向于在爬取的时候找到高质量的网页。关于页面质量的一个更深入的讨论,在第6节中给出。
哈尔滨工业大学本科毕业设计(论文)(外文文献)
一个重要的优势是,每个主机广度优先访问DNS请求是罕见的。网络爬虫使用全球广度优先策略必须在DNS服务器的高延迟:这通常是由一个多线程缓存缓冲请求通过了。同样,没有缓存是由“机器人排除标准”[ 14 ]所需的robots.txt文件需要;事实上这样的文件可以下载,当主机访问开始。
代理的主机分配考虑到在每个代理的质量存储资源和带宽。这是目前所做的一个单一的指标,称为能力,这是作为一个权重的分配功能分配主机使用。在某些情况下,每一个代理的主机比例的比例,其容量的主机(见4节的一个精确的描述如何工作)。注意,即使每个主机的URL数量参差不齐,代理人之间的URL分布趋于均匀在大爬虫中。除此之外的经验统计的原因,也有其他的动机,如用于边界的最大数量的网页抓取的政策的使用和访问的最大深度。这样的政策是必要的,以避免(可能是恶意)网络陷阱。
最后,对ubicrawler必不可少的组成部分,是一个可靠的故障检测器[15]使用超时检测撞剂;可靠性是指一个撞剂最终会被每一个活性剂(通常称为故障探测器的理论完备性较强的属性)。故障检测器是ubicrawler唯一同步组件(即使用定时功能的唯一部件);所有其他的组件在一个完全异步的方式进行交互。
4.功能分配
在本节中我们描述的ubicrawler功能分配,和我们解释为什么这个功能可以实现每一个任务和实现容错的目标。
让A表示我们的代理标识符(即潜在的代理的名字),L ⊆ A是活着的代理设置:我们必须指定主机代理L.更确切地说,我们已经设置了功能δ,每个非空集合L活剂,和为每个主机H,代表的责任,取(URLs)H的代理δL(H)∈L。
下列属性是需求的功能分配。
1.平衡。每个代理应该得到大约相同数量的主机;换句话说,如果m是主机(总数),我们想要|δ−1L(a)| ∼ m/|L| 对于每一个 a ∈ L.2.逆变。分配给一个代理主机的设置应该就在失活和活剂激活设置在逆变方式转变。更确切地说,如果L ⊆ L 然后 δ−1 L(a)⊇ δ−1 L(a);也就是说,如果代理的数量增长,每一个代理的网页抓取的部分必须收缩。逆变具有根本性的后果:如果增加一个新的代理,没有旧的代理将
5哈尔滨工业大学本科毕业设计(论文)(外文文献)
引用Boldi P, Codenotti B, SantiniM, Vigna S.Trovatore: Towards a highly scalable distributed web crawler.Poster Proceedings of the 10th International World Wide Web Conference, Hong Kong, China, 2001.ACM Pre: New York, 2001;140–141.Winner of the Best Poster Award.2 Boldi P, Codenotti B, Santini M, Vigna S.Ubicrawler: Scalability and fault-tolerance iues.Poster Proceedings of the 11th International World Wide Web Conference, Honolulu, HI, 2002.ACM Pre: New York, 2002.3 Boldi P, Codenotti B, Santini M, Vigna S.Ubicrawler: A scalable fully distributed web crawler.Proceedings of AusWeb02.The 8th Australian World Wide Web Conference, 2002.4 Boldi P, Codenotti B, Santini M, Vigna S.Structural properties of the African web.Poster Proceedings of the 11 International World Wide Web Conference, Honolulu, HI, 2002.ACM Pre: New York, 2002.5 Page L, Brin S, Motwani R, Winograd T.The pagerank citation ranking: Bringing order to the web.Technical Report,Stanford Digital Library Technologies Project, Stanford University, Stanford, CA, 1998.6 Cho J, Garcia-Molina H.Parallel crawlers.Proceedings of the 11th International World Wide Web Conference, 2002.ACM Pre: New York, 2002.7 Arasu A, Cho J, Garcia-Molina H, Paepcke A, Raghavan S.Searching the web.ACM Transactions on Internet Technology 2001;1(1):2–43.8 Najork M, Heydon A.High-performance web crawling.Handbook of Maive Data Sets, Abello J, Pardalos P, Resende M(eds.).Kluwer: Dordrecht, 2001.th哈尔滨工业大学本科毕业设计(论文)(外文文献)Brin S, Page L.The anatomy of a large-scale hypertextual web search engine.Computer Networks 1998;30(1/7):107–117.10 Yan H, Wang J, Li X, Guo L.Architectural design and evaluation of an efficient Web-crawling system.The Journal of Systems and Software 2002;60(3):185–193.11 Zeinalipour-Yazti D, Dikaiakos M.Design and implementation of a distributed crawler and filtering proceor.Proceedings of NGITS 2002(Lecture Notes in Computer Science, vol.2382).Springer, 2002;58–74.12 Shkapenyuk V, Suel T.Design and implementation of a high-performance distributed web crawler.IEEE International Conference on Data Engineering(ICDE), 2002.IEEE Computer Society, 2002.13 Najork M,Wiener JL.Breadth-first search crawling yields high-quality pages.Proceedings of the 10th International World Wide Web Conference, Hong Kong, China, 2001.ACM Pre: New York, 2001.14 Koster M.The Robot Exclusion Standard.http://www.daodoc.com/ [2001].15 Chandra TD, Toueg S.Unreliable failure detectors for reliable distributed systems.Journal of the ACM 1996;43(2): 225–267.16 Karger D, Lehman E, Leighton T, Levine M, Lewin D, Panigrahy R.Consistent hashing and random trees: Distributed caching protocols for relieving hot spots on the World Wide Web.Proceedings of the 29th Annual ACM Symposium on Theory of Computing, El Paso, TX, 1997.ACM Pre: New York, 1997;654–663.17 Karger D, Leighton T, Lewin D, Sherman A.Web caching with consistent hashing.Proceedings of the 8th International World Wide Web Conference, Toronto, Canada, 1999.ACM Pre: New York, 1999.18 Devine R.Design and implementation of DDH: A distributed dynamic hashing algorithm.Proceedings of the Foundations of