外文翻译(中文)--对于Hadoop处理小文件的性能优化
-
资源ID:132582
资源大小:812.83KB
全文页数:15页
- 资源格式: DOCX
下载积分:100金币
快捷下载

账号登录下载
三方登录下载:
友情提示
2、PDF文件下载后,可能会被浏览器默认打开,此种情况可以点击浏览器菜单,保存网页到桌面,就可以正常下载了。
3、本站不支持迅雷下载,请使用电脑自带的IE浏览器,或者360浏览器、谷歌浏览器下载即可。
4、本站资源下载后的文档和图纸-无水印,预览文档经过压缩,下载后原文更清晰。
|
外文翻译(中文)--对于Hadoop处理小文件的性能优化
1、PDF外文:http:/ 中文 4310 字 对于 Hadoop 处理小文件的 性能 优化 Neethu Mohandas 和 Sabu M. Thampi 印度 科钦 Rajagiri工程 与 技术 学院 摘要 Hadoop是由 Dong Cutting提出的,一个顶级的 Apache项目。用于支持 千级别的庞大数据的分布式应用。它是一个开源的软件框架,灵感来自于谷歌的 MapReduce编程模型和谷歌的系统文件。它是由全球社区的开发者用 java共同研发的。Hadoop被广泛地应用与世界各地的各种学
2、术科研机构和商业组织,还 包括了common hadoop, hadoop文件系统 (HDFS)和 MapReduce作为其子项目。 common hadoop包含了支持其他子项目的通用工具。 HDFS是一个高性能的分布式文件系统,Hadoop给予了 HDFS高度的访问程序数据的性能。 它还通过数据复制提高了可靠性,并 同时 保持数据的完整性 。 MapReduce的是基于 MapReduce算法 的一个 能 在集群上进行大量的分布式数据计算的 软件框架 。 虽然 Hadoop被广泛的使用,但是由于种种问题,它的潜力还没有被充分发挥出来,小文件的问题就是其中之一。在 hadoop的 0.18.
3、0版本开始, hadoop归档被作为处理小文件的解决方案被引入 hadoop。 文件序列化也可以作为一种解决方案。这两种解决方案各自有自己的优点和缺点。我们提出的与建议预计将获得两个解决方案的优点,同时确保 hadoop有一个更好的性能。 关键词 : hadoop, hadoop分布式文件系统( HDFS) ,MapReduce,小文件问题, hadoop归档,文件序列化 1 绪论 在分布式计算的时代, hadoop飞速发展起来,它在涉及 TB和 PB级别的计算处理中,表现出极佳的性能和高效的处理能力。 这些成就可能源于一个名为MapRedu
4、ce的底层软件架构和一个名为 HDFS的分布式文件系统。 MapReduce正像它的名字表现的,是一个基于 Map和 Reduce两步的支持大量计算的软件框架。 Map和 Reduce两个步骤的概念都源于函数是编程语言。 在 2004年的 OSDI中,谷歌提交了一份关于 MapReduce的文件,标志着这项工程的动工。 Hadoop是基于 java的MapReduce实现,它的基 本概念即为将一个巨大的难以管理的计算分成更小的可管理的块。 HDFS,从另一方面来说,是受了谷歌文件系统的启发。 它依靠它的可靠的数据存储 , 数据的高完整性,以及最重要的高吞吐量,来 支持 hadoop高性能的大型计算。 因此, Hadoop广泛地受到了网络,搜索,金融,科研机构等市场的青睐。