MapReduce作业性能优化与调度算法研究 摘要 本文对Hadoop平台中的相关算法进行详细的分析,在此基础上提出了基于流水线的重叠调度策略——POSA调度算法,其核心技术是数据预取技术,目的是为了提高Hadoop的整体性能。 论文所做的主要工作如下: (1)深入研究了Hadoop平台,详细介绍了HDFS和MapReduce的相关技术以及作业在YARN中的执行流程。 (2)以Hadoop中MapReduce的开源实现为基础,详细分析Hadoop中现有的三种作业调度算法,包括先进先出调度算法(FIFO)、计算能力(Capacity)调度算法和公平份额(Fair)调度算法。同时对国内外学者提出的改进算法也进行了研究。在此基础之上提出了基于流水线的重叠调度策略——POSA调度算法。 (3)对本文提出的POSA算法,对其三大模块:Scheduler+调度模块、SRT任务选取模块以及PW数据预取模块进行了详细的算法设计与实现,并与2.7.2源码整合编译。 (4)搭建Hadoop集群,将POSA调度算法与原生的公平调度算法(Fair)、计算能力调度算法(Capacity)进行实验,实验结果表明,本文所提出的POSA调度算法在一定程度上提升了Hadoop系统在作业调度上的性能。 目录 1 MapReduce作业调度算法研究 1 1.1 MapReduce原生调度算法分析 1 1.1.1 FIFO调度算法 1 1.1.2 Fair调度算法 2 1.1.3 Capacity调度算法 5 1.1.4 原生调度算法小结 7 1.2 LATE调度算法 8 1.3 本章小结 9 2 基于流水线的重叠调度算法设计与实现 10 2.1 引言 10 2.2 数据预取相关技术研究 10 2.3 数据预取时机 11 2.4 流水线调度算法的设计与实现 14 2.4.1 整体框架 14 2.4.2 Scheduler+调度模块 15 2.4.3 SRT任务选取模块 18 2.4.4 PW数据预取模块 21 2.5 POSA调度算法与Hadoop2.7.2的整合 23 2.5.1 源码改进类图 23 2.5.2 重新编译源码的过程 25 2.6 本章小结 26 3 实验结果与分析 27 3.1 Hadoop实验环境搭建 27 3.2 实验测试集与数据来源 28 3.2.1 实验测试集的选择 28 3.2.2 实验数据来源 29 3.3 POSA调度算法性能实验与分析 29 3.3.1 作业响应时间分析 29 3.3.2 数据本地化率分析 32 3.3.3 任务执行效率分析 35 3.4 本章小结 36 4 结论与展望 37 4.1 论文工作总结 37 4.2 展望 37 |
MapReduce作业性能优化与调度算法研究
更新时间:2019-09-09
上一篇:KVM虚拟化技术平台构建
下一篇:高校党员信息管理系统分析与设计