当前位置:主页 > 计算机软件论文 >

MapReduce作业性能优化与调度算法研究

更新时间:2019-09-09
阅享价格100元 资料包括:原始论文 点击这里给我发消息QQ在线咨询
文档格式:doc/docx 全文字数:18000 温馨提示
以下仅列出文章摘要、提纲简介,如需获取全文阅读权限,或原创定制、长期合作,请随时联系。
微信QQ:312050216 点击这里给我发消息
扫一扫 扫一扫
MapReduce作业性能优化与调度算法研究

摘要

本文对Hadoop平台中的相关算法进行详细的分析,在此基础上提出了基于流水线的重叠调度策略——POSA调度算法,其核心技术是数据预取技术,目的是为了提高Hadoop的整体性能。
论文所做的主要工作如下:
(1)深入研究了Hadoop平台,详细介绍了HDFS和MapReduce的相关技术以及作业在YARN中的执行流程。
(2)以Hadoop中MapReduce的开源实现为基础,详细分析Hadoop中现有的三种作业调度算法,包括先进先出调度算法(FIFO)、计算能力(Capacity)调度算法和公平份额(Fair)调度算法。同时对国内外学者提出的改进算法也进行了研究。在此基础之上提出了基于流水线的重叠调度策略——POSA调度算法。
(3)对本文提出的POSA算法,对其三大模块:Scheduler+调度模块、SRT任务选取模块以及PW数据预取模块进行了详细的算法设计与实现,并与2.7.2源码整合编译。
(4)搭建Hadoop集群,将POSA调度算法与原生的公平调度算法(Fair)、计算能力调度算法(Capacity)进行实验,实验结果表明,本文所提出的POSA调度算法在一定程度上提升了Hadoop系统在作业调度上的性能。


目录

1 MapReduce作业调度算法研究 1
1.1 MapReduce原生调度算法分析 1
1.1.1 FIFO调度算法 1
1.1.2 Fair调度算法 2
1.1.3 Capacity调度算法 5
1.1.4 原生调度算法小结 7
1.2 LATE调度算法 8
1.3 本章小结 9
2 基于流水线的重叠调度算法设计与实现 10
2.1 引言 10
2.2 数据预取相关技术研究 10
2.3 数据预取时机 11
2.4 流水线调度算法的设计与实现 14
2.4.1 整体框架 14
2.4.2 Scheduler+调度模块 15
2.4.3 SRT任务选取模块 18
2.4.4 PW数据预取模块 21
2.5 POSA调度算法与Hadoop2.7.2的整合 23
2.5.1 源码改进类图 23
2.5.2 重新编译源码的过程 25
2.6 本章小结 26
3 实验结果与分析 27
3.1 Hadoop实验环境搭建 27
3.2 实验测试集与数据来源 28
3.2.1 实验测试集的选择 28
3.2.2 实验数据来源 29
3.3 POSA调度算法性能实验与分析 29
3.3.1 作业响应时间分析 29
3.3.2 数据本地化率分析 32
3.3.3 任务执行效率分析 35
3.4 本章小结 36
4 结论与展望 37
4.1 论文工作总结 37
4.2 展望 37