MapReduce作业性能优化与调度算法研究_转角的夏天—原创毕业论文成稿分享交流与写作参考大全！

文档价格：100 元	资料包括：原始论文	QQ在线咨询
文档格式：doc/docx	全文字数：18000	↓↓立即下载全文温馨提示

以下仅列出文章摘要、目录等部分内容，如需获取完整论文资料，或原创定制、长期合作，请随时联系。
微信QQ:312050216

MapReduce作业性能优化与调度算法研究

摘要

本文对Hadoop平台中的相关算法进行详细的分析，在此基础上提出了基于流水线的重叠调度策略——POSA调度算法，其核心技术是数据预取技术，目的是为了提高Hadoop的整体性能。
论文所做的主要工作如下：
(1)深入研究了Hadoop平台，详细介绍了HDFS和MapReduce的相关技术以及作业在YARN中的执行流程。
(2)以Hadoop中MapReduce的开源实现为基础，详细分析Hadoop中现有的三种作业调度算法，包括先进先出调度算法(FIFO)、计算能力(Capacity)调度算法和公平份额(Fair)调度算法。同时对国内外学者提出的改进算法也进行了研究。在此基础之上提出了基于流水线的重叠调度策略——POSA调度算法。
(3)对本文提出的POSA算法，对其三大模块：Scheduler+调度模块、SRT任务选取模块以及PW数据预取模块进行了详细的算法设计与实现，并与2.7.2源码整合编译。
(4)搭建Hadoop集群，将POSA调度算法与原生的公平调度算法(Fair)、计算能力调度算法(Capacity)进行实验，实验结果表明，本文所提出的POSA调度算法在一定程度上提升了Hadoop系统在作业调度上的性能。

目录

1 MapReduce作业调度算法研究 1
1.1 MapReduce原生调度算法分析 1
1.1.1 FIFO调度算法 1
1.1.2 Fair调度算法 2
1.1.3 Capacity调度算法 5
1.1.4 原生调度算法小结 7
1.2 LATE调度算法 8
1.3 本章小结 9
2 基于流水线的重叠调度算法设计与实现 10
2.1 引言 10
2.2 数据预取相关技术研究 10
2.3 数据预取时机 11
2.4 流水线调度算法的设计与实现 14
2.4.1 整体框架 14
2.4.2 Scheduler+调度模块 15
2.4.3 SRT任务选取模块 18
2.4.4 PW数据预取模块 21
2.5 POSA调度算法与Hadoop2.7.2的整合 23
2.5.1 源码改进类图 23
2.5.2 重新编译源码的过程 25
2.6 本章小结 26
3 实验结果与分析 27
3.1 Hadoop实验环境搭建 27
3.2 实验测试集与数据来源 28
3.2.1 实验测试集的选择 28
3.2.2 实验数据来源 29
3.3 POSA调度算法性能实验与分析 29
3.3.1 作业响应时间分析 29
3.3.2 数据本地化率分析 32
3.3.3 任务执行效率分析 35
3.4 本章小结 36
4 结论与展望 37
4.1 论文工作总结 37
4.2 展望 37

MapReduce作业性能优化与调度算法研究

相关文档推荐