当前位置:主页 > 计算机软件论文 >

基于MapReduce的分布式时态索引研究与实现

更新时间:2019-07-26
所需金币100 [1金币=1元] 资料包括:原始论文 点击这里给我发消息 QQ在线咨询
文档格式:doc/docx 全文字数:20000 ↓↓立即下载全文 **温馨提示**
以下仅列出文章摘要、目录等部分内容,如需获取完整论文资料,或原创定制、长期合作,请随时联系。
微信QQ:312050216
点击这里给我发消息
扫一扫 扫一扫
基于MapReduce的分布式时态索引研究与实现【部分】

摘 要

随着互联网与科技的发展,海量的数据开始膨胀,而在其中数据和时间的关系则是密不可分的。传统的数据库难以处理时态相关的数据,进行时间区间上的复杂处理,并且目前尚无完善的时态数据库。因此对于时态数据库的研究越发急切,而时态索引也就是成为时态数据库研究的一个重点,如何高效地针对时态数据进行索引成为了研究的热点。随着大数据和并行计算的发展,传统单机版的时态索引已经不能满足数据量增加带来的压力,因此如何在分布式大型集群的环境下构建分布式的时态索引便成了本文的重点。
    本文研究了一中基于“拟序”关系的时态索引框架,是一种处理“数据本体”和“时间标签”的索引技术,并且结合现在流行的大数据分布式技术MapReduce并行框架,在hadoop平台上应用了时态索引,从而实现了分布式处理时态数据的索引技术。本文在“拟序”时态索引算法的基础上,考虑如何对于数据进行均衡分区以及对于海量数据进行分布式的排序,并在此基础上利用分布式技术,进行索引的并行构建。结合hadoop平台的特性以及序列化技术,本文设计一种可以在分布式hadoop平台存储的带索引的磁盘块。同时利用磁盘块的存储的特性来加速本地计算的效率,避免了网络传输数据带来的网络IO的开销。本文在结合hadoop平台主从节点的架构特性,设计了全局索引与局部索引的主从架构,从而实现分布式查询对于数据的过滤效率。最后利用分布式并行处理框架MapReduce实现了时态索引的并行查询。同时本文与基于静态加载策略贪婪分裂构建的基于同样分区策略的分布式TGR RTree进行对比,证实基于“拟序”的分布式时态索引相比于多维索引Rtree在分布式下有着更好的查询效率。
关键词:线序划分,分布式时态索引,MapReduce,海量数据,hadoop,RTree