基于MapReduce构造多维数据及关联规则挖掘算法的研究与应用
本文首先介绍了多维数据的基本概念、形式化描述和相关应用,以及关联规则的定义、分类和挖掘过程,并对多维关联规则挖掘进行了详细的阐述。然后,在分析MapReduce计算模型的原理和特点的基础上,提出了基于MapReduce并行构造多维数据的方法;通过分析各经典关联规则挖掘算法的特点和局限性,提出了基于Apriori的并行多维关联规则挖掘算法。之后,通过模拟实验对算法的性能进行评估,并对MapReduce模型的数据流进行调优。实验结果表明,与单机执行的方式相比,并行构造多维数据方法的效率更高,具有更好的稳定性;并行多维关联规则挖掘方法在提高效率的同时,还减少了对数据文件的扫描次数,大大降低了系统的I/O负荷。
链接: http://pan.baidu.com/s/1gdFzKht 密码: o2w8
基于Hadoop的学习资源分布模型设计研究
沈阳师范大学 郭松 本课题以HDFS为文件存储,以HBase为元数据存储,构建在低廉的计算机集群上,实现海量学习资源存储的分布模型。该模型提高了系统的稳定性, 扩展性和存取高效性。本课题重点研究的内容是在研究Hadoop关键技术的基础上,结合海量学习资源的特点,针对Hadoop在处理海量小文件时产生的高 内存、高磁盘碎片及中心节点的压力过大等问题,设计了学习资源分布模型。在Hadoop模型的基础上进行优化,设计了以Hadoop为核心的四层架构模 型,针对海量学习资源中有众多小文件和学习资源之间存在内在联系的特点,优化了学习资源文件的分布存储策略和元数据存储的数据结构,在实验室条件下使用七 台计算机,借助虚拟机软件模拟部署了资源分布模型,并在此模型上进行现有数据的模拟测试。本课题通过对学习资源的特点设计了分布模型,满足了对资源存储的 可靠性、高效性、可扩展性、低成本的要求。通过实验室的模拟测试,验证了模型的可用性和小学习资源文件的存储策略的正确性。
|