分享

基于Hadoop的数据挖掘

有谁可以给说说基于Hadoop的数据挖掘?谢谢!!

已有(14)人评论

跳转到指定楼层
howtodown 发表于 2014-3-13 11:17:58
本帖最后由 howtodown 于 2014-3-13 11:19 编辑
rongjizhong 发表于 2014-3-13 08:03
你觉得impala怎么样?
与hadoop相比,能够提升性能。Impala不会将中间结果存储到磁盘。但对于运行时间较长的查询则存在单点故障的风险,一旦出现故障将需要重新运行查询.
回复

使用道具 举报

pig2 发表于 2014-3-12 22:43:54
可以使用hadoop存储,计算利用其它工具(我们使用greenplum),这样完全就可以使用SQL无缝衔接hadoop,然后再连接其它传统BI工具进行报表和分析等等
回复

使用道具 举报

hyj 发表于 2014-3-12 22:46:39
Hadoop上可以集成mahout工具,用来实现复杂的BI运算
回复

使用道具 举报

desehawk 发表于 2014-3-12 23:08:43

基于Hadoop的数据挖掘系统的设计
基本思想:充分利用Hadoop的集群特征,将数据挖掘系统中需要巨大计算能力的各个模块的计算和存储要求扩展到Hadoop集群中的各个节点上,利用集群的并行计算和存储能力来进行相关数据挖掘工作。可以采用分层的设计思想。在底层,使用Hadoop来存储、分析和处理巨大的数据量,而在高层通过接口直接透明的调用底层的计算和存储能力。
使用HDFS来存储文件和数据。使用MapReduce将数据文件系统中具有大计算量特征的各个子模块(如ETL模块,数据挖掘模块)的计算任务发布到集群中的各个节点以实现并行计算。

采用分层的思想,自停向下每层都透明的调用下层接口,最顶层为交互层,用于用户和系统之间的交互。最底层为分布式计算层,使用Hadoop来实现文件分布式存储和并行计算功能。
交互层:提供系统和用户之间的接口。通过提供具有良好表现形式的图形界面,使得用户可以登录系统定制各种细粒度的业务,查看或者保存各种输出结果。
业务应用层:提供了各种业务逻辑并实现了对各种业务流程的控制和调度。用户提交的业务在这一层被处理、控制和调度。业务应用层通过调用数据挖掘算法层的多个模块来完成交互层提交的业务,并返回结果到交互层。并控制和调度着数据挖掘平台的各个模块的执行。
数据挖掘平台层:为业务应用层提供数据挖掘阶段业务流需要的各个模块,并具有较细的粒度。如数据预处理、模式评估、数据挖掘,结果展示等功能组件。这一层是整个系统的核心,主要的任务在于实现各种任务过程中算法的并行化,并将任务提交到Hadoop分布计算层进行运算,并将结果返回给业务应用层。
分布式计算平台层:使用Hadoop框架来实现集群存储、计算。Hadoop提供了分布式文件系统和冰箱的运行模式,同时实现了对分布式系统的管理。

各层的功能模块:
1.交互层:
用户管理模块:实现用户身份的识别以及相应权限的设置,包括对用户登录或者注销等常用的管理。
业务模块:实现了细粒度的用户业务需求的提交。用户提交的各种业务通过业务模块得到完成。
展示模块:实现了用户对业务结果的查看,分析和保持等功能。用来将系统的返回结果交付给用户。
2.业务应用层:
业务相应模块:相应上层的业务模块,对完成业务所需的子业务进行调用、管理,并通过调用底层模块完成业务。
工作流模块:对业务状态进行监控、管理。可将具体的信息参数返回给本层的业务响应模块。
3.数据挖掘平台:
数据加载模块:将挖掘所需的数据进行注册并放入系统的HDFS文件系统。
结果存储模块:存放挖掘现在产生或者历史产生的各种模式。也可以叫做知识库。
模式评估模块:对产生的模式进行评估。此模块也可以被并行数据挖掘模块调用。
并行ETL模块:对数据进行预处理。输入的数据来自于HDFS文件中,并将处理结果放入HDFS中,为挖掘过程进行数据清理,提取,转换和加载。
并行数据挖掘算法模块:为数据挖掘各种任务提供并行算法。作为数据挖掘引擎,它包含了一个能提供各种基于Hadoop进行并行数据挖掘算法的库,用于完成各种数据挖掘任务。
4.分布式计算层:
Hadoop框架自身提供了HDFS,MapReduce运行模式、运算环境以及自动管理。




回复

使用道具 举报

howtodown 发表于 2014-3-12 23:10:25
将传统的数据挖掘算法在Hadoop平台上实现并行化是构建基于Hadoop平台的数据挖掘系统的主要工作。
回复

使用道具 举报

rongjizhong 发表于 2014-3-13 08:03:37
你觉得impala怎么样?
回复

使用道具 举报

rongjizhong 发表于 2014-3-13 08:04:21
本帖最后由 rongjizhong 于 2014-3-13 08:05 编辑
hyj 发表于 2014-3-12 22:46
Hadoop上可以集成mahout工具,用来实现复杂的BI运算

谢谢。
回复

使用道具 举报

rongjizhong 发表于 2014-3-13 08:05:08
pig2 发表于 2014-3-12 22:43
可以使用hadoop存储,计算利用其它工具(我们使用greenplum),这样完全就可以使用SQL无缝衔接hadoop,然后再 ...

你觉得impala怎么样?
回复

使用道具 举报

rongjizhong 发表于 2014-3-13 08:06:20
howtodown 发表于 2014-3-12 23:10
将传统的数据挖掘算法在Hadoop平台上实现并行化是构建基于Hadoop平台的数据挖掘系统的主要工作。

嗯,很不错。
回复

使用道具 举报

rongjizhong 发表于 2014-3-13 08:06:52
desehawk 发表于 2014-3-12 23:08
基于Hadoop的数据挖掘系统的设计
基本思想:充分利用Hadoop的集群特征,将数据挖掘系统中需要巨大计算 ...

挺详细的,谢谢。
回复

使用道具 举报

12下一页
您需要登录后才可以回帖 登录 | 立即注册

本版积分规则

关闭

推荐上一条 /2 下一条