CDH有自己的生态系统,有很多的技术框架
比如CDH、storm、spark、kafka
还有
3.Cloudera Flume
Flume是Cloudera提供的日志收集系统,Flume支持在日志系统中定制各类数据发送方,用于收集数据;
Flume是Cloudera提供的一个高可用的,高可靠的,分布式的海量日志采集、聚合和传输的系统,Flume支持在日志系统中定制各类数据发送方,用于收集数据;同时,Flume提供对数据进行简单处理,并写到各种数据接受方(可定制)的能力。
Flume最早是Cloudera提供的日志收集系统,目前是Apache下的一个孵化项目,Flume支持在日志系统中定制各类数据发送方,用于收集数据;同时,Flume提供对数据进行简单处理,并写到各种数据接受方(可定制)的能力 Flume提供了从console(控制台)、RPC(Thrift-RPC)、text(文件)、tail(UNIX tail)、syslog(syslog日志系统,支持TCP和UDP等2种模式),exec(命令执行)等数据源上收集数据的能力。
Flume采用了多Master的方式。为了保证配置数据的一致性,Flume[1]引入了ZooKeeper,用于保存配置数据,ZooKeeper本身可保证配置数据的一致性和高可用,另外,在配置数据发生变化时,ZooKeeper可以通知Flume Master节点。Flume Master间使用gossip协议同步数据。
详细可查看:
什么是 flume 日志收集,flume的特性
什么是 flume 日志收集,flume的原理是什么,flume会遇到什么问题
4.Cloudera Impala
Cloudera Impala对你存储在Apache Hadoop在HDFS,HBase的数据提供直接查询互动的SQL。除了像Hive使用相同的统一存储平台,Impala也使用相同的元数据,SQL语法(Hive SQL),ODBC驱动程序和用户界面(Hue Beeswax)。Impala还提供了一个熟悉的面向批量或实时查询和统一平台。 详细可查看: 什么是impala,如何安装使用Impala
5.Cloudera hue
Hue是cdh专门的一套web管理器,它包括3个部分hue ui,hue server,hue db。hue提供所有的cdh组件的shell界面的接口。你可以在hue编写mr,查看修改hdfs的文件,管理hive的元数据,运行Sqoop,编写Oozie工作流等大量工作。
详细可查看:
cloudera hue安装及Oozie的安装
什么是Oozie?Oozie简介
Cloudera Hue 使用经验分享,遇到的问题及解决方案
等等这些产品。
楼主需要弄明白CDH与企业erp结合的目的是什么?
你是想做大数据分析,还是想在erp中直接使用CDH技术做erp。如果只是想使用kafka作为消息中间件是可以的。
首先楼主需要知道,在传统erp中是存在消息中间件的,你们导师,可能像让你使用kafka作为消息中间件。
这里就需要自己写代码了。如果真能实现了,说明已经属于小牛级别。
对于flume,kafka有提供的现成插件
所以如果想跟erp结合,楼主只需要写这么个插件即可实现。
参考这篇,大数据架构:flume-ng+Kafka+Storm+HDFS 实时系统组合对于理解kafka作为erp消息中间件有帮助。
|