clixiang 发表于 2018-9-20 17:08:13

请教CDH安装服务器部署方案

本帖最后由 clixiang 于 2018-9-20 21:37 编辑

大家好,准备使用CDH搭建数据分析平台,虽然看了官方文档,对于一些要点还不是很明确,想请教下大家。

现在的数据量不大,还没到1TB,大概每天最多几GB的量增长。我打算用5台机器来搭建,用来做业务数据分析、日志分析。

0、需求
现在Mysql已经有很多数据,比如会员数据、商品数据、订单数据等等,我想对这些数据进行分析,比如分析会员增长趋势、分析订单客单价等。

还有Nignx访问日志,用户行为日志数据,我想对这些日志进行分析。

1、组件选择

基于以上需求,我应该选择哪些组件呢?Hive、Hbase、Spark、Zookeeper?

如果选择最少的组件,是不是只需要Hive就可以了?如果再从性能、速度、功能考虑,还需要添加哪些组件比较好呢?

2、硬盘分区方案

硬盘怎么分区会比较合适?分多少个区?以及大小怎么规划比较好?比如/、/data?

主要是考虑到安装CM需要的空间、数据存储的位置以及空间、日志存放位置以及大小、各个组件的目录等。

3、内存

内存的话,我打算1台32G(CM以及Mysql),其他4台每台16G。合理不?

4、节点分配

按照官方文档的推荐,有2种看起来比较适合我的情况,对于5台机器,大家有无什么好的建议?

===================================================================
不知我上面的表述清晰不?
新手,请大家不吝赐教!拜谢!

s060403072 发表于 2018-9-20 19:33:45

1、组件选择

我应该选择哪些组件呢?Hive、Hbase、Spark、Zookeeper。
这些跟你的架构方案有关系,下面架构可参考
hadoop 2.6.5 + spark 1.6.3 + kafka 0.9.0.1 + flume 1.6.0 + hive 1.2.1 + scala 2.11.8【修改为2.10】
更多参考:
about云日志分析项目准备5:hadoop,spark,kafka,flume,hive等工具的版本选择
http://www.aboutyun.com/forum.php?mod=viewthread&tid=20587



2、硬盘分区方案

硬盘怎么分区会比较合适?分多少个区?以及大小怎么规划比较好?比如/、/data?
这个分区,参考普通的Linux即可
推荐参考
https://blog.csdn.net/explore_world/article/details/79081587

3、内存

内存的话,我打算1台32G(CM以及Mysql),其他4台每台16G。合理不?
这个可以暂时这么分配,主机master内存可以多一些。后期根据需要在调整


clixiang 发表于 2018-9-20 21:41:08

s060403072 发表于 2018-9-20 19:33
1、组件选择

我应该选择哪些组件呢?Hive、Hbase、Spark、Zookeeper。


收到回复,太感动啦。

我重新描述了下我的问题。

阿飞 发表于 2018-9-21 14:55:21

clixiang 发表于 2018-9-20 21:41
收到回复,太感动啦。

我重新描述了下我的问题。

如果不了解,别人也只是根据经验去描述,没有绝对正确,楼主如果想搭建集群,建议有经验的人。
也可以加入咱们的微信w3aboutyun,进微信群交流。

阿飞 发表于 2018-9-21 15:03:11

0、需求
现在Mysql已经有很多数据,比如会员数据、商品数据、订单数据等等,我想对这些数据进行分析,比如分析会员增长趋势、分析订单客单价等。

还有Nignx访问日志,用户行为日志数据,我想对这些日志进行分析。
日志分析建议参考:
about云日志分析,而且已经录制成视频:
http://www.aboutyun.com/forum.php?mod=group&fid=139

1、组件选择

基于以上需求,我应该选择哪些组件呢?Hive、Hbase、Spark、Zookeeper?

如果选择最少的组件,是不是只需要Hive就可以了?如果再从性能、速度、功能考虑,还需要添加哪些组件比较好呢?
出现这个问题,说明了解的大数据知识太少了,而且不能一概而论,需要结合你的具体业务。这方面需要专业人员帮助你来分析。

2、硬盘分区方案

硬盘怎么分区会比较合适?分多少个区?以及大小怎么规划比较好?比如/、/data?

主要是考虑到安装CM需要的空间、数据存储的位置以及空间、日志存放位置以及大小、各个组件的目录等。



4、节点分配

按照官方文档的推荐,有2种看起来比较适合我的情况,对于5台机器,大家有无什么好的建议?

刚开始可以不用HA,对于下面也只是组件的选择,没有什么合适不合适的,还是需要了解你的大数据框架,你要干什么、

http://www.aboutyun.com/data/attachment/forum/201809/20/213308b8hm66b1q1639w81.pnghttp://www.aboutyun.com/data/attachment/forum/201809/20/213409z40pgn2d4g2k2dtj.png


clixiang 发表于 2018-9-24 21:26:56

阿飞 发表于 2018-9-21 15:03
0、需求
现在Mysql已经有很多数据,比如会员数据、商品数据、订单数据等等,我想对这些数据进行分析,比如 ...

嗯嗯。谢谢。
页: [1]
查看完整版本: 请教CDH安装服务器部署方案