About云-梭伦科技»专题 › 交流区 › 技术交流 › Cloudera系列 › 请教CDH安装服务器部署方案

请教CDH安装服务器部署方案

查看数: 8532 | 评论数: 5 | 收藏 0

关灯 | 提示：支持键盘翻页<-左右->

帖子模式

clixiang

发布时间: 2018-9-20 17:08

正文摘要:

本帖最后由 clixiang 于 2018-9-20 21:37 编辑大家好，准备使用CDH搭建数据分析平台，虽然看了官方文档，对于一些要点还不是很明确，想请教下大家。现在的数据量不大，还没到1TB，大概每天最多几GB的量增长 ...

clixiang 发表于 2018-9-24 21:26:56

阿飞发表于 2018-9-21 15:03
0、需求
现在Mysql已经有很多数据，比如会员数据、商品数据、订单数据等等，我想对这些数据进行分析，比如 ...

嗯嗯。谢谢。

阿飞 发表于 2018-9-21 15:03:11

0、需求
现在Mysql已经有很多数据，比如会员数据、商品数据、订单数据等等，我想对这些数据进行分析，比如分析会员增长趋势、分析订单客单价等。

还有Nignx访问日志，用户行为日志数据，我想对这些日志进行分析。
日志分析建议参考：
about云日志分析，而且已经录制成视频：
http://www.aboutyun.com/forum.php?mod=group&fid=139

1、组件选择

基于以上需求，我应该选择哪些组件呢？Hive、Hbase、Spark、Zookeeper？

如果选择最少的组件，是不是只需要Hive就可以了？如果再从性能、速度、功能考虑，还需要添加哪些组件比较好呢？
出现这个问题，说明了解的大数据知识太少了，而且不能一概而论，需要结合你的具体业务。这方面需要专业人员帮助你来分析。

2、硬盘分区方案

硬盘怎么分区会比较合适？分多少个区？以及大小怎么规划比较好？比如/、/data？

主要是考虑到安装CM需要的空间、数据存储的位置以及空间、日志存放位置以及大小、各个组件的目录等。

4、节点分配

按照官方文档的推荐，有2种看起来比较适合我的情况，对于5台机器，大家有无什么好的建议？

刚开始可以不用HA，对于下面也只是组件的选择，没有什么合适不合适的，还是需要了解你的大数据框架，你要干什么、

阿飞 发表于 2018-9-21 14:55:21

clixiang 发表于 2018-9-20 21:41
收到回复，太感动啦。

我重新描述了下我的问题。

如果不了解，别人也只是根据经验去描述，没有绝对正确，楼主如果想搭建集群，建议有经验的人。
也可以加入咱们的微信w3aboutyun，进微信群交流。

clixiang 发表于 2018-9-20 21:41:08

s060403072 发表于 2018-9-20 19:33
1、组件选择

我应该选择哪些组件呢？Hive、Hbase、Spark、Zookeeper。

收到回复，太感动啦。

我重新描述了下我的问题。

s060403072 发表于 2018-9-20 19:33:45

1、组件选择

我应该选择哪些组件呢？Hive、Hbase、Spark、Zookeeper。
这些跟你的架构方案有关系，下面架构可参考
hadoop 2.6.5 + spark 1.6.3 + kafka 0.9.0.1 + flume 1.6.0 + hive 1.2.1 + scala 2.11.8【修改为2.10】
更多参考：
about云日志分析项目准备5：hadoop,spark,kafka,flume,hive等工具的版本选择
http://www.aboutyun.com/forum.php?mod=viewthread&tid=20587

2、硬盘分区方案

硬盘怎么分区会比较合适？分多少个区？以及大小怎么规划比较好？比如/、/data？
这个分区，参考普通的Linux即可
推荐参考
https://blog.csdn.net/explore_world/article/details/79081587

3、内存

内存的话，我打算1台32G（CM以及Mysql），其他4台每台16G。合理不？
这个可以暂时这么分配，主机master内存可以多一些。后期根据需要在调整

图文精华

请教CDH安装服务器部署方案

正文摘要:

回复

推荐 /2