pig2 发表于 2014-4-25 15:22:02

Hadoop生态系统搭建遇到问题(hadoop hive hbase zookeeper oozie sqoop)经验总结

问题导读:
1.ssh的目录权限跟各个开发包不一致,会造成什么情况?
2.hive的默认数据库是derby,还是mysql?
扩展:
3.master用作regionserver会有什么情况发生?
4.zk连接数默认多少?
5.sqoop解压后,要配置SQOOP_HOME,hdfs需要跟那种类型的RDB交互就下相应的JDBC驱动,放入哪个文件夹下?
6.hadoop,hbase,是否需要在各自的集群中每个节点都安装?
7.zookeeper为什么奇数个比较好?

static/image/hrline/4.gif




1、首先是版本的选择,一般选择cloudera 的cdh版,注意相互之间的兼容性,否则出现莫名其妙的问题都不知道怎么解决。

2、配置ssh五密码访问时要注意,.ssh目录的权限问题,跟各个开发包一样,各节点必须一致,否则会出现启动Hadoop时让手动输密码。

3、在配置conf下文件时要注意,某些属性的值必须是hadoop程序有写权限的目录,比如:hadoop.tmp.dir

4、Hadoop-env.sh中要配置JAVA_HOME,不管profile或.bash_profile有没配置

5、hive的配置只要关联正确hadoop的namenode即可,元数据库可用默认的derby,也可通过修改配置实用mysql

6、hbase的master最好不用作regionserver。

7、zk的连接数要改的大一点,默认是30个,并且尽量与hadoop node节点分开,因为hadoop的暂时负担过重等异常会严重影响zk与hbase的正常工作,比如导致zk长时间选举不出leader,hbase 各节点会相继挂掉。


8、sqoop解压后,要配置SQOOP_HOME,hdfs需要跟那种类型的RDB交互就下相应的JDBC驱动,放入lib下。

10、hadoop,hbase,需要在各自的集群中每个节点都安装,zookeeper根据需要安装,一般奇数个,数量越多,选举负担中,但数量越少,系统稳定性下降,使用时跟据实际情况选择方案,hive,oozie,sqoop只需要在需要执行客户端程序的机器上安装,只要能连上hadoop。



不许笑 发表于 2014-7-22 14:13:23

都是需要特别注意的地方

wubaozhou 发表于 2015-1-1 19:04:25

{:soso_e181:}

德像天地 发表于 2016-4-7 14:56:30

lzuoguo

amanikong 发表于 2016-6-14 10:21:06

感谢楼主分享,能不能说说一般集群搭建都是多少台机器啊,怎么配置比较合理
页: [1]
查看完整版本: Hadoop生态系统搭建遇到问题(hadoop hive hbase zookeeper oozie sqoop)经验总结