问题导读:
1.CentOS如何创建本地的yum软件源?
2.Cloudera Manager and CDH安装及配置需要注意哪些问题?
扩展:
3.你认为Cloudera Manager 有几种安装方式?
创建本地yum软件源,为本地Package安装Cloudera Manager、Cloudera Hadoop及Impala做准备
一、包管理工具及CentOS的yum
1、包管理工具如何发现可以用的包
包管理工具依赖一系列软件源,工具下载源的信息存储在配置文件中,其位置随某包管理工具不同而变化
使用yum的RedHat/CentOS存储在:/etc/yum.repos.d
使用apt-get的Debian/Ubuntu在:/etc/apt/apt.conf (额外的源采用*.list文件指定,存储在/etc/apt/sources.list.d目录下)
例如在,CentOS下面:
- [root@lemon ~]# ls -l /etc/yum.repos.d/
- total 24
- -rw-r--r--. 1 root root 1926 Feb 25 00:57 CentOS-Base.repo
- -rw-r--r--. 1 root root 638 Feb 25 00:57 CentOS-Debuginfo.repo
- -rw-r--r--. 1 root root 630 Feb 25 00:57 CentOS-Media.repo
- -rw-r--r--. 1 root root 3664 Feb 25 00:57 CentOS-Vault.repo
- drwxr-xr-x 3 root root 4096 Jun 12 23:37 cloudera-cdh4
- -rw-r--r-- 1 root root 231 Jun 12 23:36 clouder-cdh4.repo
复制代码
上述每个.repo文件对应着一个或者多个软件源,下面CentOS-Base.repo的片段说明,该文件定义了两个软件源,一个是Base,一个是Upadate。镜像列表参数指向一系列可以下载软件源的网址。
- #………
- [base]
- name=CentOS-$releasever - Base
- mirrorlist=http://mirrorlist.centos.org/?release=$releasever&arch=$basearch&repo=os
- #baseurl=http://mirror.centos.org/centos/$releasever/os/$basearch/
- gpgcheck=1
- gpgkey=file:///etc/pki/rpm-gpg/RPM-GPG-KEY-CentOS-6
-
- #released updates
- [updates]
- name=CentOS-$releasever - Updates
- mirrorlist=http://mirrorlist.centos.org/?release=$releasever&arch=$basearch&repo=updates
- #baseurl=http://mirror.centos.org/centos/$releasever/updates/$basearch/
- gpgcheck=1
- gpgkey=file:///etc/pki/rpm-gpg/RPM-GPG-KEY-CentOS-6
- #………
复制代码
在CentOS下面可以使用:yum repolist 查看系统中启用的软件源。CentOS有如下软件源列表:
- [root@lemon ~]# yum repolist
- Loaded plugins: fastestmirror, refresh-packagekit, security
- Loading mirror speeds from cached hostfile
- * base: mirror01.idc.hinet.net
- * extras: mirror01.idc.hinet.net
- * updates: ftp.stu.edu.tw
- repo id repo name status
- base CentOS-6 - Base 6,381
- cloudera-cdh4 Cloudera's Distribution for Hadoop, Version 4 97
- extras CentOS-6 - Extras 12
- updates CentOS-6 - Updates 805
- repolist: 7,295
复制代码
二、创建自己的yum软件源(以Cloudera Hadoop的安装为例)自定义软件源,给不能联网或者网络不畅的计算机安装软件提供了便利,使得待安装软件的主机可以使用本地的软件源完成安装。下面讲述如何创建本地包软件源,并指示本地主机直接使用。简要概括起来如下:将下载的RPM包放到本地主机的某一个目录下,接着完成创createrepo(创建软件源的工作),然后在网站上发布这一软件源。 1、下载Cloudera Manager安装文件Cloudera Manager的可以从如下网址获得: 这里选择Cloudera Manager 最新版4.6.0.1 2、下载相关的CM安装所需要的RPM包下载网址为: 下载全部的7个rmp包,如下图所示: 3、创建软件源将下载好的rpm文件拷贝到制定目录,如:/home/admin/RPMS中
- [root@lemon RPMS]# ls
- cloudera-manager-agent-4.5.2-1.cm452.p0.327.x86_64.rpm
- cloudera-manager-daemons-4.5.2-1.cm452.p0.327.x86_64.rpm
- cloudera-manager-parcel-4.5.2-4.5.2-1.cm452.p0.327.x86_64.rpm
- cloudera-manager-server-4.5.2-1.cm452.p0.327.x86_64.rpm
- cloudera-manager-server-db-4.5.2-1.cm452.p0.327.x86_64.rpm
- enterprise-debuginfo-4.5.2-1.cm452.p0.327.x86_64.rpm
- jdk-6u31-linux-amd64.rpm
复制代码
创建软件源的主机没有安装createrepo,可以通过shell命令yum install createrepo安装。
当在包含文件的目录下运行如下创建命令:
- [root@lemon RPMS]# createrepo .
复制代码
程序也会创建一个repodata目录,该目录包含一些描述软件源的xml文件。如下所示:
- [root@lemon RPMS]# createrepo .
- Spawning worker 0 with 7 pkgs
- Workers Finished
- Gathering worker results
-
- Saving Primary metadata
- Saving file lists metadata
- Saving other metadata
- Generating sqlite DBs
- Sqlite DBs complete
- [root@lemon RPMS]# ls
- cloudera-manager-agent-4.5.2-1.cm452.p0.327.x86_64.rpm
- cloudera-manager-daemons-4.5.2-1.cm452.p0.327.x86_64.rpm
- cloudera-manager-parcel-4.5.2-4.5.2-1.cm452.p0.327.x86_64.rpm
- cloudera-manager-server-4.5.2-1.cm452.p0.327.x86_64.rpm
- cloudera-manager-server-db-4.5.2-1.cm452.p0.327.x86_64.rpm
- enterprise-debuginfo-4.5.2-1.cm452.p0.327.x86_64.rpm
- jdk-6u31-linux-amd64.rpm
- repodata
- [root@lemon RPMS]# cd repodata/
- [root@lemon repodata]# lsother.xml.gz
- other.sqlite.bz2
- filelists.sqlite.bz2
- primary.xml.gz
- filelists.xml.gz
- primary.sqlite.bz2
- repomd.xml
复制代码
此命令之后,RPM包就会加入到本地的软件源中。
4、安装Apache httpd web服务器如果你已经安装了一个web服务器,可以略过此步,如果未安装可以通过如下shell命令安装
- [root@lemon ~]$ yum install httpd
复制代码
安装完毕后,启动httpd服务
- [root@lemon ~]$ service httpd start
复制代码
5、发布软件源文件将文件复制/移动到WEB服务器的根目录下,Linux下面默认是/var/www/html目录,
- [root@lemon ~]$ mv /home/admin/RPMS /var/www/html
- [root@lemon ~]$ chmod -R ugo+rx /var/www/html/RPMS
复制代码
如果不能访问,出现403错误(在实体机上常见),即you don't have permission to access / on this server(Apache Server权限访问问题),则需要在/etc/httpd/httpd.conf中添加如下配置:
- <Directory "/var/www/icons">
- Options Indexes MultiViews FollowSymLinks
- AllowOverride None
- Order allow,deny
- Allow from all
- </Directory>
-
- Alias /CDH4-RPMS/ "/var/www/html/CDH4-RPMS/"
- <Directory "/var/wwww/html/CDH4-RPMS">
- Options Indexes MultiViews FollowSymLinks
- AllowOverride None
- Order allow,deny
- Allow from all
- </Directory>
-
- Alias /CM4-RPMS/ "/var/www/html/CM4-RPMS/"
- <Directory "/var/www/html/CM4-RPMS">
- Options Indexes MultiViews FollowSymLinks
- AllowOverride None
- Order allow,deny
- Allow from all
- </Directory>
-
- Alias /IMPALA-RPMS/ "/var/www/html/IMPALA-RPMS/"
- <Directory "/var/www/html/IMPALA-RPMS">
- Options Indexes MultiViews FollowSymLinks
- AllowOverride None
- Order allow,deny
- Allow from all
- </Directory>
复制代码
6、更改客户端配置,使其能够找到该软件源在客户端新建如下格式的文件,内容如下所示:
- [myrepo]
- name=myrepo
- baseurl=http://hostname/RPMS
- enabled=1
- gpgcheck=0
复制代码
主机名是刚才所建立的软件源的主机名。将文件命名为myrepo.repo,并将文件放到/etc/yum.repos.d目录下,即最终结果为/etc/yum.repos.d/myrepo.repo 这里的客户端指的是使用本地源的主机,(即待安装的不能联网的哪些主机)。 注意:/etc/yum.repos.d目录下仅仅保留自己创建的本地库,否则其他的库因为不能联网,会报错的,使得安装退出。本例中,仅仅保留myrepo.repo。 在CM的集群配置页面,设定好本地源后,会有相应的解析,找到本地的源。其中cloudera-manager.repo cloudera-cdh4.repo、cloudera-impala.repo解析后新建的,原来自己配的源的名字分别是cm4repo.repo、cdh4repo.repo、impalarepo.repo(实际应用中发现,最好将名字命名为cloudera-manager.repo、cloudera-cdh4.repo、cloudera-impala.repo, 否则会可能出现无法解析错误,即cloudera-manager-installer-bin还是会向cloudera的官网去找)。 解析后的内容如下:
- [root@lemon yum.repos.d]# cat cloudera-cdh4.repo
- [cloudera-cdh4]
- name = Cloudera CDH, Version (Custom)
- baseurl = http://192.168.2.171/CDH4-RPMS
- gpgcheck = 0
-
- [root@lemon yum.repos.d]# cat cloudera-impala.repo
- [cloudera-impala]
- name = Impala, Version (Custom)
- baseurl = http://192.168.2.171/impala
- gpgcheck = 0
-
- [root@lemon yum.repos.d]# cat cloudera-manager.repo
- [cloudera-manager]
- name = Cloudera Manager, Version 4.6.0
- baseurl = http://192.168.2.171/RPMS
- gpgcheck = 0
复制代码
安装的时候也可能会出现如下错误:
- Resolving Dependencies
- --> Running transaction check
- ---> Package cloudera-manager-server-db.x86_64 0:4.6.0-1.cm460.p0.140 will be installed
- --> Processing Dependency: postgresql-server >= 8.0 for package: cloudera-manager-server-db-4.6.0-1.cm460.p0.140.x86_64
- --> Finished Dependency Resolution
- Error: Package: cloudera-manager-server-db-4.6.0-1.cm460.p0.140.x86_64 (cm4repo)
- Requires: postgresql-server >= 8.0
- You could try using --skip-broken to work around the problem
- You could try running: rpm -Va --nofiles --nodigest
复制代码
所以,这个时候要安装postgresql-server8.4 或者是9.0(要求8.0及其以上),这个安装比较麻烦,需要解决各种依赖库。 postgresql说明: postgresql包含许多不同的包,包括第三方类库,通常安装最重要的包即可(能满足大部分应用需求)。这些包如下: - postgresql - 客户端类库及二进制文件
- postgresql-server - 核心的数据库服务器
- postgresql-contrib - 附加的供应组件
- postgresql-devel - 用户C语言开发的类库和头文件
- pgadmin3 - 数据库图像化管理工具第三版
9.0版本的rpm包具体下载地址为: 备注:研究发现缺少包这些问题是由虚拟机造成的,虚拟机安装的时候是默认安装,省去了里面很大一部分的包,比如虚拟机安装的时候不带jdk、postgresql数据库、mysql数据库,而这些都是在实体机安装的时候所没有的问题,所以实践很重要!在实体机下面缺少postgresql数据库所造成的问题根本就不存在!
7、使用本地类库安装CMCM安装必须通过package方式,而CDH、Impala可以通过package、parcel方式安装。 安装程序默认从网络下载程序包安装,如果你已经配置好了本地软件源,并将本机(客户端)做了识别配置, 只需要在安装的时候添加参数(--skip_repo_package=1),shell命令如下:
- $ sudo ./cloudera-manager-installer.bin --skip_repo_package=1
复制代码
备注:CM包下载地址:http://archive.cloudera.com/cm4/
CDH包下载地址:http://archive.cloudera.com/cdh4/
IMPALA包下载地址:http://archive.cloudera.com/impala/
另外下载时候要注意,如果X86_64同级目录还有noarch目录,且里面也有文件的时候也要一并下载,不然使用本地软件源的时候提示部分文件找不到。
详细安装步骤如下:
Cloudera Manager and CDH安装及配置
Cloudera Manager需求:
磁盘空间,最小满足:
------------系统/var分区下有5GB
------------系统/usr分区有500MB
------------系统/opt下面最好多配置点
多数情况下RAM 4GB是比较合适的,如果装了Oracle数据库,就是必须的了。没有Oracle数据库且节点在100个以下的,也是足够的。
通常说来,不推荐使用虚拟机和安装了双系统的主机,这种情况通常导致内存/硬盘不足,导致主机出现状态不良。
1、删除各个主机上自带的JDK
查找安装的JDK命令
- rpm -qa |grep gcj
- rpm -qa |grep jdk
- rpm -qa |grep java
复制代码
删除安装的JDK相关的命令,例如:
- yum -y remove jdk-1.6.0_31-fcs.x86_64
复制代码
2、配置各个主机上的/etc/hosts
- 192.168.1.101 mater
- 192.168.1.102 slave1
- 192.168.1.103 slave2
复制代码
注意:还要在每个主机上配置好主机 ip localhost 这一项。 3、设置或者关闭防火墙设置:如果考虑主机的安全性,仅允许Cloudera Manager 使用的自由端口、SSH 22端口等重要的端口通过。 Coudera Manager及CDH的自由端口如下所示:
- -A INPUT -m state --state NEW -m tcp -p tcp --dport 22 -j ACCEPT
- -A INPUT -m state --state NEW -m tcp -p tcp --dport 80 -j ACCEPT
- # free ports for Kerberos
- -A INPUT -m state --state NEW -m tcp -p tcp --dport 88 -j ACCEPT
- -A INPUT -m state --state NEW -m udp -p udp --dport 88 -j ACCEPT
- # free ports for CDH4
- -A INPUT -m state --state NEW -m tcp -p tcp --dport 50010 -j ACCEPT
- -A INPUT -m state --state NEW -m tcp -p tcp --dport 1004 -j ACCEPT
- -A INPUT -m state --state NEW -m tcp -p tcp --dport 50075 -j ACCEPT
- -A INPUT -m state --state NEW -m tcp -p tcp --dport 1006 -j ACCEPT
- -A INPUT -m state --state NEW -m tcp -p tcp --dport 50020 -j ACCEPT
- -A INPUT -m state --state NEW -m tcp -p tcp --dport 8020 -j ACCEPT
- -A INPUT -m state --state NEW -m tcp -p tcp --dport 50070 -j ACCEPT
- -A INPUT -m state --state NEW -m tcp -p tcp --dport 50470 -j ACCEPT
- -A INPUT -m state --state NEW -m tcp -p tcp --dport 50090 -j ACCEPT
- -A INPUT -m state --state NEW -m tcp -p tcp --dport 50495 -j ACCEPT
- -A INPUT -m state --state NEW -m tcp -p tcp --dport 8021 -j ACCEPT
- -A INPUT -m state --state NEW -m tcp -p tcp --dport 50030 -j ACCEPT
- -A INPUT -m state --state NEW -m tcp -p tcp --dport 9290 -j ACCEPT
- -A INPUT -m state --state NEW -m tcp -p tcp --dport 50060 -j ACCEPT
- -A INPUT -m state --state NEW -m tcp -p tcp --dport 0 -j ACCEPT
- -A INPUT -m state --state NEW -m tcp -p tcp --dport 8032 -j ACCEPT
- -A INPUT -m state --state NEW -m tcp -p tcp --dport 8030 -j ACCEPT
- -A INPUT -m state --state NEW -m tcp -p tcp --dport 8031 -j ACCEPT
- -A INPUT -m state --state NEW -m tcp -p tcp --dport 8033 -j ACCEPT
- -A INPUT -m state --state NEW -m tcp -p tcp --dport 8088 -j ACCEPT
- -A INPUT -m state --state NEW -m tcp -p tcp --dport 8040 -j ACCEPT
- -A INPUT -m state --state NEW -m tcp -p tcp --dport 8042 -j ACCEPT
- -A INPUT -m state --state NEW -m tcp -p tcp --dport 8041 -j ACCEPT
- -A INPUT -m state --state NEW -m tcp -p tcp --dport 10020 -j ACCEPT
- -A INPUT -m state --state NEW -m tcp -p tcp --dport 19888 -j ACCEPT
- -A INPUT -m state --state NEW -m tcp -p tcp --dport 60000 -j ACCEPT
- -A INPUT -m state --state NEW -m tcp -p tcp --dport 60010 -j ACCEPT
- -A INPUT -m state --state NEW -m tcp -p tcp --dport 60020 -j ACCEPT
- -A INPUT -m state --state NEW -m tcp -p tcp --dport 60030 -j ACCEPT
- -A INPUT -m state --state NEW -m tcp -p tcp --dport 2888 -j ACCEPT
- -A INPUT -m state --state NEW -m tcp -p tcp --dport 3888 -j ACCEPT
- -A INPUT -m state --state NEW -m tcp -p tcp --dport 8080 -j ACCEPT
- -A INPUT -m state --state NEW -m tcp -p tcp --dport 9090 -j ACCEPT
- -A INPUT -m state --state NEW -m tcp -p tcp --dport 9083 -j ACCEPT
- -A INPUT -m state --state NEW -m tcp -p tcp --dport 10000 -j ACCEPT
- -A INPUT -m state --state NEW -m tcp -p tcp --dport 16000 -j ACCEPT
- -A INPUT -m state --state NEW -m tcp -p tcp --dport 2181 -j ACCEPT
- -A INPUT -m state --state NEW -m tcp -p tcp --dport 2888 -j ACCEPT
- -A INPUT -m state --state NEW -m tcp -p tcp --dport 3888 -j ACCEPT
- -A INPUT -m state --state NEW -m tcp -p tcp --dport 3181 -j ACCEPT
- -A INPUT -m state --state NEW -m tcp -p tcp --dport 4181 -j ACCEPT
- -A INPUT -m state --state NEW -m tcp -p tcp --dport 8019 -j ACCEPT
- -A INPUT -m state --state NEW -m tcp -p tcp --dport 8888 -j ACCEPT
- -A INPUT -m state --state NEW -m tcp -p tcp --dport 8002 -j ACCEPT
- -A INPUT -m state --state NEW -m tcp -p tcp --dport 8003 -j ACCEPT
- -A INPUT -m state --state NEW -m tcp -p tcp --dport 11000 -j ACCEPT
- -A INPUT -m state --state NEW -m tcp -p tcp --dport 11001 -j ACCEPT
- # free ports for CM4
- -A INPUT -m state --state NEW -m tcp -p tcp --dport 7180 -j ACCEPT
- -A INPUT -m state --state NEW -m tcp -p tcp --dport 7183 -j ACCEPT
- -A INPUT -m state --state NEW -m tcp -p tcp --dport 7182 -j ACCEPT
- -A INPUT -m state --state NEW -m tcp -p tcp --dport 7432 -j ACCEPT
- -A INPUT -m state --state NEW -m tcp -p tcp --dport 9000 -j ACCEPT
- -A INPUT -m state --state NEW -m tcp -p tcp --dport 9001 -j ACCEPT
- -A INPUT -m state --state NEW -m tcp -p tcp --dport 22000 -j ACCEPT
- -A INPUT -m state --state NEW -m tcp -p tcp --dport 21000 -j ACCEPT
- -A INPUT -m state --state NEW -m tcp -p tcp --dport 25000 -j ACCEPT
- -A INPUT -m state --state NEW -m tcp -p tcp --dport 23000 -j ACCEPT
- -A INPUT -m state --state NEW -m tcp -p tcp --dport 25010 -j ACCEPT
- -A INPUT -m state --state NEW -m tcp -p tcp --dport 24000 -j ACCEPT
复制代码
一般是将其加入到iptables中,当然也可以选择关闭。
关闭防火墙:
在root下执行下面命令,可以临时关闭防火墙
复制代码 在root下执行下面命令,可以永久关闭防火墙(即,每次开机都会关闭),但需要重启生效。
复制代码
4、关闭SELinux:
如果需要永久关闭,编辑/etc/selinux/config ,设置SELINUX=disabled
,然后完成安装。如未关闭,则会出现如下错误:
如果安装过程中,由于某种原因中断,再次安装的时候需要进行清理。
图形操作可以省略
5、更改Cloudera-manager-installer.bin权限,使其可执行
- $ chmod u+x cloudera-manager-installer.bin
复制代码
- [ DISCUZ_CODE_43 ]nbsp; ./cloudera-manager-installer.bin
复制代码
接着,接受许可协议,按Enter和Next, 安装界面如下所示:
等待安装完成即可,由于下载的文件较大,网络不好的情况下会出现静止很久的情况,所以要耐心等待。如果一直停留在20%、40%、70%,过来好久都没有变化,这时候需要用Ctrl+C中断安装,执行清理后,重新执行安装命令。 启动 Cloudera Manager Admin 控制台
通常Cloudera Manager Admin控制台启动不起来有以下可能: service cloudera-scm-server-db 是否启动 service cloudera-scm-server 是否启动 service httpd 是否启动
3、使用Cloudera Manager自动安装CDH和配置 注意:扫描IP主机找不到,通常是由于防火墙或者是SELinux的问题 安装可以联网安装,可以创建自己的yum库,然后通过该yum库来安装。 本地yum库的搭建,请参考: 选择从parcel安装,分布式的解压的默认存储在/opt/cloudera/下面。
图1-1
图1-2
图2:
图3(暂时没有,主机验证阶段):
图4:
图5:
图6:
图7:
|