about云日志分析项目准备6:Hadoop、Spark集群搭建

查看数: 11758 | 评论数: 8 | 收藏 7
关灯 | 提示:支持键盘翻页<-左 右->
    组图打开中,请稍候......
发布时间: 2016-12-22 15:24

正文摘要:

问题导读: 1. 如何配置linux环境? 2. 如何安装java和scala? 3. 如何安装和配置hadoop集群? 4. 如何验证hadoop集群搭建成功? 5. 如何安装和配置spark集群? 6. 如何验证spark集群搭建成功? 7. 可能会遇 ...

回复

pig2 发表于 2017-3-31 18:09:06
本帖最后由 pig2 于 2017-6-26 15:57 编辑

启动集群小记录:
以前执行start-master.sh和 都是没有问题的。

后来执行[mw_shl_code=bash,true]start-slaves.sh [/mw_shl_code]
出现下面问题
[codeUsage: ./sbin/start-slave.sh [options] <master>

Master must be a URL of the form spark://hostname:port

Options:
  -c CORES, --cores CORES  Number of cores to use
  -m MEM, --memory MEM     Amount of memory to use (e.g. 1000M, 2G)
  -d DIR, --work-dir DIR   Directory to run apps in (default: SPARK_HOME/work)
  -i HOST, --ip IP         Hostname to listen on (deprecated, please use --host or -h)
  -h HOST, --host HOST     Hostname to listen on
  -p PORT, --port PORT     Port to listen on (default: random)
  --webui-port PORT        Port for web UI (default: 8081)
  --properties-file FILE   Path to a custom Spark properties file.
                           Default is conf/spark-defaults.conf.[/code]
以为是环境变量出现问题。
解决办法:
1.原来是因为有的机器worker进程没有关闭掉导致的。2.可以使用start-slave.sh spark://Master:7077




pig2 发表于 2017-3-31 18:04:11
本帖最后由 pig2 于 2017-3-31 18:09 编辑

sbin目录下的脚本文件:
[codeslaves.sh               在所有定义在${SPARK_CONF_DIR}/slaves的机器上执行一个shell命令
spark-config.sh         被其他所有的spark脚本所包含,里面有一些spark的目录结构信息
spark-daemon.sh                        将一条spark命令变成一个守护进程
spark-daemons.sh        在所有定义在${SPARK_CONF_DIR}/slaves的机器上执行一个spark命令
spark-executor          运行org.apache.spark.executor.MesosExecutorBackend,具体作用暂时没关注
start-all.sh            启动master进程,以及所有定义在${SPARK_CONF_DIR}/slaves的机器上启动Worker进程
start-history-server.sh 启动历史记录进程
start-master.sh         启动spark master进程
start-slave.sh          启动某机器上spark slave进程
start-slaves.sh         在所有定义在${SPARK_CONF_DIR}/slaves的机器上启动Worker进程
stop-all.sh             在所有定义在${SPARK_CONF_DIR}/slaves的机器上停止Worker进程
stop-history-server.sh  停止历史记录进程
stop-master.sh          停止spark master进程
stop-slaves.sh          停止某机器上spark slave进程[/code]
pig2 发表于 2017-1-22 20:34:05
hadoop集群验证:
hadoop集群验证方式很多种,这里直接上传一个windows7文件。下面内容,保存未vim.txt文件
移动光标
上:k nk:向上移动n行 9999k或gg可以移到第一行 G移到最后一行
下:j nj:向下移动n行
左:h nh:向左移动n列
右:l nl:向右移动n列

w:光标以单词向前移动 nw:光标向前移动n个单词 光标到单词的第一个字母上
b:与w相反
e: 光标以单词向前移动 ne:光标向前移动n个单词 光标到单词的最后一个字母上
ge:与e相反

$:移动光标到行尾 n$:移动到第n行的行尾
0(Num):移动光标到行首
^:移动光标到行首第一个非空字符上去

f:移动光标到当前行的字符a上,nf移动光标到当前行的第n个a字符上
F:相反

%:移动到与制匹配的括号上去(),{},[],<>等。

nG:移动到第n行上 G:到最后一行

CTRL+G 得到当前光标在文件中的位置

向前翻页:CTRL+F
向下移动半屏:CTRL+G

向后翻页:CTRL+B



到文件开头 gg
到文件结尾 shift+g

#############################

快速移动光标至行首和行尾

需要按行快速移动光标时,可以使用键盘上的编辑键Home,快速将光标移动至当前行的行首。除此之外,也可以在命令模式中使用快捷键"^"(即Shift+6)或0(数字0)。

如果要快速移动光标至当前行的行尾,可以使用编辑键End。也可以在命令模式中使用快捷键"$"(Shift+4)。与快捷键"^"和0不同,快捷键"$"前可以加上数字表示移动的行数。例如使用"1$"表示当前行的行尾,"2$"表示当前行的下一行的行尾。


vim查询使用/


保存后,复制到Linux,然后通过命令
  1. hdfs dfs -put vim.txt /
复制代码

乱码,
vim.jpg

主要是window下是gbk,Linux下是utf8.所以需要转换下

  1. sudo icnov -f gbk utf8 vim.txt > vim.txt.utf8
复制代码



转换后,上传即可看到

vimufg8.jpg

同时证明集群安装配置成功
pig2 发表于 2017-1-19 13:30:58
本帖最后由 pig2 于 2017-1-25 20:09 编辑

远程复制纠正:
下面方式严格来讲,不正确的
  1. scp -r ~/.bashrc  aboutyun@slave1:~/
复制代码

需去掉-r
  1. scp  ~/.bashrc  aboutyun@slave1:~/
复制代码

并且特别注意远程复制之后需要生效环境变量。
  1. source ~/.bashrc
复制代码

涉及到hadoop集群及spark集群的配置

pig2 发表于 2017-1-18 19:06:16
本帖最后由 pig2 于 2017-1-18 19:08 编辑
pig2 发表于 2017-1-10 17:32
解压后注意更改权限
同样hadoop,spark也是

远程复制:
在/data目录的软件。配置完毕,远程复制,如果没有授权的情况下,只能复制到/home/aboutyun目录下。
对/data授权

  1. sudo chmod -R 777 /data
复制代码

即可实现远程复制,如复制hadoop
  1. scp -r /data/hadoop aboutyun@slave1:/data
复制代码

如果无授权,则出现下面情况
  1. scp: /data/hadoop: Permission denied
复制代码






pig2 发表于 2017-1-10 17:32:22
本帖最后由 pig2 于 2017-1-11 16:21 编辑
  1. tar -zxvf ~/jar/spark-1.6.3-bin-hadoop2.6.tgz -C /data
复制代码

解压后注意更改权限
同样hadoop,spark也是
  1. tar -zxvf ~/jar/hadoop-2.6.5.tar.gz -C /data
复制代码


  1. tar -zxvf ~/jar/spark-1.6.3-bin-hadoop2.6.tgz -C /data
复制代码



pig2 发表于 2017-1-5 19:59:27

上述安装软件包下载地址

链接:http://pan.baidu.com/s/1eRJctZ8 密码:u8jh

安装包下载.jpg
pig2 发表于 2017-1-4 18:37:13
ntp设置补充,master同步网络服务器,slave1和slave2可同步master的时间

ntp设置中:master同步网络服务器
server 0.centos.pool.ntp.org iburst
server 1.centos.pool.ntp.org iburst
server 2.centos.pool.ntp.org iburst
server 3.centos.pool.ntp.org iburst

slave1和slave2同步master的时间
注释上面信息采用,在配置文件中/etc/ntp.conf中注释上面信息
直接添加
  1. server master
复制代码

ntp.jpg
ssh-copy-id -i ~/.ssh/id_rsa.pub aboutyun@slave1

的含义是:
将master的公钥远程复制到slave1的authorized_keys文件中:
ssh.jpg






关闭

推荐上一条 /2 下一条