nettman 发表于 2013-11-28 15:01:20

Hadoop Windows下伪分布式的安装

安装Cygwin:
1.Devel:openssl-devel;
2.Editors:vim;
3.Net:openssh;
4.其他默认。

Hadoop Windows下伪分布式的安装 笔记
安装SSHD
1.ssh-host-config
2.yes
3.yes
4.yes
5.
启动SSHD
net start sshd

Hadoop Windows下伪分布式的安装 笔记
安装ssh
1.ssh-keygen
2.
3.
4.
5.cat id_rsa.pub >> authorized_keys
6.ssh localhost
7.ssh localhost
8.jps

Hadoop Windows下伪分布式的安装 笔记
安装Hadoop
1.tar zxvf hadoop-1.0.1.tar.gz
2.配置hadoop-env.sh
(1).vi hadoop-env.sh
(2).a
(3).加入export JAVA_HOME=/cygdrive/c/JDK
(4).Esc
(5).:wq
(6).sh hadoop-env.sh
3.配置conf/core-site.xml
(1).vi core-site.xml
(2).a
(3).加入fs.default.namehdfs://localhost:9000
(4).Esc
(5).:wq
4.配置conf/hdfs-site.xml
(1).vi hdfs-site.xml
(2).a
(3).加入dfs.replication1
(4).Esc
(5).:wq
5.配置conf/mapred-site.xml
(1).vi mapred-site.xml
(2).a
(3).加入mapred.job.trackerlocalhost:9001
(4).Esc
(5).:wq

Hadoop Windows下伪分布式的安装 笔记
1.格式化文件系统,hadoop namenode -format
2.启动hadoop
(1).启动关闭所有任务,start-all.sh/stop-all.sh
(2).启动关闭HDFS,start-dfs.sh/stop-dfs.sh
(3).启动关闭MapReduce,start-mapred.sh/stop-mapred.sh
3.用jps命令查看进程,确保有NameNode、DataNode、JobTracker、TaskTracker

Hadoop Shell 笔记
bin
1. hadoop,是shell脚本
2. hadoop-config.sh,给hadoop的一些变量赋值
3. hadoop-daemon.sh,hadoop的单节点启动
4. hadoop-daemons.sh,会调用slaves.sh去,启动或停止所有slave节点的某个服务
5. start-all.sh,启动所有节点的所有服务
6. start-balancer.sh,负载均衡,启动后不知道什么时候运行完,很慢且占带宽,可以在配置文件里配置所占带宽,因为是来回拷数据,所以对集群的压力比较大,一般都是在没有任务的时候执行它
7. start-dfs.sh,启动所有节点的dfs
8. start-jobhistoryserver.sh,用来跟踪job,主要包括运行多久、产生多少数据文件等
9. start-mapred.sh,启动所有节点的MapReduce
10. stop-all.sh,停止所有节点的所有服务
11. stop-balancer.sh,停止负载均衡
12. stop-dfs.sh,停止所有节点的dfs
13. stop-jobhistoryserver.sh,停止跟踪job
14. stop-mapred.sh,停止所有节点的MapReduce

shell
1. namenode -format,格式化dfs文件系统
2. secondarynamenode,运行一个dfs备用的namenode节点
3. namenode,运行一个dfs的namenode节点
4. datanode,运行一个dfs的datanode节点
5. dfsadmin,运行一个dfs的管理员客户端
6. mradmin,运行一个MapReduce的管理员客户端
7. fsck,运行一个dfs文件系统的检查工具
8. fs,运行一个普通文件系统的用户客户端
9. balancer,运行一个负载均衡工具
10. fetchdt,从namenode节点中获取标识token
11. jobtracker,运行一个MapReduce的jobtracker节点
12. pipes,运行一个管道作业,基于C++的
13. tasktracker,运行一个MapReduce的tasktracker节点
14. historyserver,运行一个独立的守护进程——工作历史服务器
15. job,操作MapReduce中的作业
16. queue,获取有关作业队列的信息
17. version,打印版本信息
18. jar ,运行一个jar文件
19. distcp ,递归地复制文件或目录
20. archive -archiveName NAME -p * ,创建一个hadoop归档文件,即打包hadoop文件
21. classpath,打印需要得到Hadoop jar和所需类库的classpath
22. daemonlog,获得或设置每个守护进程的日志级别
23. CLASSNAME,运行指定的类名称


页: [1]
查看完整版本: Hadoop Windows下伪分布式的安装