hadoop部署及配置注意项

1.部署
namenode磁盘: sas带RAID,多磁盘存储文件系统元信息.
datanode配置: 不带RAID, 双网卡: 一个用于内部数据传输，一个用于外部数据传输.
hadoop各节点的分布:namenode和jobtracker部署:namenode与jobtracker分离.tasktracker与datanode配对.
Trash: hadoop回收站功能默认是禁止的，删除文件，就是直接删除了,所以要记得配置好trash。trash功能还是不错的，当rm后，它会move到当前文件夹下的.Trash目录下,误删文件后，可以到对应的.Trash目录下恢复文件，参考配置属性fs.trash.interval。
备份:namendoe的元数据切记做好多处备份，包括热备和冷备，否则元数据一丢，整个集群的数据都无法恢复了。热备:namenode的元数据配置写两份，一分写本地，另一份写远程nfs。冷备:定时拷贝namenode的元数据到远程的nfs，保留十天甚至更长。
Datanode的数据目录:如果datanode对应的机器上有多块磁盘，例如/disk1-/disk3,dfs.data.dir可以配置为”/disk1/data,/disk2/data,/disk3/data”,datanode会在写数据时,以轮询的方式选择一个目录写入数据，一般这些目录是不同的块设备，不存在的目录会被忽略掉,参考配置属性dfs.data.dir.datanode如果有多个磁盘不建议做raid,因为做raid会有性能损失,还会导致一个磁盘坏了,整个硬盘也不能用了，而hadoop可以规避这个问题。
Tasktracker的中间输出目录: MapReduce产生的中间数据会特别多，为了减少磁盘压力，如果机器有多个磁盘，也可以像datanode的数据目录设为”/disk1/local,/disk2/local,/disk3/local”,参考配置属性mapred.local.dir。map和reduce任务的JVM选项:mapred.child.java.opts配置map和reduce子进程的JVM属性,如果内存充裕，可以改为 -Xmx2400m.Tasktracker的map和reducer数量配置: 属性mapred.tasktracker.map.tasks.maximum配置这个tasktracker同时可以最多跑多少个map task,要根据tracker的内存和磁盘情况规划。还有属性mapred.tasktracker.reduce.tasks.maximum配置这个tasktracker同时可以最多跑多少个reduce task.同理也是要根据tracker的内存和磁盘情况规划。例如8核的机器，8个map和8个reducer。map中间结果开启压缩操作(尤其是snappy和LZO)的时候，cpu的负载会比较高，map和reducer的数量可以根据自己的业务情况灵活调节。缓冲区大小:io.file.buffer.size默认是4KB，作为hadoop缓冲区，用于hadoop读hdfs的文件和写hdfs的文件，还有map的输出都用到了这个缓冲区容量，对于现在的硬件很保守，可以设置为128k(131072),甚至是1M(太大了map和reduce任务可能会内存溢出)。noatime的设置:为了充分发挥性能，需要使用noatime选项挂载磁盘，表示执行读操作时，不更新文件的访问时间，可以显著提供性能。CRC32 Intrinsic加速CRC校验
2.配置

Master和Slave上的几个conf配置文件不需要全部同步，如果确定都是通过Master去启动和关闭，那么Slave机器上的配置不需要去维护。但如果希望在任意一台机器都可以启动和关闭Hadoop，那么就需要全部保持一致了。

Master和Slave机器上的/etc/hosts中必须把集群中机器都配置上去，就算在各个配置文件中使用的是IP。这个吃过不少苦头，原来以为如果配成IP就不需要去配置Host，结果发现在执行Reduce的时候总是卡住，在拷贝的时候就无法继续下去，不断重试。另外如果集群中如果有两台机器的机器名如果重复也会出现问题。

如果在新增了节点或者删除节点的时候出现了问题，首先就去删除Slave的hadoop.tmp.dir，然后重新启动试试看，如果还是不行那就干脆把Master的hadoop.tmp.dir删除（意味着dfs上的数据也会丢失），如果删除了Master的hadoop.tmp.dir，那么就需要重新namenode–format。Map任务个数以及Reduce任务个数配置。前面分布式文件系统设计提到一个文件被放入到分布式文件系统中，会被分割成多个block放置到每一个的DataNode上，默认dfs.block.size应该是64M，也就是说

如果你放置到HDFS上的数据小于64，那么将只有一个Block，此时会被放置到某一个DataNode中，这个可以通过使用命令：hadoopdfsadmin–report就可以看到各个节点存储的情况。也可以直接去某一个DataNode查看目录：hadoop.tmp.dir/dfs/data/current就可以看到那些block了。Block的数量将会直接影响到Map的个数。当然可以通过配置来设定Map和Reduce的任务个数。Map的个数通常默认和HDFS需要处理的blocks相同。也可以通过Hadoop配置Map的数量或者配置minimumsplitsize来设定，实际的个数为：max(min(block_size,data/#maps),min_split_size)。Reduce可以通过这个公式计算：0.95*num_nodes*mapred.tasktracker.tasks.maximum。

总的来说出了问题或者启动的时候最好去看看日志，这样心里有底。

784001191@qq · 发表于 2013-12-3 16:49:39

请教一下我是才开始学习hadhoop 我想在自己电脑上搭建一个hadhoop 试试但是我不知道怎么安装，能否指点指点

pig2 · 发表于 2013-12-3 20:32:55

784001191@qq 发表于 2013-12-3 16:49
请教一下我是才开始学习hadhoop 我想在自己电脑上搭建一个hadhoop 试试但是我不知道怎么安装，能否指点 ...

hadoop安装方式有很多种：
如果一台电脑：可以安装单机版，配置高的，可以安装伪分布
单机版参考：http://www.aboutyun.com/thread-5663-1-1.html
如果集群的话，可以参考：
http://www.aboutyun.com/thread-5599-1-1.html
刚开始学，建议先安装单机版

图文精华

hadoop部署及配置注意项

已有(0)人评论

活跃会员

热心会员

推广达人

宣传达人

突出贡献

优秀版主

论坛元老

推荐 /2