datong838 发表于 2013-10-25 10:42:37

请教hadoop的副本分布问题。。。

想部署一个hadoop集群,有一部分机器在地方A,还有一部分机器在地方B,如何使得能从地方A上传的数据在地方B有至少一份数据副本吗?

shihailong123 发表于 2013-10-25 10:42:37

需要配置不同的机架:namenode在选择数据块的写入datanode列表时, 已经充分考虑到了将block副本分散在不同机架下.
http://developer.51cto.com/art/201006/204086.htm

when30 发表于 2013-10-25 10:42:37

topology.script.file.name不能达到lz的要求吧,第二个副本的rack是随机选择的。lz说的地方A、B是什么概念吗?Rack/DC吗?

lxs_huntingjob 发表于 2013-10-25 10:42:37

譬如有这样两个rack:A、B
rackA中有a1...an机器
rackB有b1...bm机器
如果写数据的client在rackA集群内,那么三个副本的放置策略会是:
client、bi,bj三台机器。 即:本机架一个副本、 跨机架两个副本

atsky123 发表于 2013-10-25 10:42:37

@iamashutong 可以达到,可以讲地点B的机架看做一个,在脚本中体现

atsky123 发表于 2013-10-25 10:42:37

回复 4# piaoya
应该是本机架2个副本,另外机架1个副本

goldtimes 发表于 2013-10-25 10:42:37

回复 4# piaoya
    如果我一个datanode想把其本地文件系统上的一个文件上传到hdfs。该datanode可以直接在cmd里直接上传吗吗?还是需要ssh到namenode才行吗?
页: [1]
查看完整版本: 请教hadoop的副本分布问题。。。