100T数据存储到hadoop 需要的硬件环境
100T导入到hadoop上,需要进行运算。考虑到文件备份策略,中间数据的产生,需要多少台机器,机器配置如何呢。 mark 一下 1. 如果你只考虑存储的话380 T /每个磁盘的存储空间= 你需要的机器数
2. 如果你还既想存储又想运算。
那就要根据你的运算量来计算了。
默认的数据块大小为64M ,可以调大到 256M1G(4个数据块)
100T(400个数据块) 每个机器运行4个Map任务,如果同时运行的话你需要100台机器。
TaskTracker 1G+ DataNode 1G + 512M * 4 + 其他的内存
网卡,交换机,网线 都要千M的光纤。
如果你运算的数据量小可以再减。 你的中间数据是不是也在hdfs上呢,如果在的话,那这80T也是要乘以3的。还有如果是一个集群的话,你还要考虑网速。 100T数据假设有 100*1024个文件,文件块1G,中间数据占用一个文件的80%,那中间数据就是80T,考虑3个备份,硬盘需要380T。这样的空间考虑可以吗吗?内存会考虑到吞吐速度。不知道该如何设计 mark~~~~~~~~~~ 有一个建议三参数吗 {:soso_e176:} kaif22 发表于 2013-10-25 10:42
1. 如果你只考虑存储的话
380 T /每个磁盘的存储空间= 你需要的机器数
2. 如果你还既想存储又想运算 ...
1G是4个数据块。。100T=100000G。
页:
[1]