bob007 发表于 2013-10-25 10:42:56

100T数据存储到hadoop 需要的硬件环境

100T导入到hadoop上,需要进行运算。考虑到文件备份策略,中间数据的产生,需要多少台机器,机器配置如何呢。

Alkaloid0515 发表于 2013-10-25 10:42:56

mark 一下

kaif22 发表于 2013-10-25 10:42:56

1. 如果你只考虑存储的话
380 T /每个磁盘的存储空间= 你需要的机器数
2. 如果你还既想存储又想运算。
那就要根据你的运算量来计算了。
默认的数据块大小为64M ,可以调大到 256M1G(4个数据块)
100T(400个数据块) 每个机器运行4个Map任务,如果同时运行的话你需要100台机器。
TaskTracker 1G+ DataNode 1G + 512M * 4 + 其他的内存
网卡,交换机,网线 都要千M的光纤。
如果你运算的数据量小可以再减。

xukunddp 发表于 2013-10-25 10:42:56

你的中间数据是不是也在hdfs上呢,如果在的话,那这80T也是要乘以3的。还有如果是一个集群的话,你还要考虑网速。

qz2003 发表于 2013-10-25 10:42:56

100T数据假设有 100*1024个文件,文件块1G,中间数据占用一个文件的80%,那中间数据就是80T,考虑3个备份,硬盘需要380T。这样的空间考虑可以吗吗?内存会考虑到吞吐速度。不知道该如何设计

hahaxixi 发表于 2014-10-23 11:01:04

mark~~~~~~~~~~

plist 发表于 2015-1-28 09:51:32

有一个建议三参数吗

尘世随缘 发表于 2015-5-8 13:37:18

{:soso_e176:}

shuai 发表于 2015-5-26 15:20:03

kaif22 发表于 2013-10-25 10:42
1. 如果你只考虑存储的话
380 T /每个磁盘的存储空间= 你需要的机器数
2. 如果你还既想存储又想运算 ...

1G是4个数据块。。100T=100000G。
页: [1]
查看完整版本: 100T数据存储到hadoop 需要的硬件环境