分享

100T数据存储到hadoop 需要的硬件环境

bob007 发表于 2013-10-25 10:42:56 [显示全部楼层] 回帖奖励 阅读模式 关闭右栏 8 22720
100T导入到hadoop上,需要进行运算。考虑到文件备份策略,中间数据的产生,需要多少台机器,机器配置如何呢。

已有(8)人评论

跳转到指定楼层
Alkaloid0515 发表于 2013-10-25 10:42:56
mark 一下
回复

使用道具 举报

kaif22 发表于 2013-10-25 10:42:56
1. 如果你只考虑存储的话
380 T /  每个磁盘的存储空间  = 你需要的机器数
2. 如果你还既想存储又想运算。
那就要根据你的运算量来计算了。
默认的数据块大小为64M ,可以调大到 256M  1G(4个数据块)
100T  (400个数据块) 每个机器运行4个Map任务,如果同时运行的话你需要100台机器。
TaskTracker 1G  + DataNode 1G + 512M * 4 + 其他的内存
网卡,交换机,网线 都要千M的光纤。
如果你运算的数据量小可以再减。
回复

使用道具 举报

xukunddp 发表于 2013-10-25 10:42:56
你的中间数据是不是也在hdfs上呢,如果在的话,那这80T也是要乘以3的。还有如果是一个集群的话,你还要考虑网速。
回复

使用道具 举报

qz2003 发表于 2013-10-25 10:42:56
100T数据假设有 100*1024个文件,文件块1G,中间数据占用一个文件的80%,那中间数据就是80T,考虑3个备份,硬盘需要380T。这样的空间考虑可以吗吗?内存会考虑到吞吐速度。不知道该如何设计
回复

使用道具 举报

plist 发表于 2015-1-28 09:51:32
有一个建议三参数吗
回复

使用道具 举报

尘世随缘 发表于 2015-5-8 13:37:18
回复

使用道具 举报

shuai 发表于 2015-5-26 15:20:03
kaif22 发表于 2013-10-25 10:42
1. 如果你只考虑存储的话
380 T /  每个磁盘的存储空间  = 你需要的机器数
2. 如果你还既想存储又想运算 ...

1G是4个数据块。。100T=100000G。
回复

使用道具 举报

您需要登录后才可以回帖 登录 | 立即注册

本版积分规则

关闭

推荐上一条 /2 下一条