百度的服务器大部分是价格在两到三万元左右的,标配12个1TB硬盘,32GB内存,没有RAID卡,没有采用高端的服务器。
同时你有可以参考阿里:
淘宝
总容量9.3PB, 利用率77.09%
• 总共1100台机器
• Master:8CPU(HT),48G内存,SAS Raid
• Slave节点异构
– 8CPU/8CPU(HT)
– 16G/24G内存
– 1T x 12 / 2T x 6 / 1T x 6 SATA JBOD
– 12/20 slots
• 约18000道作业/天, 扫描数据:约500TB/天
• 用户数474人, 用户组38个
基于0.19.1
• 大量Patch
– 主要来自官方社区0.19.2, 0.20, 0.21等, 少部分自己开发
• Hadoop客户端和服务端代码开发分离, 云梯管理员只负责服务端升级, 并保持版本向下兼容
以上数据是淘宝数据平台的周敏在2009年9月发布的。
但是最近关注阿里的2012年技术分享,已经看到一些数据的更新:
规模:2000 台
总数据量30PB
数据每天增长100T
每天的集成/挖掘任务数100K
每天提交的分析任务数10K
详细可看: Hadoop在百度、淘宝、Facebook使用情况
|