分享

MapReduce运行速度难题

easthome001 发表于 2013-10-26 15:12:24 [显示全部楼层] 回帖奖励 阅读模式 关闭右栏 5 5547
我配置两台机器,一台作为namenode,一台作为datanode.然后在这个集群上面运行wordcount程序,一个4.9Kb的英文文章,运行结束统计出其中的英文单词,特殊符号后,花费时间大概35330ms。而我写一个本地的程序,直接统计文章中的单词及其特殊符号数,所花费时间仅为176ms。两者之间大概二百倍的关系,我感到很迷惑,不知道啥原因吗?

已有(5)人评论

跳转到指定楼层
xukunddp 发表于 2013-10-26 15:12:24
你用一个10G的文件试试就不迷茫了
回复

使用道具 举报

a2325145 发表于 2013-10-26 15:12:24
hadoop初始化也会话很长时间的,要注意到hadoop的优势是啥
回复

使用道具 举报

wscl1213 发表于 2013-10-26 15:12:24
hadoop 0.20 只读入和输出数据的overhead,在AMD Optron 64 2。2GHZ的CPU上,大概为20秒左右
回复

使用道具 举报

yunjisuanxue 发表于 2013-10-26 15:12:24
1.数据量太小运用Hadoop没有任何优势,还不如你自己直接写个单机程序解决快。
2.Hadoop是用来处理单机程序无法解决的的,是来处理大批量数据TB/PB级别的数据。
3.具体到你提出慢,是因为Hadoop整个体系的开启维护需要耗费大量的资源。
回复

使用道具 举报

bob007 发表于 2013-10-26 15:12:24
望你多加几个datanode,用10个datanode试一试,数据量加到20G
效果就比较明显了
回复

使用道具 举报

您需要登录后才可以回帖 登录 | 立即注册

本版积分规则

关闭

推荐上一条 /2 下一条