分享

求助各位一个弱弱的问题:hadoop集群环境搭建好后 它到底能做什么,如何使用呢?

poptang4 发表于 2013-10-25 10:45:25 [显示全部楼层] 回帖奖励 阅读模式 关闭右栏 8 21568
因为我们是做IDC,想给中小型客户提供存储和灾备服务,所以上个礼拜应领导的要求,研究一下hadoop。根据网上的一些文档,我已经成功搭建起了hadoop集群的环境,一个namenode节点 三个datanode几点 搭建好后,通过web也能正常访问。用wordcount.java上传数据到hdfs中也正常。但是我现在有点迷茫的是,这个已经搭建好的hadoop环境到底能做些什么吗?如何使用呢吗?因为我事先了解的情况时hadoop只是一个底层的架构,要实现我所说的提供存储和灾备服务,是否还要进行二次开发吗?很弱弱,确实自己现在对hadoop的理解越来越不清晰,希望热心的达人们给小弟一点指导。感激不尽!!!

已有(8)人评论

跳转到指定楼层
oChengZi1234 发表于 2013-10-25 10:45:25
1、hadoop的强项在于对海量数据的分析以及复杂的业务逻辑的处理。在做到这个工作之前,首先是需要将数据上传到HDFS中。如果你仅仅是只存不分析数据,我觉得还不如放在本地硬盘或是做一个磁盘阵列存放合适。完全没必要使用hadoop。
2、对于容灾和抗灾,最近我也在考虑这个,应为数据多了,存放的地方也大,所以必须要求数据的备份机制比较晚上。对于hadoop而言,默认的是3份备份(可参看配置文件),个人觉得好算是完善,但是前提是你必须把你的网络拓扑图抽象的告诉hadoop集群(默认情况下,所有的集群都在一个水平位置)。建议可以看看hadoop提供的机架感知的备份机制。感觉还可以以,不仅能提升数据分析速度,也能做到异地容灾。
有理解不对的地方还望楼下的朋友给指正!
回复

使用道具 举报

wscl1213 发表于 2013-10-25 10:45:25
回复 2# dajuezhao
感谢兄弟的热心解答,但还是有些模糊。
1. HDFS主要是用于海量数据的分布式存储,Mapreduce是用来进行数据的并行计算的。那我现在搭好的这个简单的3个节点的测试环境,怎样去实现数据的分析处理呢吗?         
2. 你说hadoop的强项在对海量数据的分析及业务逻辑的处理,如果只存储的话没必要用hadoop,用磁盘阵列更合适,但是磁盘阵列的成本是很高的啊,我用hdoop,将大量普通的服务器做成集群实现海量数据的存储,这样不是更节省成本,更有效么吗?
3. 我再问一个最直接的,如果我现在要用这个刚搭建好的测试环境给客户做演示,做数据的存储也好,处理也罢,我怎么用,怎么实现吗?

非常希望跟你就hadoop相关技术多学习,多交流。
回复

使用道具 举报

starrycheng 发表于 2013-10-25 10:45:25
对于第一个,我建议你可以先仔细看看MR的应用
对于第二个,我觉得hadoop的存储是做过处理的,它的存储目的是为了更好的做数据的分析和挖掘。如果只是单纯存取数据,没必要用hadoop!说到成本,hadoop确实可以使用一些性能较差的机器进行数据的存放,但是硬盘的空间是有限的,你增加节点机器同时也是需要增加其他的硬件(CPU、内存等)。而且hadoop之所以要增加这样的机器其目的也是为了利用一些可以利用的硬件资源,硬盘只是其中一部分而已。
对于你的第三个,说实话,太大了,我也不知道具体怎么回答!
回复

使用道具 举报

lijian123841314 发表于 2013-10-25 10:45:25
回复 4# dajuezhao
再次感谢你的耐心解答!
回复

使用道具 举报

arsenduan 发表于 2013-10-25 10:45:25
我觉得HDFS的存储功能主要是2个。
一个是容错能力,默认有3个备份,各种资料上说提供海量存储能力,事实上我觉得存储容量并没有增加,磁盘硬件存储能力是多少,HDFS的总存储能力就是所有磁盘的能力相加。和普通的系统没有区别。
第二个是存储大型文件,比如一个文件100G,但假如你的廉价PC的硬盘只有80G,那么用普通系统是无法存储的,这时你需要去买更贵的磁盘来存储此类文件。而HDFS提供的就是将许多廉价存储器集合起来,能够存储大型文件的能力。
所以我个人觉得,如果要用HDFS来作存储演示,只能从容错和存储大型文件角度来展示功能。不然和普通FS没有明显区别。
回复

使用道具 举报

mexiang 发表于 2013-10-25 10:45:25
至于展示处理能力,我想可以去网上找一些复杂算法的实现过程。论坛出了3期开发者杂志,hadoop应用程序的开发也有介绍。可以试试用单机PC运行算法需要的耗时和hadoop下并行处理需要的耗时进行比较。来展示并行处理的能力。不知道这样考虑是否正确,也请老鸟们指点。
回复

使用道具 举报

ruanhero 发表于 2013-10-25 10:45:25
1、hadoop的强项在于对海量数据的分析以及复杂的业务逻辑的处理。在做到这个工作之前,首先是需要将数据上传 ...
dajuezhao 发表于 2010-7-26 13:09



络拓扑图抽象的告诉hadoop集群
这个要怎样做到呢吗?
回复

使用道具 举报

oChengZi1234 发表于 2013-10-25 10:45:25
你可以关注一下hadoop的机架感知功能,通过配置可以通知集群机器的网络位置。如果不配置,默认所有的集群都在同一水平位置上。
回复

使用道具 举报

您需要登录后才可以回帖 登录 | 立即注册

本版积分规则

关闭

推荐上一条 /2 下一条