新手：关于hadoop实际应用的疑问

提示: 作者被禁止或删除内容自动屏蔽

pig2 · 发表于 2014-5-12 14:40:49

你可以使用flume+hadoop+（hbase+hive）
flume用来采集数据放到hdfs上，
实时查询使用hbase
hive用来统计数据。
hive统计的数据，你可以导出到其他数据库，例如mysql，或则sqlserver中。
至于展现你使用什么语言就无所谓了。
目前我们也在搞这个

seraph50 · 发表于 2014-5-12 15:01:59

提示: 作者被禁止或删除内容自动屏蔽

pig2 · 发表于 2014-5-12 15:40:34

首先明白几个概念，知道什么是hive，什么是hbase，这个在本站都可以找得到。然后，看一下他们的区别：
hive与hbase的十大区别与联系

共同点：
1.hbase与hive都是架构在hadoop之上的。都是用hadoop作为底层存储

区别：
2.Hive是建立在Hadoop之上为了减少MapReduce jobs编写工作的批处理系统，HBase是为了支持弥补Hadoop对实时操作的缺陷的项目。
3.想象你在操作RMDB数据库，如果是全表扫描，就用Hive+Hadoop,如果是索引访问，就用HBase+Hadoop 。
4.Hive query就是MapReduce jobs可以从5分钟到数小时不止，HBase是非常高效的，肯定比Hive高效的多。
5.Hive本身不存储和计算数据，它完全依赖于HDFS和MapReduce，Hive中的表纯逻辑。
6.hive借用hadoop的MapReduce来完成一些hive中的命令的执行
7.hbase是物理表，不是逻辑表，提供一个超大的内存hash表，搜索引擎通过它来存储索引，方便查询操作。
8.hbase是列存储。
9.hdfs作为底层存储，hdfs是存放文件的系统，而Hbase负责组织文件。
10.hive需要用到hdfs存储文件，需要用到MapReduce计算框架。
这个懂了，就知道了hive，hbase在项目中的作用了。然后在看一下什么是flume，
什么是 flume 日志收集，flume的特性

基本上整个框架就明白了

seraph50 · 发表于 2014-5-12 15:44:35

提示: 作者被禁止或删除内容自动屏蔽

pig2 · 发表于 2014-5-12 16:02:24

flume会自动放到hbase里面，hbase可以实时查询。不需要api，编程的时候，你可以使用它。查询你直接使用hbase的shell就行。

图文精华

新手：关于hadoop实际应用的疑问

已有(5)人评论

活跃会员

热心会员

优秀版主

论坛元老

推荐 /2