分享

新手:关于hadoop实际应用的疑问

seraph50 发表于 2014-5-12 11:45:09 [显示全部楼层] 回帖奖励 阅读模式 关闭右栏 5 8993
提示: 作者被禁止或删除 内容自动屏蔽

已有(5)人评论

跳转到指定楼层
pig2 发表于 2014-5-12 14:40:49
你可以使用flume+hadoop+(hbase+hive)
flume用来采集数据放到hdfs上,
实时查询使用hbase
hive用来统计数据。
hive统计的数据,你可以导出到其他数据库,例如mysql,或则sqlserver中。
至于展现你使用什么语言就无所谓了。
目前我们也在搞这个
回复

使用道具 举报

seraph50 发表于 2014-5-12 15:01:59
提示: 作者被禁止或删除 内容自动屏蔽
回复

使用道具 举报

pig2 发表于 2014-5-12 15:40:34
首先明白几个概念,知道什么是hive,什么是hbase,这个在本站都可以找得到。然后,看一下他们的区别:
hive与hbase的十大区别与联系

共同点:
1.hbase与hive都是架构在hadoop之上的。都是用hadoop作为底层存储

区别:
2.Hive是建立在Hadoop之上为了减少MapReduce jobs编写工作的批处理系统,HBase是为了支持弥补Hadoop对实时操作的缺陷的项目 。
3.想象你在操作RMDB数据库,如果是全表扫描,就用Hive+Hadoop,如果是索引访问,就用HBase+Hadoop 。
4.Hive query就是MapReduce jobs可以从5分钟到数小时不止,HBase是非常高效的,肯定比Hive高效的多。
5.Hive本身不存储和计算数据,它完全依赖于HDFS和MapReduce,Hive中的表纯逻辑。
6.hive借用hadoop的MapReduce来完成一些hive中的命令的执行
7.hbase是物理表,不是逻辑表,提供一个超大的内存hash表,搜索引擎通过它来存储索引,方便查询操作。
8.hbase是列存储。
9.hdfs作为底层存储,hdfs是存放文件的系统,而Hbase负责组织文件。
10.hive需要用到hdfs存储文件,需要用到MapReduce计算框架。
这个懂了,就知道了hive,hbase在项目中的作用了。然后在看一下什么是flume,
什么是 flume 日志收集,flume的特性

基本上整个框架就明白了






回复

使用道具 举报

seraph50 发表于 2014-5-12 15:44:35
提示: 作者被禁止或删除 内容自动屏蔽
回复

使用道具 举报

pig2 发表于 2014-5-12 16:02:24
flume会自动放到hbase里面,hbase可以实时查询。不需要api,编程的时候,你可以使用它。查询你直接使用hbase的shell就行。
回复

使用道具 举报

您需要登录后才可以回帖 登录 | 立即注册

本版积分规则

关闭

推荐上一条 /2 下一条