分享

关于about云大数据项目日志的几个疑问解答

pig2 发表于 2014-9-21 23:07:41 [显示全部楼层] 回帖奖励 阅读模式 关闭右栏 5 14405
本帖最后由 pig2 于 2014-9-21 23:08 编辑
此问题由about云群(39327136)管理提出,终于抽出些时间,这里回答下

1.mapreduce做了哪些工作?
在日志处理中,由于日志的数据格式,并不能直接入库,所以不需要清洗一下。而这里的清洗,其实就是我们传统程序的字符串过滤。但是由于是大数据,我们要将工作分配到多台机器共同完成(mapreduce)字符串的过滤,也就是数据的清洗。


2.flume传递起了什么作用?如何配置的?几个节点?
flume将数据从监控目录,传递到hdfs,然后mapreduce会从hdfs取数据。
配置可以参考让你快速认识flume及安装和使用flume1.5传输数据(日志)到hadoop2.2

3.hive的metastore是mysql吗?
hive的元数据库已知有两种:
一种是derby,derby的使用存在一些局限性,最常用的为mysql.
一种是mysql

4.什么时候的数据放入mysql中?
当数据载入hive、hbase之后,hive可用于统计,统计的结果,放到mysql中,可以使用Java将结果显示在ui中。


5.mapreduce处理后结果直接放入hbase中,然后hive读取hbase中数据?
这种方式比较麻烦,直接采用hive、hbase整合,只要加载到hbase中,hive会自动加载,无需在次读取hbase.
hive、hbase整合参考下面内容:
about云分析discuz论坛apache日志hadoop大数据项目:hive与hbase是如何整合使用的


hbase0.96与hive0.12整合高可靠文档及问题总结



已有(5)人评论

跳转到指定楼层
wkf46525 发表于 2014-11-12 10:50:38
hive统计后的结果如何放到mysql中去呢
回复

使用道具 举报

chenny 发表于 2014-11-25 11:38:19
wkf46525 发表于 2014-11-12 10:50
hive统计后的结果如何放到mysql中去呢

可以使用sqoop把hive中的统计结果放到mysql中
回复

使用道具 举报

wubaozhou 发表于 2014-12-31 10:26:22
回复

使用道具 举报

ggggying12 发表于 2017-2-23 15:08:59
非常感谢分享
回复

使用道具 举报

您需要登录后才可以回帖 登录 | 立即注册

本版积分规则

关闭

推荐上一条 /2 下一条