pig2 发表于 2014-9-21 23:07:41

关于about云大数据项目日志的几个疑问解答

本帖最后由 pig2 于 2014-9-21 23:08 编辑

此问题由about云群(39327136)管理提出,终于抽出些时间,这里回答下

1.mapreduce做了哪些工作?
在日志处理中,由于日志的数据格式,并不能直接入库,所以不需要清洗一下。而这里的清洗,其实就是我们传统程序的字符串过滤。但是由于是大数据,我们要将工作分配到多台机器共同完成(mapreduce)字符串的过滤,也就是数据的清洗。


2.flume传递起了什么作用?如何配置的?几个节点?
flume将数据从监控目录,传递到hdfs,然后mapreduce会从hdfs取数据。
配置可以参考让你快速认识flume及安装和使用flume1.5传输数据(日志)到hadoop2.2

3.hive的metastore是mysql吗?
hive的元数据库已知有两种:
一种是derby,derby的使用存在一些局限性,最常用的为mysql.
一种是mysql

4.什么时候的数据放入mysql中?
当数据载入hive、hbase之后,hive可用于统计,统计的结果,放到mysql中,可以使用Java将结果显示在ui中。


5.mapreduce处理后结果直接放入hbase中,然后hive读取hbase中数据?
这种方式比较麻烦,直接采用hive、hbase整合,只要加载到hbase中,hive会自动加载,无需在次读取hbase.
hive、hbase整合参考下面内容:
about云分析discuz论坛apache日志hadoop大数据项目:hive与hbase是如何整合使用的


hbase0.96与hive0.12整合高可靠文档及问题总结



hery 发表于 2014-9-22 10:20:00

不错。。。。。。

wkf46525 发表于 2014-11-12 10:50:38

hive统计后的结果如何放到mysql中去呢

chenny 发表于 2014-11-25 11:38:19

wkf46525 发表于 2014-11-12 10:50
hive统计后的结果如何放到mysql中去呢

可以使用sqoop把hive中的统计结果放到mysql中

wubaozhou 发表于 2014-12-31 10:26:22

{:soso_e181:}

ggggying12 发表于 2017-2-23 15:08:59

非常感谢分享
页: [1]
查看完整版本: 关于about云大数据项目日志的几个疑问解答