关于about云大数据项目日志的几个疑问解答

本帖最后由 pig2 于 2014-9-21 23:08 编辑
此问题由about云群（39327136）管理提出，终于抽出些时间，这里回答下

1.mapreduce做了哪些工作？
在日志处理中，由于日志的数据格式，并不能直接入库，所以不需要清洗一下。而这里的清洗，其实就是我们传统程序的字符串过滤。但是由于是大数据，我们要将工作分配到多台机器共同完成（mapreduce）字符串的过滤，也就是数据的清洗。

2.flume传递起了什么作用？如何配置的？几个节点？
flume将数据从监控目录，传递到hdfs,然后mapreduce会从hdfs取数据。
配置可以参考让你快速认识flume及安装和使用flume1.5传输数据(日志)到hadoop2.2

3.hive的metastore是mysql吗？
hive的元数据库已知有两种:
一种是derby,derby的使用存在一些局限性，最常用的为mysql.
一种是mysql

4.什么时候的数据放入mysql中？
当数据载入hive、hbase之后，hive可用于统计，统计的结果，放到mysql中，可以使用Java将结果显示在ui中。

5.mapreduce处理后结果直接放入hbase中，然后hive读取hbase中数据？
这种方式比较麻烦，直接采用hive、hbase整合，只要加载到hbase中，hive会自动加载，无需在次读取hbase.
hive、hbase整合参考下面内容：
about云分析discuz论坛apache日志hadoop大数据项目：hive与hbase是如何整合使用的

hbase0.96与hive0.12整合高可靠文档及问题总结