关于about云大数据项目日志的几个疑问解答
本帖最后由 pig2 于 2014-9-21 23:08 编辑此问题由about云群(39327136)管理提出,终于抽出些时间,这里回答下
1.mapreduce做了哪些工作?
在日志处理中,由于日志的数据格式,并不能直接入库,所以不需要清洗一下。而这里的清洗,其实就是我们传统程序的字符串过滤。但是由于是大数据,我们要将工作分配到多台机器共同完成(mapreduce)字符串的过滤,也就是数据的清洗。
2.flume传递起了什么作用?如何配置的?几个节点?
flume将数据从监控目录,传递到hdfs,然后mapreduce会从hdfs取数据。
配置可以参考让你快速认识flume及安装和使用flume1.5传输数据(日志)到hadoop2.2
3.hive的metastore是mysql吗?
hive的元数据库已知有两种:
一种是derby,derby的使用存在一些局限性,最常用的为mysql.
一种是mysql
4.什么时候的数据放入mysql中?
当数据载入hive、hbase之后,hive可用于统计,统计的结果,放到mysql中,可以使用Java将结果显示在ui中。
5.mapreduce处理后结果直接放入hbase中,然后hive读取hbase中数据?
这种方式比较麻烦,直接采用hive、hbase整合,只要加载到hbase中,hive会自动加载,无需在次读取hbase.
hive、hbase整合参考下面内容:
about云分析discuz论坛apache日志hadoop大数据项目:hive与hbase是如何整合使用的
hbase0.96与hive0.12整合高可靠文档及问题总结
不错。。。。。。 hive统计后的结果如何放到mysql中去呢 wkf46525 发表于 2014-11-12 10:50
hive统计后的结果如何放到mysql中去呢
可以使用sqoop把hive中的统计结果放到mysql中
{:soso_e181:} 非常感谢分享
页:
[1]