分享

利用Flume进行安卓手机日志收集的问题,恳请解答!

Lillard 发表于 2016-1-13 11:45:52 [显示全部楼层] 回帖奖励 阅读模式 关闭右栏 4 11886
场景:安卓手机日志收集与分析
通过大量测试机自动/人工手动上传日志,日志数据量较大、日志产生频繁,暂定为所有日志存储在HDFS集群中,日志分析集群是使用另一个HDFS集群分析。
问题:如何高效稳定的打通两个集群间的传输,即如何快速、实时的将存储集群里的日志传输到分析集群进行分析。

1、想到用flume是希望flume可以打通两个集群之间的传输,由于了解的不深入,只知道flume可以将搜集的日志写入HDFS中,想请教flume能否以HDFS作为source?
看的多数帖子中,flume的Spooldir都是监控本地文件目录,它能否监控hdfs目录?
2、如果是我这种场景,flume的agent应该配置在什么机器上?是产生日志的测试机作为agent还是单独配置一个agent-collector集群?
3、这个agent配置在哪里我始终没有看明白,还望各位大神解答 !

已有(4)人评论

跳转到指定楼层
qz2003 发表于 2016-1-13 13:56:59
可以对distcp 编程Hadoop distcp /tmp/lalalala.txt hdfs:// Destination 外网IP:9000/tmp/test/lalalala.txt

更多参考
Hadoop集群间数据拷贝【分享】
http://www.aboutyun.com/thread-16999-1-1.html


flume没有见过source是hdfs的,因为这样很奇怪。
既然楼主日志在hdfs上,为何不直接在集群上分析,而非要跑到另一个集群上去分析。
如果说节点 不够,可以增加节点。
两个集群个人认为有点浪费时间和精力

回复

使用道具 举报

Lillard 发表于 2016-1-13 14:23:51
本帖最后由 Lillard 于 2016-1-13 14:25 编辑
qz2003 发表于 2016-1-13 13:56
可以对distcp 编程Hadoop distcp /tmp/lalalala.txt hdfs:// Destination 外网IP:9000/tmp/test/lalalala.t ...

感谢你的解答!我这边做两个集群的初衷是降低大规模存储和运算的耦合度,之后一边升级、修改不会影响另一边。因为我这边现有的平台就是一个集群,既负责存储也负责运算,但是经常会爆掉,需要经常维护,而且存储过多也影响运算效率。我预想就是一个集群负责存储,另一个集群负责运算,每次存储集群向运算集群传一部分日志,运算集群解析一部分,然后就扔掉。

你说的distcp这个方法,它的效率怎么样?

回复

使用道具 举报

wscl1213 发表于 2016-1-13 16:47:11
Lillard 发表于 2016-1-13 14:23
感谢你的解答!我这边做两个集群的初衷是降低大规模存储和运算的耦合度,之后一边升级、修改不会影响另一 ...

你的事局域网吧,你自己可以尝试下。
理论上挺快的distcp
回复

使用道具 举报

Lillard 发表于 2016-1-13 17:04:19
wscl1213 发表于 2016-1-13 16:47
你的事局域网吧,你自己可以尝试下。
理论上挺快的distcp

嗯嗯,我试试看。多谢!
回复

使用道具 举报

您需要登录后才可以回帖 登录 | 立即注册

本版积分规则

关闭

推荐上一条 /2 下一条