请教flume处理文件的性能能达到多少？

w9527 · 发表于 2015-3-16 13:00:10

arsenduan 发表于 2015-3-16 12:37
这个应该有所改变。可以在设置小点。

改成5了，也就快了二三十秒的样子。不明显。

w9527 · 发表于 2015-3-17 10:37:55

zzuyao 发表于 2015-3-16 09:53
直接写shell 脚本调用hadoop fs -put 比较快

还是写脚本靠谱啊，用flume每分钟4、5百兆的处理速度，写shell脚本每分钟处理7.6G左右，不是一个级别啊。哈哈

zzuyao · 发表于 2015-3-18 01:14:00

w9527 发表于 2015-3-17 10:37
还是写脚本靠谱啊，用flume每分钟4、5百兆的处理速度，写shell脚本每分钟处理7.6G左右，不是一个级别啊。 ...

想想也是，原始数据通过Agent的 source、channal、sink一系列的数据处理、切分、读取、传输，多了这么多环节（如果采用多级Agent，中间环节会更多），最终才put到hdfs上去；个人认为，当数据量相对小（几百、几十G）的时候，脚本自己提交到hdfs就挺好，体现不出所谓分布式日志收集的优点，当数据量猛增 T级别或更高时，也许就能体现flume-ng分布式收集牛x的地方了，另外还可以定义些拦截器啥的先做个数据清洗