这个应该有所改变。可以在设置小点。
改成5了,也就快了二三十秒的样子。不明显。 zzuyao 发表于 2015-3-16 09:53
直接写shell 脚本 调用hadoop fs -put 比较快
还是写脚本靠谱啊,用flume每分钟4、5百兆的处理速度,写shell脚本每分钟处理7.6G左右,不是一个级别啊。哈哈
w9527 发表于 2015-3-17 10:37
还是写脚本靠谱啊,用flume每分钟4、5百兆的处理速度,写shell脚本每分钟处理7.6G左右,不是一个级别啊。 ...
想想也是,原始数据通过Agent的 source、channal、sink一系列 的数据处理、切分、读取、传输,多了这么多环节(如果采用多级Agent,中间环节会更多),最终才put到hdfs上去;个人认为,当数据量相对小(几百、几十G)的时候,脚本自己提交到hdfs就挺好,体现不出所谓分布式日志收集的优点,当数据量猛增 T级别或更高时,也许就能体现flume-ng分布式收集牛x的地方了,另外还可以定义些拦截器啥的先做个数据清洗
zzuyao 发表于 2015-3-18 01:14
想想也是,原始数据通过Agent的 source、channal、sink一系列 的数据处理、切分、读取、传输,多了这么多 ...
我这边测试的数据量其实蛮大的,根据现场采集数据来看基本上是1到2分钟就生成一个800兆左右的数据文件,
这些数据是全天候产生的,而且文件产生后20秒内不处理的话文件就会被删除,所以要求处理软件的吞吐量必须要大、必须快。
本来寄希望与flume,现在看来这条路走不通,呵呵。
w9527 发表于 2015-3-18 09:19
我这边测试的数据量其实蛮大的,根据现场采集数据来看基本上是1到2分钟就生成一个800兆左右的数据文件,
...
你可以尝试把800M的文件分开几个来? 然后flume 开启多个source来去获取。
楼主,你好,想问下你这个问题解决了,性能提升了吗,我也遇到这个问题
问一下,Flume1.9性能测试时结果不如1.7,环境基本相同,请问可能是什么原因? 请问:我测试Flume1.9性能的结果不如1.7,安全模式下,这可能是什么原因?
页:
1
[2]