请教flume处理文件的性能能达到多少？

我的文件来源是每1-2分钟产生一个800M左右的文件，需要放到hdfs中，
我试下来flume最多每分钟处理400M左右，效率太低，
Spooling Directory Source
Channels.type=memory
HDFS
请问专家如何提高处理文件的能力？谢谢！

jixianqiuxue · 发表于 2015-3-15 19:00:36

变快可以增加内存，这是直接加快的方法，当然对于变慢，也是有处理方法的。引用基于Flume的美团日志收集系统(一)架构和设计中的一段话，或则对楼主有所帮助

当Hadoop上的任务较多且有大量的读写操作时，Hdfs的读写数据往往变的很慢。由于每天，每周都有高峰使用期，所以这种情况非常普遍。
对于Hdfs变慢的问题，我们同样使用DualChannel来解决。当Hdfs写入较快时，所有的events只经过MemChannel传递数据，减少磁盘IO，获得较高性能。当Hdfs写入较慢时，所有的events只经过FileChannel传递数据，有一个较大的数据缓存空间

zzuyao · 发表于 2015-3-16 09:53:59

直接写shell 脚本调用hadoop fs -put 比较快

w9527 · 发表于 2015-3-16 10:40:10

jixianqiuxue 发表于 2015-3-15 19:00
变快可以增加内存，这是直接加快的方法，当然对于变慢，也是有处理方法的。引用基于Flume的美团日志收集系 ...

我尝试改了这些配置，都没有什么效果，下面是我的配置，请专家帮忙分析一下，谢谢！
#defin source
a1.sources=sr1
a1.sinks=sk1
a1.channels=ch1
#configure channel
a1.channels.ch1.type=memory
a1.channels.ch1.capacity =1000000000
a1.channels.ch1.transactionCapacity =500000000
a1.channels.ch1.keep-alive=30
#a1.channels.ch1.byteCapacityBufferPercentage=40
#a1.channels.ch1.byteCapacity=536870912
# Describe/configure the source
a1.sources.sr1.channels=ch1
a1.sources.sr1.type=spooldir
a1.sources.sr1.spoolDir=/home/hadoop/9900/data
a1.sources.sr1.batchSize=100
a1.sources.sr1.consumeOrder=youngest
#a1.sources.sr1.inputCharset=UTF-8
# Describe the sink
a1.sinks.sk1.channel=ch1
a1.sinks.sk1.type=hdfs
a1.sinks.sk1.hdfs.path=hdfs://c7000-master:8020/wjl/%y-%m-%d/%H%M
#%y-%m-%d/%H%M
a1.sinks.sk1.hdfs.filePrefix=events-
a1.sinks.sk1.hdfs.rollSize=0
a1.sinks.sk1.hdfs.rollInterval=60
a1.sinks.sk1.hdfs.threadsPoolSize=10
a1.sinks.sk1.hdfs.rollCount=0
a1.sinks.sk1.hdfs.batchSize=100000
a1.sinks.sk1.hdfs.fileType=DataStream
a1.sinks.sk1.hdfs.writeFormat=TEXT
a1.sinks.sk1.hdfs.round=true
a1.sinks.sk1.hdfs.roundUnit=minute
a1.sinks.sk1.hdfs.idleTimeout=0
a1.sinks.sk1.hdfs.retryInterval=180
a1.sinks.sk1.hdfs.rollTimerPoolSize=1
a1.sinks.sk1.hdfs.minBlockReplicas=1
a1.sinks.sk1.hdfs.useLocalTimeStamp=true
a1.sinks.sk1.hdfs.callTimeout=30000

我机器内存有100多G，我给flume-ng里JAVA_OPTS="-Xmx10000m"，我处理了4个700兆的文件，处理完成后每分钟也就400兆，感觉怎么改参数都提高不了，很是郁闷啊。

w9527 · 发表于 2015-3-16 10:43:52

zzuyao 发表于 2015-3-16 09:53
直接写shell 脚本调用hadoop fs -put 比较快

脚本是很快，这个flume如果解决不了我的问题，我就只能自己写shell了。呵呵

zzuyao · 发表于 2015-3-16 10:59:30

a1.sources.sr1.batchSize=100
这个值设大一点试试

w9527 · 发表于 2015-3-16 11:01:05

zzuyao 发表于 2015-3-16 10:59
a1.sources.sr1.batchSize=100
这个值设大一点试试

这个从100到1000000都试过了，没啥用啊

arsenduan · 发表于 2015-3-16 11:22:11

w9527 发表于 2015-3-16 11:01
这个从100到1000000都试过了，没啥用啊

你这是按照时间滚动的吧，把这个参数设置的小一点
a1.sinks.sk1.hdfs.rollInterval=60
参考：
Flume按文件的方式导入hdfs的问题

w9527 · 发表于 2015-3-16 12:33:04

arsenduan · 发表于 2015-3-16 12:37:25

w9527 发表于 2015-3-16 12:33
改成20或60都没啥区别，看来这个flume真不靠谱啊。

这个应该有所改变。可以在设置小点。

图文精华

请教flume处理文件的性能能达到多少？

已有(17)人评论

最佳新人

活跃会员

热心会员

推荐 /2