flume应该思考的问题

查看数: 17620 | 评论数: 12 | 收藏 6
关灯 | 提示:支持键盘翻页<-左 右->
    组图打开中,请稍候......
发布时间: 2017-7-3 16:01

正文摘要:

问题导读 1.flume的配置你是如何理解的? 2.flume与kafka整合,kafka可以做哪些组件? 3.flume与kafka的区别是什么? flume是比较常用的大数据技术,那么学习flume,我们还需要思考flume,这样理解才能在遇 ...

回复

coding_wht 发表于 2017-8-3 13:49:19
yuwenge 发表于 2017-8-3 12:29
flume监控日志目录,日志,目录作为source,然后配置channel和存储的地方sink即可实现。

谢谢哦  不过我的日志是时时写的 而且每天的日志 按时间切割了文件 能不能具体点哦  我是一台收集所有的其他的爬虫的日志

yuwenge 发表于 2017-8-3 12:34:59
hasqjh7 发表于 2017-8-3 10:07
感谢 楼主!
小弟最近 遇到了一个问题:
使用spooldir的source进行配置的,并使用avro sink 输出,最近老 ...

这个应该有时候flume的source目录为空导致的。如果有文件上传应该就不会有了。
yuwenge 发表于 2017-8-3 12:29:52
coding_wht 发表于 2017-8-3 11:35
博主 麻烦问下  我目前的需求是:多台机子爬虫去爬取数据 产生实时的日志 然后我要做的是日志的收集 然后做 ...

flume监控日志目录,日志,目录作为source,然后配置channel和存储的地方sink即可实现。
tntzbzc 发表于 2017-8-3 12:27:56
doudoupower 发表于 2017-7-18 21:41
请问楼主 flume 怎么处理 /log/app/10.0.0.1/test.log /log/app/10.0.0.2/test.log 这种一个应用多个子目录 ...

Flume的Spooling Directory Source支持Sub-directories
完整的代码已经更新到了github上

coding_wht 发表于 2017-8-3 11:35:13
博主 麻烦问下  我目前的需求是:多台机子爬虫去爬取数据 产生实时的日志 然后我要做的是日志的收集 然后做下各个机子爬虫的爬取情况等  这个怎们结合flume 来完成哦
hasqjh7 发表于 2017-8-3 10:07:14
感谢 楼主!
小弟最近 遇到了一个问题:
使用spooldir的source进行配置的,并使用avro sink 输出,最近老是报错,异常信息如下 :01 Aug 2017 10:36:00,957 ERROR [pool-5-thread-1] (org.apache.flume.source.SpoolDirectorySource$SpoolDirectoryRunnable.run:262)  - FATAL: Spool Directory source spoolDir: { spoolDir: /home/ads/flume-data }: Uncaught exception in SpoolDirectorySource thread. Restart or reconfigure Flume to continue processing.org.apache.avro.AvroRuntimeException: java.io.IOException: Block size invalid or too large for this implementation: -24
不知道 楼主,能否解答一下么?
doudoupower 发表于 2017-7-18 21:41:34
请问楼主 flume 怎么处理 /log/app/10.0.0.1/test.log /log/app/10.0.0.2/test.log 这种一个应用多个子目录的日志,怎么区分应用呢?
szcountryboy 发表于 2017-7-10 21:01:37
flume和elastic里面的各种beat有什么区别呢?
皆空 发表于 2017-7-10 20:15:19
楼主画模型的工具用的那个啊?求推荐个好用的
关闭

推荐上一条 /2 下一条