666666 |
hive 不是不支持in和not in查询吗? |
非常棒,只是讨论的有点不明白,为什么flume -> kafka -> flume -> hdfs,kafka为什么还要到flume呢?kafka之后一般是mr或者spark处理数据啊? |
感谢分享,非常棒 |
醉半城 发表于 2017-3-10 10:55 对的。 |
feilong 发表于 2017-3-10 10:36 嗯,那就是离线:flume -> kafka -> flume -> hdfs 实时:flume -> kafka -> storm/spark streaming ? |
醉半城 发表于 2017-3-10 10:09 你给的方案可能会出现 离线和实时数据不一致的情况,尤其是 某一侧流程突然down掉的时候。flume打入到kafka,再在kafka后接离线和实时,就不会出现那种问题。改动的话,flume侧就是改下sink的配置,实时部分属于新增,谈不上对原先流程的影响,离线部分是比原先多了2步,保证这2步没问题就可以了。 flume打入到kafka照样可以用spooldir的形式,另flume也可以从kafka导出数据到hdfs。 |
feilong 发表于 2017-3-10 09:51 谢谢,一般情况是,原始应用的访问日志是写文件的形式,每天一个文件夹。如果改为打入kafka,系统改变会比较大。 如果使用flume的exec source去收集日志,离线:flume -> hdfs ,实时:flume -> kafka -> storm/spark streaming 这种方案怎样?比较担心flume exec source的性能和丢数据情况。 |
感谢分享 |