分享

kafka队列消息存储到hdfs?

师太跟我吧 发表于 2016-10-21 17:50:33 [显示全部楼层] 回帖奖励 阅读模式 关闭右栏 2 18002
想将队列消息定时地获取并存储到hdfs上,怎么设计及实现?
数据源已经固定了是kafka消息队列的方式,json格式。
其实就两点,
一是怎么把这个数据定时地获取(比如每个时间点获取一次上个小时内未消费完的数据);
二是怎么获取到kafka的消息队列并存储到HDFS;
(小弟初学,麻烦大神们不要给个链接了事,最好能细述一下)

已有(2)人评论

跳转到指定楼层
easthome001 发表于 2016-10-21 19:50:08
个人认为:
1.Kafka 不能通过时间来获取消息,它是按照消息写入顺序来读取的,所以如果消息往Kafka里面写的时候是按照时间来的,读取的时候就也是按照时间。
2.hdfs文件倒是可以追加,不过需要自己写代码实现

更多可参考这个


HadoopConsumer——消费kafka中若干topic的消息,追加存储至hdfs的不同文件内


回复

使用道具 举报

师太跟我吧 发表于 2016-10-24 10:46:41
easthome001 发表于 2016-10-21 19:50
个人认为:
1.Kafka 不能通过时间来获取消息,它是按照消息写入顺序来读取的,所以如果消息往Kafka里面写 ...

那如果我只有一个topic,一个partition,这个消费端消费的消息都输出到同一个文件中?这样不合理吧
回复

使用道具 举报

您需要登录后才可以回帖 登录 | 立即注册

本版积分规则

关闭

推荐上一条 /2 下一条