pig2 发表于 2018-8-9 17:00:27

kafka-spark-consumer源码 下载

描述

用于Spark Streaming的高性能Kafka消费者。 兼容所有Spark和Kafka版本,包括最新的Spark 2.2.0和Kafka 0.11.0。 现在支持Kafka Security。 Zookeeper中的偏移管理。 可靠的No-Dataloss保证。 不依赖于HDFS或Checkpointing和WAL。 内置PID速率控制器

内容
注意:此Kafka Spark Consumer代码取自Apache Storm项目的Kafka spout(https://github.com/apache/storm/tree/master/external/storm-kafka),该项目最初由wurstmeister创建(https: //github.com/wurstmeister/storm-kafka-0.8-plus)。 Original Storm Kafka Spout Code已经过修改,可与Spark Streaming配合使用。

该实用程序将有助于使用Spark Streaming从Kafka中提取消息,并更好地处理Kafka偏移并处理故障。

此Consumer已实现Custom Reliable Receiver,它使用Kafka Consumer API从Kafka获取消息并将每个接收到的块存储在Spark BlockManager中。逻辑将自动检测主题的分区数量,并根据配置的接收器数量生成多个Kafka Receiver。每个Receiver都可以从一个或多个Kafka分区中获取消息。
例如如果Kafka有100个主题分区,而Spark Consumer配置有20个Receiver,则每个Receiver将处理5个分区。

一旦Spark Streaming批处理完成,该消费者可以提交已处理批次的偏移量。

在Spark驱动程序代码中,通过调用ReceiverLauncher.launch启动Receivers

有关如何使用此低级别使用者的信息,请参阅Java或Scala代码示例




代码下载:


地址:
https://github.com/dibbhatt/kafka-spark-consumer



jiangzi 发表于 2018-8-10 10:59:39

Spark Streaming的高性能Kafka消费者~
页: [1]
查看完整版本: kafka-spark-consumer源码 下载