iot-lee 发表于 2019-7-26 13:47:08

sparkstreaming读取kafka支持event Time(日志业务时间)吗

sparkstreaming 读取kafka日志数据,窗口处理为1分钟,日志数据自带时间戳,想根据日志时间戳进行分钟级别的数据统计,这个怎么支持实现?structed streaming 支持event Time,但是怎么让sparkstreaming 实现这种统计呢?
比如日志数据如下:
日志数据为id+request_time
想要根据kafka日志数据里面的request_time进行统计,但是日志数据传到sparkstreaming后的process_time肯定大于日志数据里面的时间,sparkstreaming接收过来的1分钟的窗口数据里面的日志数据跨分钟级别了

s060403072 发表于 2019-7-27 22:17:56

没明白楼主什么意思,如果按照request_time,那就接受后,按照request_time排序或则作为key

iot-lee 发表于 2019-7-29 11:43:02

s060403072 发表于 2019-7-27 22:17
没明白楼主什么意思,如果按照request_time,那就接受后,按照request_time排序或则作为key

比如一条日志生成业务的时间是10:00:00,等传到kafka时间10:00:00,spark streaming接受到日志的处理时间为10:01:01,如果按照日志业务时间进行统计每分钟的条数的话,得以日志业务时间进行分组,而不是接收到的处理时间。
页: [1]
查看完整版本: sparkstreaming读取kafka支持event Time(日志业务时间)吗