Transformation | |
| 对 DStream 中的各个元素进行 func 函数操作, 然后返回一个新的 DStream. |
| 与 map 方法类似, 只不过各个输入项可以被输出为零个或多个输出项 |
| 过滤出所有函数 func 返回值为 true 的 DStream 元素并返回一个新的 DStream |
repartition(numPartitions) | 增加或减少 DStream 中的分区数, 从而改变 DStream 的并行度 |
| 将源 DStream 和输入参数为 otherDStream 的元素合并,
并返回一个新的 DStream. |
| 通过对 DStreaim 中的各个 RDD 中的元素进行计数, 然后返回只有一个元素
的 RDD 构成的 DStream |
| 对源 DStream 中的各个 RDD 中的元素利用 func 进行聚合操作,
然后返回只有一个元素的 RDD 构成的新的 DStream. |
| 对于元素类型为 K 的 DStream, 返回一个元素为( K,Long) 键值对形式的
新的 DStream, Long 对应的值为源 DStream 中各个 RDD 的 key 出现的次数 |
reduceByKey(func,
[numTasks]) | 利用 func 函数对源 DStream 中的 key 进行聚合操作, 然后返回新的( K, V) 对
构成的 DStream |
join(otherStream,
[numTasks]) | 输入为( K,V)、 ( K,W) 类型的 DStream, 返回一个新的( K, ( V, W) 类型的
DStream |
cogroup(otherStream,
[numTasks]) | 输入为( K,V)、 ( K,W) 类型的 DStream, 返回一个新的 (K, Seq[V], Seq[W])
元组类型的 DStream |
| 通过 RDD-to-RDD 函数作用于源码 DStream 中的各个 RDD,可以是任意的 RDD 操作, 从而返回一个新的 RDD |
| 根据于 key 的前置状态和 key 的新值, 对 key 进行更新,
返回一个新状态的 DStream |
| |