操作类型 | 函数名 | 作用 |
转化操作 | map() | 参数是函数,函数应用于RDD每一个元素,返回值是新的RDD |
flatMap() | 参数是函数,函数应用于RDD每一个元素,将元素数据进行拆分,变成迭代器,返回值是新的RDD |
filter() | 参数是函数,函数会过滤掉不符合条件的元素,返回值是新的RDD |
distinct() | 没有参数,将RDD里的元素进行去重操作 |
union() | 参数是RDD,生成包含两个RDD所有元素的新RDD |
intersection() | 参数是RDD,求出两个RDD的共同元素 |
subtract() | 参数是RDD,将原RDD里和参数RDD里相同的元素去掉 |
cartesian() | 参数是RDD,求两个RDD的笛卡儿积 |
行动操作 | collect() | 返回RDD所有元素 |
count() | RDD里元素个数 |
countByValue() | 各元素在RDD中出现次数 |
reduce() | 并行整合所有RDD数据,例如求和操作 |
fold(0)(func) | 和reduce功能一样,不过fold带有初始值 |
aggregate(0)(seqOp,combop) | 和reduce功能一样,但是返回的RDD数据类型和原RDD不一样 |
foreach(func) | 对RDD每个元素都是使用特定函数
|