spark 字符map&&reduce处理问题-Spark-About云-梭伦科技

chyeers 发表于 2015-10-14 21:12:41

spark 字符map&&reduce处理问题

本帖最后由 chyeers 于 2015-10-14 21:14 编辑

数据集
a,c,f,t,b
a,b,e,g,k
a,b,c,d,e
b,a,c,d,f

现想使用 spark 将这个数据集按 key=第一位+第二位 value=第一位+第二位+第三位+第四位+第五位进行 group by ,并生成文件
如上数据集生成结果集：
a_b.txt :
a,b,e,g,k
a,b,c,d,e

b_a.txt :
b,a,c,d,f

求助 spark 大神，望指教！

Alkaloid0515 发表于 2015-10-14 21:39:07

感觉有点奇怪，生成的数据集为何是这样的

a_b.txt :
a,b,e,g,k
a,b,c,d,e

b_a.txt :
b,a,c,d,f
即使按照楼主的key,value也应该不会这样生成吧

傻子_D1DW2 发表于 2015-10-14 21:56:50

第一位和第二位为key的，a,b为key;b,a为key

chyeers 发表于 2015-10-15 14:50:10

Alkaloid0515 发表于 2015-10-14 21:39
感觉有点奇怪，生成的数据集为何是这样的

a_b.txt :

第一位和第二位为key的，a,b为key;b,a为key

页: [1]

About云-梭伦科技's Archiver

spark 字符map&&reduce处理问题