本帖最后由 chyeers 于 2015-10-14 21:14 编辑
数据集
[mw_shl_code=shell,true]a,c,f,t,b
a,b,e,g,k
a,b,c,d,e
b,a,c,d,f[/mw_shl_code]
现想使用 spark 将这个数据集按 key=第一位+第二位 value=第一位+第二位+第三位+第四位+第五位 进行 group by ,并生成文件
如上数据集生成结果集:
[mw_shl_code=scala,true]a_b.txt :
a,b,e,g,k
a,b,c,d,e
b_a.txt :
b,a,c,d,f[/mw_shl_code]
求助 spark 大神,望指教!
|