感谢你的建议,我想用java写的,实现了之后就考虑放到spark中跑
分几个阶段,先sparkSQL拿到聚合后的商品信息,再根据商品组合按商品ID排序,拿到每个订单中的组合
再对每个组合遍历拿到topN组合:
key出现的可能性很多,比如1,2,3,4,5可能会有以下几种组合: 12,13,14,15,23,24,25,34,35 123,124,125,134,135,145 1234,1345 12345 这些子组合可能在其他商品中出现
考虑了一下,这个还得写个小算法,把每个组合可能出现的子组合都拿出来
|