避坑:Spark Sql的Order By排序是不稳定的

查看数: 5277 | 评论数: 1 | 收藏 0
关灯 | 提示:支持键盘翻页<-左 右->
    组图打开中,请稍候......
发布时间: 2021-11-5 17:27

正文摘要:

问题导读: 1、为什么同一批数据执行相同sql返回值不相同? 2、怎样构建一个测试用例? 3、怎样使同一批数据执行相同sql返回值相同? 问题背景 生产环境数据产品项目出现相同代码多次执行结果不同的 ...

回复

若无梦何远方 发表于 2021-11-8 10:32:44
坚持每日一读,总结下:hive 多分区下 spark partition 读数据的时候不需要遵循有序性,所以会出现这次跟上次读的顺序不一致,结果自然就不一致了;留个疑问:多分区下保持数据一致的场景以及对应的实现可以解答下吗? (他这里说 key+messageId 这里的 messageid 怎么理解)
关闭

推荐上一条 /2 下一条