About云-梭伦科技»专题 › 技术学习(版主发帖区) › 大数据学习 › Spark › 避坑:Spark Sql的Order By排序是不稳定的

避坑:Spark Sql的Order By排序是不稳定的

查看数: 5277 | 评论数: 1 | 收藏 0

关灯 | 提示：支持键盘翻页<-左右->

帖子模式

fc013

发布时间: 2021-11-5 17:27

正文摘要:

问题导读： 1、为什么同一批数据执行相同sql返回值不相同？ 2、怎样构建一个测试用例？ 3、怎样使同一批数据执行相同sql返回值相同？问题背景生产环境数据产品项目出现相同代码多次执行结果不同的 ...

若无梦何远方 发表于 2021-11-8 10:32:44

坚持每日一读，总结下：hive 多分区下 spark partition 读数据的时候不需要遵循有序性，所以会出现这次跟上次读的顺序不一致，结果自然就不一致了；留个疑问：多分区下保持数据一致的场景以及对应的实现可以解答下吗？（他这里说 key+messageId 这里的 messageid 怎么理解）

图文精华

避坑:Spark Sql的Order By排序是不稳定的

正文摘要:

回复

推荐 /2