那就是配置入手。比如内存等。使用yarn-client还是yarn-cluster。这里面也有区别
刚刚又打了一个jar put的形式的,一条一条插入,同一个工程下 就没问题。可能配置也不会有问题吧?
remarkzhao 发表于 2018-3-14 15:44
问题就不明白了。。。为什么配置不对会出现业务逻辑上的错误。
这个问题确实挺困扰的。
无论是配置还是环境。
多测试,发现其中的规律。比如是否每次local都是可以的。是否每次yarn都是错误的。其中不排除楼主操作问题。因为这个问题,本身就很奇怪。同一份
代码,在不同的方式出问题。说明代码没有问题
但是不同方式下,又出现代码的问题。
Added a key not lexically larger than previous.
这就说明代码其实是有问题的。
所以从推理角度来说,这二者本身是矛盾的。
所以要从多角度,多测试,结论不能随便下。也从自己操作角度,看看是否那里有失误。
langke93 发表于 2018-3-14 16:13
这个问题确实挺困扰的。
无论是配置还是环境。
多测试,发现其中的规律。比如是否每次local都是可以的 ...
我能怎么办。我也很无奈,whatever 继续测试。
langke93 发表于 2018-3-14 16:13
这个问题确实挺困扰的。
无论是配置还是环境。
多测试,发现其中的规律。比如是否每次local都是可以的 ...
我突然想到一个问题,local没问题 是因为是在单台机子上。排序肯定是按个排序,只有一个文件。如果放在集群上执行,各个节点都在执行任务,那么每个节点都在排序,这样会不会导致rowkey排序出现问题。
remarkzhao 发表于 2018-3-14 16:35
我突然想到一个问题,local没问题 是因为是在单台机子上。排序肯定是按个排序,只有一个文件。如果放在集 ...
那就是了。代码中,要实现整体排序。
https://stackoverflow.com/questions/46325233/spark-issues-in-creating-hfiles-added-a-key-not-lexically-larger-than-previous
看这个能否帮到你 langke93 发表于 2018-3-14 16:44
那就是了。代码中,要实现整体排序。
collect后再排序
你好,问你一下,这问题最后是怎么解决?
页:
1
[2]