nettman 发表于 2021-7-5 22:54:27

flink实时写hive 产生的小文件一般怎么处理啊?

可以试试这几个方法:
1.性能满足的情况下,尽量设置'sink.shuffle-by-partition.enable'=true

2.如果设置了'sink.shuffle-by-partition.enable'=false,建议使用Flink 1.12版本的自动合并小文件功能。

3.设置合理的checkpoint周期,业务允许的情况下,可以加大checkpoint周期,减少生成文件的数量。

4.可以最大限度降低Flink产生小文件的情况,但是无法完全避免,根据实际情况定期合并小文件。

若无梦何远方 发表于 2021-7-6 15:57:11

有更细点的资料吗 官网的链接直接 copy 过来也行 (锦上添花)
页: [1]
查看完整版本: flink实时写hive 产生的小文件一般怎么处理啊?