用户组:游客
使用道具 举报
liuzhixin137 发表于 2016-8-25 10:36 还有一个问题,spark sql 会产生大量的小文件,应该如何去避免这种情况, 如果用hive的话,hive可以自动 ...
当启用了预写日志以后,所有收到的数据同时还保存到了容错文件系统的日志文件中。因此即使Spark Streaming失败,这些接收到的数据也不会丢失。另外,接收数据的正确性只在数据被预写到日志以后接收器才会确认,已经缓存但还没有保存的数据可以在driver重新启动之后由数据源再发送一次。这两个机制确保了零数据丢失,即所有的数据或者从日志中恢复,或者由数据源重发。
本版积分规则 发表回复 回帖后跳转到最后一页
积极上进,爱好学习
经常帮助其他会员答疑
经常参与各类话题的讨论,发帖内容较有主见
中级会员
20
主题
148
帖子
15
粉丝
查看 »