Spark Streaming的还原药水——Checkpoint

查看数: 11944 | 评论数: 4 | 收藏 2
关灯 | 提示:支持键盘翻页<-左 右->
    组图打开中,请稍候......
发布时间: 2016-3-27 16:04

正文摘要:

问题导读: 1.什么时候需要启用 checkpoint?2.如何使用 checkpoint?3.在什么时机进行 checkpoint? 一个 Streaming Application 往往需要7*24不间断的跑,所以需要有抵御意外的能力(比如机器或者系统 ...

回复

atsky123 发表于 2016-3-29 21:16:57
UFO 发表于 2016-3-29 09:56
需要注意的是,随着 streaming application 的持续运行,checkpoint 数据占用的存储空间会不断变大。因此, ...

在哪,根据自己的情况
Alkaloid0515 发表于 2016-3-29 21:14:54
UFO 发表于 2016-3-29 09:56
需要注意的是,随着 streaming application 的持续运行,checkpoint 数据占用的存储空间会不断变大。因此, ...

这个参数应该是可以配置的
log_checkpoint_interval
设定两次checkpoint之间重做日志块(重做日志块和系统数据块是一样的)数,当重做日志块数量达到设定值的时候将触发checkpoint。

UFO 发表于 2016-3-29 09:56:57
本帖最后由 UFO 于 2016-3-29 09:58 编辑

需要注意的是,随着 streaming application 的持续运行,checkpoint 数据占用的存储空间会不断变大。因此,需要小心设置checkpoint 的时间间隔。设置得越小,checkpoint 次数会越多,占用空间会越大;如果设置越大,会导致恢复时丢失的数据和进度越多。一般推荐设置为 batch duration 的5~10倍。
-------------------------------------------------------------------------------------------------------------------
   checkpoint会check两种信息,一种是元数据,一种是需要stateful的数据,元数据只check一次还是每一次check stateful数据时都要check元数据,还有怎么设置checkpoint的时间间隔,在哪里checkpoint
比如我这里该在什么位置C:\Users\ISSUSER\Desktop\dfgg.png dfgg.png
hanasian 发表于 2016-3-28 10:55:32
内容却是不错哦!
关闭

推荐上一条 /2 下一条