搜索
搜 索
本版
文章
帖子
用户
图文精华
hadoop-2.6.0+zookeeper-3.4.6+hbase-1.0.0+hive-1.1.0完全分布 ...
首页
Portal
专题
BBS
面试
更多
登录
注册
用户组:游客
主题
帖子
云币
我的帖子
我的收藏
我的好友
我的勋章
设置
退出
导读
博客
群组
今日排行
本周排行
本周热帖
本月排行
本月热帖
会员排行
About云
»
专题
›
技术学习(版主发帖区)
›
大数据学习
›
Nosql
›
Redis集群管理工具(Redis-sentinel)
0
0
0
分享
Redis集群管理工具(Redis-sentinel)
sstutu
发表于 2014-1-15 16:33:58
[显示全部楼层]
阅读模式
关闭右栏
0
6673
Redis作为高性能的key-value存储,一直在单实例上表现良好,但是长期以来一直缺乏一种官方的高可用方案支持。于是Redis-sentinel应运而生,提供了对客户端透明的高可用支持。下面对Redis-sentinel的原理进行了系统的讲解。
Redis-sentinel是Redis实例的监控管理、通知和实例失效备援服务,是Redis集群的管理工具。在一般的分布式中心节点数据库中,Redis-sentinel的作用是中心节点的工作,监控各个其他节点的工作情况并且进行故障恢复,来提高集群的高可用性。
Redis-sentinel是Redis的作者antirez在今年6月份完成的,因为Redis实例在各个大公司的应用,每个公司都需要一个Redis集群的管理工具,被迫都自己写管理工具来管理Redis集群,antirez考虑到社区的急迫需要(详情),花了几个星期写出了Redis-sentinel。
Redis-sentinel的三大功能: * 监测 * 通知 * 自动故障恢复 首先Redis-sentinel要建立一个监控的master列表,然后针对master列表的每个master获取监控其的sentinels和slaves供以后故障恢复使用。
自动发现sentinel和slave
一个sentinel实例的监控master在配置文件中指定,如sentinel A在配置文件中指定管理的master ip:port列表,并且指定连接失败超时的时间和是否可以故障恢复等参数。这样,sentinel A就建立了监控的master列表。
sentinel A作为客户端建立对其监控master 1的pub/sub连接和命令传输连接,pub/sub连接的目的是通过消息传递来获取监控master 1的所有sentinels,具体方式是订阅”sentinel:hello”频道,并这个频道publish 自己的host信息,这样,所有监控master 1的sentinels都通过订阅master 1的“sentinel:hello”频道来获取其他sentinels的信息。sentinel A就建立了master 1的sentinels列表。 sentinel A还通过间断的info命令获取master 1的slaves列表,如果连接超时或者失败,就会进入故障处理的例程。
故障恢复准备
Redis-sentinel定义了故障的master两种状态,O_DOWN(objectively)和S_DOWN(subobjectively)。当sentinel A连接master 1失败后,sentinel A认定master 1为subobjectively状态,然后sentinel A查看监控master 1的sentinels的认定情况。因为sentinel之间会建立连接并且不断的发起info命令询问和回应,因此在sentinel A认定master 1 S_DOWN后,sentinel A通过SENTINEL IS-MASTER-DOWN-BY-ADDR命令来不断获得其他sentinel的认定情况,如果有超过quorum(配置中指定)个sentinel认定master 1已经DOWN,那么就确定master 1为O_DOWN。然后sentinel A必须有master 1的can failover权限,这也是配置文件指定的。接着,sentinel A需要得知master 1的leader sentinel,由leader来进行master 1的错误恢复。
master 1的leader sentinel由选举产生,每个监控master 1的,并且具有错误恢复权限的sentinel都需要进行一次叫做subjective leader判断,也就是sentinel自己认定的leader,然后sentinel之间通过SENTINEL IS-MASTER-DOWN-BY-ADDR命令交流leader的认定情况,然后最终得到一个共识。
然后由这个master 1的leader sentinel来启动错误恢复例程。
故障处理
sentinel A作为master 1的leader,会选取一个master 1的slave作为新的master。slave的选取是根据一个判断DNS情况的优先级来得到,优先级相同通过runid的排序得到,但目前优先级设定还没实现,所以直接获取runid排序得到slave 1。
然后发送命令slaveof no one来取消slave 1的slave状态来转换为master。当其他sentinel观察到该slave成为master后,就知道错误处理例程启动了。sentinel A然后发送给其他slave slaveof new-slave-ip-port 命令,当所有slave都配置完后,sentinel A从监测的masters列表中删除故障master,然后通知其他sentinels。
总结
Redis-sentinel作为一个集群管理工具,基本满足了要求。但是Redis集群的需求却仍然存在。Redis集群作为分区结果,分区的配置仍然需要客户端或者代理协议实现,Redis集群作为一个整体还需要更长的路。Redis-cluster的草案早于出炉,但是实现却已经停留了很久。antriez承诺在Redis 3.0推出Redis-cluster功能。
欢迎加入about云群
425860289
、
432264021
,云计算爱好者群,关注
about云腾讯认证空间
回复
使用道具
举报
提升卡
置顶卡
沉默卡
喧嚣卡
变色卡
千斤顶
显身卡
没找到任何评论,期待你打破沉寂
高级模式
B
Color
Image
Link
Quote
Code
Smilies
您需要登录后才可以回帖
登录
|
立即注册
本版积分规则
发表回复
回帖后跳转到最后一页
发表新帖
sstutu
实习版主
关注
402
主题
948
帖子
143
粉丝
TA的主题
Flink使用场景-生产环境【适合架构师、面试者】
2018-10-24
阿里巴巴为什么选择Apache Flink?
2018-10-24
美团点评基于 Flink 的实时数仓建设实践
2018-10-24
Flink在美团的实践与应用
2018-10-24
小米面试题
2018-10-23
24小时热文
哈佛通识教育红皮书 (北大高等教育文库·大
代码精进之路:从码农到工匠
为什么面试难!一文帮我们看透本质,拿捏of
程序员薪资排名,AI位居榜首,平均年薪277
Django实战:Python Web典型模块与项目开发
关闭
推荐
/2
中文版ChatGPT
1.无需魔法 2.提高编程效率 3.提高文档能力
查看 »
新手帮助
新手帮助:注册遇到问题,领取资源,加入铁粉群,不会使用搜索,如何获取积分等
查看 »
意见
反馈