redis-25.主从复制-常见问题

aliyeye 的个人博客 / 0 / 0 / 创建于 5年前 / 更新于 5年前

频繁的全量复制（1）

伴随着系统的运行，master的数据量会越来越大，一旦master重启，runid将发生变化，会导致全部slave的全量复制操作

内部优化调整方案：

master内部创建master_replid变量，使用runid相同的策略生产，长度41位，并发送给所有slave
在master关闭时执行命令shutdown save，惊喜RDB持久化，将runid与offset保存到RDB文件中
- repl-id repl-offset
- 通过redis-check-rdb命令可以查看该信息
master重启后加载RDB文件，恢复数据
重启后，将RDB文件中保存的repl-id与repl-offset加载到内存中
- master_repl_id = repl master_repl_offset = repl-offset
  通过info命令可以查看该信息

作用：本机保存上次runid，重启后恢复该值，使所有slave认为还是之前的master

频繁的全量复制（2）

问题现象
- 网络环境不佳，出现网络中断，slave不提供服务
问题原因
- 复制缓冲区过小，断网后slave的offset越界，触发全量复制
最终结果
- slave反复进行全量复制
解决方案
- 修改复制缓冲区大小
```
repl-backlog-size
```
建议设置如下：
1. 测算从master到slave的重连平均时长second
2. 获取master平均每秒产生写命令数据总量write_size_per_second
3. 最优复制缓冲区空间 = 2 * second * write_size_per_second

频繁的网络中断（1）

问题现象
- master的CPU占用过高或slave频率断开连接
问题原因
- slave每1秒发送REPLCONF ACK命令到master
- 当slave接到了慢查询时（keys *，hgetall等），会大量占用CPU性能
- master每1秒调用复制定时函数replicationCron()，比对slave发现长时间没有进行响应
最终结果
- master各种资源（输出缓冲区、宽带、连接等）被严重占用
解决方案
- 通过设置合理的超时时间，确认是否释放slave
```
repl-timeout
```
  该参数定义了超时时间的值（默认60秒），超过该值，释放slave

频繁的网络中断（2）

问题现象
- slave与master连接断开
问题原因
- master发送ping指令频度较低
- master设定超时时间较短
- ping指令在网络中存在丢包
解决方案
- 提高ping指令发送的频度
```
repl-ping-slave-period
```
  超时时间repl-time的时间至少是ping指令频度的5到10倍，否则slave很容易判定超时

数据不一致

问题现象
- 多个slave获取相同数据不同步
问题原因
- 网络信息不同步，数据发送有延迟
解决方案
- 优化主从间的网络环境，通常放置在同一个机房部署，如使用阿里云等云服务器时要注意此现象
- 监控主从节点延迟（通过offset）判断，如果slave延迟过大，暂时屏蔽程序对该slave的数据访问
```
slave-serve-stale-data yes|no
```
  开启后仅响应info、slaveof等少数命令（慎用，除非对数据一致性要求很高）

redis nosql

本作品采用《CC 协议》，转载必须注明作者和本文链接

66 声望

本人只是个菜鸟，希望和大家一起成长。

讨论数量: 0

(=￣ω￣=)··· 暂无内容！

讨论应以学习和精进为目的。请勿发布不友善或者负能量的内容，与人为善，比聪明更重要！

帮助

未填写

私信

文章归档

2 篇 2021 年 4 月 5 篇 2021 年 3 月 7 篇 2021 年 2 月 18 篇 2021 年 1 月 2 篇 2020 年 12 月

5年前 redis-26.哨兵模式 5年前 redis-25.主从复制-常见问题 5年前 redis-24.主从复制-实操 5年前 redis-23.主从复制-概念 5年前 redis-22.高级数据类型

3 elasticsearch学习笔记一：核心概念 2 Java中的三种代理模式 1 elasticsearch学习笔记二：相关软件安装 1 redis-11.数据类型实践案例 1 redis-6.string类型

博客标签

成为赞助商