<aside> 💡

요약

AWS ( Easticache ) Redis OSS Cluster Mode 마스터-슬레이브 구조의 복제 환경에서 발생하는 지연 ( Lag ) 문제 분석

</aside>

Redis 복제 지연 분석

개요

Redis 네트워크 송수신 지표가 비정상적으로 튀는 현상이 발견
Redis 구성
- Cluster Mode 마스터-슬레이브 구조
- 샤드 : 1개 / 노드 : 3개 ( 1개의 마스터 노드 / 2개의 슬레이브 노드 ) 로 구성
  - AWS 콘솔에서 한글로 “마스터임” 이라고 표시되고 있음
- repl-backlog-size 기본값은 1MB

문제 분석

Redis 압축 작업을 통해서 평균적으로 70% 정도의 절감이 된 것을 볼 수 있지만, 일부 구간에 툭툭 튀는 상황이 목격이 된다.
왜 이런 상황이 발생하는지 알아보자.
- 메모리 사용량, CPU 사용량, 네트워크 송수신 정보를 차례대로 보면서 문제의 원인을 유추
- 지표 상으로 보면 마스터 ( 001 ) 는 잔잔하다.
- 슬레이브 ( 002, 003 ) 노드가 요동치고 있는데, 이런 상황을 만들어지게 된 계기가 무엇인지 생각해보면 마스터 데이터 동기화 과정에서 이슈가 있거나, 수 많은 요청이 슬레이브에 몰린다고 볼 수 있을거 같다.

원인

지표를 보면 2가지 정도의 상황이 의심이 된다.
1. 동기화 이슈
2. 슬레이브에 수 많은 요청이 몰리는 상황
슬레이브에 몰리는 상황이라 생각하고 내부적으로 시스템을 확인해본 결과는 System 에서는 Redis Cluster Endpoint 에 접근하여 Cluster 내에서 자체적으로 LB 처리를 진행
- 잘못된 Endpoint 나 많은 별도의 추가 작업에 의해서 접근이 늘어난 것은 아닌 것으로 보인다.
동기화 과정 이슈
- 주요 관찰 지표
  1. ReplicationLag: 슬레이브 노드가 마스터와 얼마나 지연되어 있는지 보여주는 AWS CloudWatch 지표.
    - 복제 지연은 0 과 가까울수록 좋은 지표이며, 순간적으로 일부 지연이 일어나는 것을 알 수 있다. 다만, 현재 수치로 볼때는 그렇게 까지 큰 영향을 미치는 수치 일까?
  2. 네트워크 송수신 지표: 일부 구간에서 복제 트래픽 증가 관찰.
    - 복제 지연이 생긴 17일 ~ 18일 사이의 네트워크 송수신 유독 튀고 있는 것
  3. Redis INFO replication 명령어 출력: INFO replication
    - repl-backlog-active, repl-backlog-size, state, master-repl-offest, second-repl-offset , repl-backlog-histlen
      - repl-backlog-active : 복제 백로그 활성 여부 ( 1 : 활성화 , 0 : 비활성화 )
      - repl-backlog-size : 복제 백로그 최대 크기 ( 바이트 단위 )
      - state : 마스터 또는 슬레이브 복제 상태 ( online : 동기화 완료 )
      - master-repl-offest : 마스터가 현재까지 처리한 데이터의 복제 오프셋 의미 슬레이브가 동기화 상태를 판단할 때 기준점으로 사용
      - second-repl-offset : 특정 슬레이브 노드가 복제된 데이터 스트림에서 처리한 마지막 오프셋을 나타냅니다. 단, 복제 과정에서 문제가 생긴 경우에 추적용으로 정상 처리 건에서는 활용 되지 않음
      - repl-backlog-histlen : 현재 복제 백로그에서 실제로 사용되고 있는 데이터의 크기(바이트 단위)
    - repl-backlog-size 부족:
      - 현재 설정된 백로그 크기(1MB)가 동기화 데이터를 충분히 저장하지 못하여 슬레이브 노드가 풀 동기화를 요청.
      - repl-backlog-histlen > repl-backlog-size 약소하지만 크다
      - 이는 Redis 동기화 과정에서 부분 동기화를 통해서 가져오지 못하는 데이터가 있을 수 있고 그런 경우 풀 동기화가 일어나 더 많은 읽기/쓰기 즉, 네트워크 송수신이 늘어난다.
주어진 상황과 지표로 보았을 때, 현재 이슈는 동기화 과정에 의해서 발생하는 이슈로 보인다.
슬레이브 노드가 풀 동기화 또는 부분 동기화 요청 하면서 클라이언트 요청 이외 복제에 필요한 In/Out 으로 네트워크 사용량이 급증한 것으로 보인다.