Distributed Systems
MinIO의 힐링(Healing) 메커니즘
MinIO 힐링 메커니즘의 감지, 판정, 복구 흐름을 운영 관점에서 정리합니다.
MinIO의 힐링(Healing) 메커니즘
힐링은 장애 이후 데이터 일관성을 되돌리는 자동 복구 파이프라인입니다.
힐링 흐름
- 스캐너가 객체/메타데이터 이상 감지
- 복구 가능성(쿼럼/무결성) 판정
- 손상 조각 재구성
- 정상 디스크에 재배치
실무에서 중요한 점
- 힐링은 공짜가 아닙니다. I/O와 네트워크를 크게 사용합니다.
- 따라서 사용자 트래픽과 복구 작업의 우선순위 제어가 필요합니다.
- 반복 힐링 객체는 근본 원인(디스크/네트워크/펌웨어)을 따로 추적해야 합니다.
운영 체크리스트
- 힐링 큐 길이와 처리율 모니터링
- 디스크 교체 후 힐링 완료 시점 확인
- 힐링 실패 객체를 별도 리포트로 관리
- 정기적인 복구 드릴 수행
결론
힐링은 마지막 안전망입니다. 잘 동작하는지 확인하는 것만큼, 왜 힐링이 자주 발생하는지 줄이는 운영이 더 중요합니다.