Recientemente estoy considerando utilizar la implementación de Amazon RDS Multi-AZ para un servicio en entorno de producción, y he leído los documentos relacionados.¿Cómo se realiza la implementación Multi-AZ de Amazon RDS?
Sin embargo, tengo una pregunta acerca de la conmutación por error. En las preguntas frecuentes de Amazon RDS, la conmutación por error se describe de la siguiente manera:
P: ¿Qué ocurre durante la migración tras error Multi-AZ y cuánto tiempo lleva?
La conmutación por error se maneja automáticamente por Amazon RDS para que pueda reanudar las operaciones de la base de datos lo más rápido posible sin intervención administrativa . Al fallar, Amazon RDS simplemente voltea el canonico registro de nombres (CNAME) para que su instancia de base de datos apunte al modo de espera, , que a su vez se promueve para convertirse en el nuevo primario. Recomendamos que siga las mejores prácticas e implemente la reintento de la conexión a la base de datos en la capa de aplicación. Los tiempos de conmutación por error son una función del tiempo que toma para completar la recuperación de fallos. De inicio a fin, la conmutación por error normalmente finaliza en tres minutos.
A partir de la descripción anterior, supongo que debe haber un servicio de supervisión que podría detectar el fallo de la instancia principal y hacer el volteo.
Mi pregunta es, ¿en qué parte de AZ se aloja este servicio de supervisión? Hay 3 posibilidades: 1. El mismo AZ como el principal 2. Igual AZ como el modo de espera 3. Otra AZ
Aparentemente 1 & 2 no será el caso, ya que no podía manejar la situación que toda AZ no está disponible. Entonces, si 3 es el caso, ¿qué sucede si la A a la Z del servicio de monitoreo se cae? ¿Hay otro servicio para monitorear este servicio de monitoreo? Parece ser un dominó sin fin.
Entonces, ¿cómo garantiza Amazon la disponibilidad de RDS en el despliegue Multi-AZ?
Si la comunicación entre dos AZ se rompe, ¿qué pasará? – ciphor
@ciphor el enlace de comunicaciones no solo es probable, pero ciertamente redundante, como todo lo demás en el medio. Sus preguntas son el punto de confiabilidad y disponibilidad de un sistema. Todo se trata de aplicar redundancia y reducir riesgos. Sin embargo, nunca es perfecto. – Viccari
También tengo una consulta sobre cómo, si mi instancia primaria de RDS está en la región de N.Virginia, ¿cómo puedo encontrar dónde reside la instancia de DB secundaria? – user3086014