El monitoreo de CloudWatch es como lo que ha descubierto. Podrá inferir que una de sus instancias está congelada al echarle un vistazo a las métricas, pero CloudWatch no lo hará, p. enviarle un correo electrónico cuando su aplicación esté inactiva o muy lenta, por ejemplo.
Si está buscando algún tipo de notificación cuando su aplicación o instancia no funciona, le sugiero que utilice un servicio de supervisión. Pingdom es una buena opción. También puede configurar una nueva instancia en AWS e instalar una herramienta de supervisión, como Nagios, que sería mi opción preferida.
Buenas prácticas que siempre valen la pena en el largo camino: usando el equilibrio de carga (Amazon ELB), más de una instancia ejecutando su aplicación, ajuste automático de escala (cuando una instancia no funciona, Amazon iniciará una nueva y mantendrá su SLA) y monitoreo personalizado.
Mi equipo ha utilizado una secuencia de comandos de supervisión personalizada durante mucho tiempo, y siempre supimos de fallas tan pronto como se produjeron. Básicamente, si teníamos dos nodos ejecutando nuestra aplicación, el nodo 1 enviaba solicitudes HTTP al nodo 2 y el nodo 2 a 1. Si alguna solicitud tomaba más de lo esperado o devolvía un estado de HTTP o cuerpo de respuesta inesperado, el script enviaba un correo electrónico al administradores del sistema. Hoy en día, confiamos en enfoques más robustos, como Nagios, que incluso puede monitorear cosas del sistema operativo (hilos, etc.), servidores de aplicaciones (salud de grupos de conexión, etc.), y así sucesivamente. Vale cada centavo invertido en configurarlo.
Gracias Steven, que no se dio cuenta que podría hacer que (incluso para los dominios que no están en la Ruta 53). 50c por chequeo de salud por mes, que es mucho más económico que pingdom y ejecutando su propia instancia de EC2 si solo es uno o dos. – spidie