2011-01-20 14 views
8

Estamos tratando de usar el caché distribuido de AppFabric. Después de muchos viajes de ida y vuelta con servidores que no son de dominio, finalmente los pusimos en un dominio y la instalación/configuración fue un poco más fácil. Lo pusimos en marcha después de luchar contra una tonelada de errores, la mayoría de los cuales parece trivial para incluir alguna prueba o mensaje de error más descriptivo en AppFabric. "Error temporal" no explica mucho ...AppFabric Cache parece inestable

Pero todavía hay problemas.

Configuramos 3 servidores, uno de los cuales es "lead". Finalmente obtuvimos el caché funcionando y lo confirmamos al señalar Network Load Balancer en un servidor a la vez, confirmando que podemos establecer el caché en un servidor y recuperarlo en otro.

Luego reinicié el servicio de caché de AppFabric en todos los servidores y de repente no está funcionando. Get-CacheHost dice que son, pero conseguimos excepciones como:

ErrorCode<ERRCA0018>:SubStatus<ES0001>:The request timed out 
ErrorCode<ERRCA0017>:SubStatus<ES0001>:There is a temporary failure. Please retry later. 

qué ocurriría esta condición de error simplemente reiniciando los servicios?
¿Realmente AppFabric Cache está listo para producción?
¿Qué sucede si un servidor se desconecta? Largos tiempos de espera?
¿Dependemos de que el servidor "principal" esté activo?

Sospecho que volverá a estar activo después de 5-10 minutos de R & R. Parece que vuelve por sí solo a veces.

Actualización: Sucedió después de unos minutos. Ahora hemos probado eliminando un servidor del clúster y ha resultado en un tiempo de espera largo y finalmente una excepción.

+0

¿POR QUÉ toma tanto tiempo para volver a subir? en un solo servidor. cualquiera que sea la razón técnica es seguro que me hace escéptico acerca de confiar en toda la plataforma –

Respuesta

7

Hemos estado depurando esto por un tiempo y estoy compartiendo lo que hemos encontrado hasta ahora.

  • UAC en Windows 2008 en realidad bloquea el acceso a la computadora local, por lo que los comandos hacia la computadora local fallarán. Inicie PowerShell como administrador o apague UAC por completo para eludir.
  • Simplemente cambiando el archivo de configuración manualmente no funcionará. Necesita usar comandos de exportación e importación.
  • Los firewalls son un problema importante ya que el instalador abre el rango de puertos 222 *, pero las herramientas de PowerShell usan otros servicios de Windows. Apagar el firewall en todos los servidores (no recomendado) resolvió el problema.
  • Si se elimina un servidor del clúster, habrá un tiempo de espera inicial antes de que el clúster pueda volver a funcionar.
  • Después del reinicio, el clúster usa de 2 a 5 minutos para volver a la copia de seguridad.
  • Si se reinicia y no se puede acceder a un servidor, se aumenta el tiempo de inicio.
  • Si no se puede acceder al servidor que tiene el recurso compartido compartido de archivos para la configuración, los servicios no se iniciarán. Tratamos de resolver esto dando a cada servidor una participación privada.
+0

Si entiendo correctamente, el uso de un proveedor de configuración SQL haría que la administración del clúster fuera realizada por el Servidor SQL y no por un "host principal", por lo que podría reducir la cantidad de problemas que enfrenta? [http://msdn.microsoft.com/en-us/library/ee790934.aspx # sectionSection1]. IIRC, esto debería permitirle contactar cualquier host de caché para acceder al clúster de caché. – jamiebarrow

+0

¿Alguna vez has llegado a alguna conclusión sobre esto? Estoy enfrentando los mismos problemas. – Pedro

+0

@Tedd Hansen ¿fue capaz de hacer que esto funcione? "Si no se puede acceder al servidor que tiene el recurso compartido compartido de archivos para la configuración, los servicios no se iniciarán. Intentamos resolver esto dando a cada servidor una participación privada". El procedimiento estándar es tener un recurso compartido de archivos común. ¿Tuviste que usar algunas formas de "piratería"? Por favor comparta su experiencia –

Cuestiones relacionadas