2012-09-26 22 views
6

Estamos en el proceso de cerrar The Conversations Network (incluido el podcast IT Conversations). El plan es presentar una versión HTML estática de nuestros sitios web para alojamiento permanente en el Internet Archive.Cómo archivar un sitio web dinámico (PHP) como HTML estático?

Cuál es la forma más sencilla de generar HTML estática de los aproximadamente 5.000 páginas dinámicas actualmente generadas dinámicamente desde PHP?

Sé que podríamos modificar el código para almacenar en caché la salida de PHP, escribir en archivos, y luego caminar los mapas de sitio para generar cada página. Pero me pregunto si hay alguna opción que deberíamos considerar. ¿Alguna herramienta para hacer esto y raspar el HTML tal como está? (Algo que no sea Acrobat Pro?)

Por desgracia, también tiene un buen número de llamadas Ajax, que se va a hacer esto más difícil. Imagino que primero tendremos que deshacerlos de Ajax.

+0

Tal vez la gente de [Internet Archive] (http://archive.org) tenga buenas ideas. – Barmar

+0

Si las llamadas Ajax son llamadas POST, estás jodido. Hay un beneficio en el diseño de sitios web para que funcionen estáticamente, especialmente para archivar. P.ej. si tienes un sitio web con contenido valioso Pero es una decisión de diseño, si lo necesita más adelante, hay algo de trabajo por hacer. – hakre

Respuesta

2

Existe una gran pieza de software llamada "Teleport Pro" (payware desafortunadamente), y puede crear copias navegables/duplicadas de un sitio web. Que, una vez cargado en un servidor, debería funcionar exactamente igual que el sitio original.

Cosas a tener en cuenta, sin embargo, cuando su creación html estática de páginas dinámicas son;

  • Sus llamadas ajax actuales necesitan ser-un ajaxed (como usted mismo ha dicho)
  • configuración .htaccess, mod_rewrite, por ejemplo, puede hacer que sus archivos estáticos sin valor. Porque los enlaces pueden no funcionar.

Pero "Teleport pro" es un programa realmente sólido que existe desde hace bastante tiempo. Lo he usado en el pasado y probablemente lo use de nuevo.


Otro enfoque podría ser el módulo php "php-apc" que crea una memoria caché. En este caso, deberá rastrear todo el sitio antes de que se cree un caché completo. No estoy MUY familiarizado con él, pero una instalación se realiza fácilmente, y se puede ver si los archivos generados son de alguna utilidad.

+2

cachés de la AP no representan páginas pero el código php por lo tanto esto no funcionaría – karka91

4

Puede que no sea lo que está buscando; pero HTTrack buscará enlaces en su sitio web y guardará la versión HTML de este. Este espejo incluirá todo el contenido estático que está vinculado, como imágenes, css y javascript.

El único problema que ocurre es si su AJAX-script está tirando de los datos vitales de un servidor que, aunque quizás HTTrack tiene una configuración para eso.

+1

Httrack tiene muchas opciones para ofrecer, sin embargo, para las llamadas AJAX está lejos de ser sencillo. – hakre

Cuestiones relacionadas