2008-09-22 13 views
7

Necesito encontrar una manera de rastrear una de las aplicaciones web de nuestra empresa y crear un sitio estático que pueda grabarse en un CD y ser utilizado por los vendedores para mostrar el sitio web. El almacén de datos de back-end está distribuido en muchos sistemas, por lo que simplemente ejecutar el sitio en una VM en la computadora portátil de la persona que vende no funcionará. Y no tendrán acceso a Internet mientras estén en algunos clientes (no internet, teléfono celular ... primitivo, lo sé).¿Cómo conviertes un sitio dinámico en un sitio estático que se puede mostrar desde un CD?

¿Alguien tiene alguna buena recomendación para rastreadores que pueden manejar cosas como limpieza de enlaces, flash, un poco de ajax, css, etc.? Sé que las probabilidades son escasas, pero pensé que plantearía la pregunta aquí antes de comenzar a escribir mi propia herramienta.

+0

Esto solo tiene que funcionar desde el punto de vista de un usuario específico. Por lo tanto, el rastreador debería autenticarse como un usuario predeterminado y luego capturar todo como lo vería este usuario. –

Respuesta

3

wget o curl pueden seguir recursivamente los enlaces y reflejar un sitio completo, por lo que podría ser una buena apuesta. No podrá usar partes verdaderamente interactivas del sitio, como los motores de búsqueda, o cualquier cosa que modifique los datos, por así decirlo.

¿Es posible crear servicios ficticios back-end que se puedan ejecutar desde las computadoras portátiles de las personas de ventas, con los que la aplicación puede interactuar?

12

Al usar un WebCrawler, p. Ej. uno de estos:

  • DataparkSearch es un rastreador y motor de búsqueda publicado bajo la Licencia Pública General de GNU.
  • GNU Wget es un rastreador operado por línea de comandos escrito en C y publicado bajo la GPL. Normalmente se usa para duplicar sitios web y FTP.
  • HTTrack usa un rastreador web para crear un espejo de un sitio web para verlo fuera de línea. Está escrito en C y publicado bajo la GPL.
  • ICDL Crawler es un rastreador web multiplataforma escrito en C++ que tiene la intención de rastrear sitios web basados ​​en plantillas de sitio web parse utilizando solo recursos de CPU libres de la computadora.
  • JSpider es un motor de araña web altamente configurable y personalizable publicado bajo licencia GPL.
  • Larbin por Sebastien Ailleret
  • Webtools4larbin por Andreas Beder
  • Methabot es un rastreador web y la línea de comando de la utilidad velocidad optimizada escrito en C y liberado bajo una licencia BSD 2-cláusula. Cuenta con un amplio sistema de configuración, un sistema de módulos y tiene soporte para el rastreo dirigido a través del sistema de archivos local, HTTP o FTP.
  • Jaeksoft WebSearch es un rastreador web e indexador construido sobre Apache Lucene. Se lanzó bajo la licencia GPL v3.
  • Nutch es un rastreador escrito en Java y publicado bajo una licencia de Apache. Se puede usar junto con el paquete de indexación de texto Lucene.
  • Pavuk es una herramienta de espejo web de línea de comandos con rastreador X11 GUI opcional y publicado bajo licencia GPL. Tiene un montón de funciones avanzadas en comparación con wget y httrack, por ejemplo. Filtrado basado en expresiones regulares y reglas de creación de archivos.
  • WebVac es un rastreador utilizado por el proyecto Stanford WebBase.
  • WebSPHINX (Miller y Bharat, 1998) está compuesto por una biblioteca de clases Java que implementa la recuperación de páginas web y el análisis HTML, y una interfaz gráfica de usuario para establecer las URL de inicio, extraer los datos descargados e implementar un motor de búsqueda basado en texto básico.
  • WIRE - Web Information Retrieval Environment [15] es un rastreador web escrito en C++ y publicado bajo la GPL, que incluye varias políticas para programar las descargas de página y un módulo para generar informes y estadísticas en las páginas descargadas por lo que se ha utilizado para la caracterización web
  • LWP :: RobotUA (Langheinrich, 2004) es una clase Perl para la implementación de robots web paralelos de buen comportamiento distribuidos bajo la licencia de Perl 5.
  • Web Crawler Clase de rastreador web de fuente abierta para .NET (escrito en C#).
  • Sherlock Holmes Sherlock Holmes reúne e indexa datos de texto (archivos de texto, páginas web, ...), tanto localmente como a través de la red. Holmes es patrocinado y utilizado comercialmente por el portal web checo Centrum. También es utilizado por Onet.pl.
  • YaCy, un motor de búsqueda distribuido gratuito, basado en los principios de las redes entre pares (bajo licencia GPL).
  • Ruya Ruya es un rastreador web de nivel abierto basado en niveles, de alto rendimiento y de código abierto. Se usa para rastrear sitios web en inglés y japonés de forma correcta. Se publica bajo la GPL y está escrito completamente en el lenguaje Python. Una implementación de SingleDomainDelayCrawler obedece a robots.txt con un retraso de rastreo.
  • Universal Information Crawler Rastreador web de rápido desarrollo. Rastreos Guarda y analiza los datos.
  • Kernel del agente Un marco de Java para el cronograma, el hilo y la administración del almacenamiento al rastrear.
  • Spider News, Información sobre la construcción de una araña en perl.
  • Arachnode.NET, es un rastreador web promiscuo de código abierto para descargar, indexar y almacenar contenido de Internet, incluidas direcciones de correo electrónico, archivos, hipervínculos, imágenes y páginas web. Arachnode.net está escrito en C# utilizando SQL Server 2005 y se publica bajo la GPL.
  • dine es un cliente/rastreador Java HTTP de subprocesos múltiples que se puede programar en JavaScript liberado bajo LGPL.
  • Crawljax es un rastreador Ajax basado en un método que construye dinámicamente un "gráfico de flujo de estado" que modela las diversas rutas de navegación y estados dentro de una aplicación Ajax. Crawljax está escrito en Java y publicado bajo la Licencia BSD.
1

No podrá manejar cosas como las solicitudes AJAX sin grabar un servidor web en el CD, lo cual, según tengo entendido, ya ha dicho que es imposible.

wget descargará el sitio por usted (use el parámetro -r para "recursivo"), pero cualquier contenido dinámico como informes, etc., por supuesto, no funcionará correctamente, obtendrá una sola instantánea.

1

Si usted termina encima de tener que correr fuera de un servidor web, es posible que desee echar un vistazo a:

ServerToGo

Se le permite ejecutar una WAMPP pila fuera de un CD, con soporte de mysql/php/apache. Los archivos db se copian en el directorio temporal de los usuarios actuales en el momento del lanzamiento, ¡y se pueden ejecutar completamente sin que el usuario instale nada!

+0

¡Esto parece útil! Supongo que esto debería poder ejecutar los sistemas CMS que también se pueden ejecutar en la pila WAMPP. –

+1

No he visto esto durante años, pero veo que esta página (http://www.server2go-web.de/wiki/tutorials) tenía un tutorial sobre cómo usar Server2Go con Joomla, pero parece que los enlaces porque está muerto. Pero tienen un tutorial para un CMS alemán llamado Contrexx que muestra pasos de configuración similares, estoy seguro. –

0

El hecho de que nadie copie un comando de trabajo ... Lo intento ... diez años después. : D

wget --mirror --convert-links --adjust-extension --page-requisites \ 
--no-parent http://example.org 

Funcionó como un encanto para mí.

Cuestiones relacionadas