2009-05-13 18 views
60

Estoy implementando un sitio de reemplazo para un cliente pero no quieren que todas sus páginas anteriores finalicen en 404s. Mantener la antigua estructura de URL no fue posible porque era horrible.Obtenga una lista de URL de un sitio

Así que estoy escribiendo un controlador 404 que debe buscar una página anterior solicitada y hacer un redireccionamiento permanente a la página nueva. El problema es que necesito una lista de todas las URL de página antiguas.

Podría hacerlo manualmente, pero me interesaría si hay alguna aplicación que me proporcione una lista de URL relativas (por ejemplo:/página/ruta, no http: /.../ página/ruta) acaba de dar la página de inicio. Como una araña pero a la que no le importa el contenido más que para encontrar páginas más profundas.

+0

http://superuser.com/questions/329736/wget-recursively-retrieve-urls-from-specific-website –

Respuesta

47

No quise responder a mi propia pregunta, pero solo pensé en ejecutar un generador de sitemaps. El primero que encontré http://www.xml-sitemaps.com tiene una buena salida de texto. Perfecto para mis necesidades

+0

¡Pero hay un límite de 5000 enlaces! ... :(Estoy buscando cualquier php gratis script de sitemap generator. –

+10

El límite actual es ** 500 ** - cada vez más pequeño ... –

+0

Error en mi: ::::::: Ocurrió un error Hubo un error al acceder a la URL especificada: http: // 159.121.ssss/ Asegúrese de especificar la URL correcta del sitio web y vuelva a enviar su solicitud. – JustJohn

-1

Escriba una araña que lea en cada html desde el disco y emite cada atributo "href" de un elemento "a" (se puede hacer con un analizador). Tenga en cuenta qué enlaces pertenecen a una página determinada (esta es una tarea común para una estructura de datos de MultiMap). Después de esto, puede generar un archivo de asignación que actúa como entrada para el controlador 404.

2

Por lo tanto, en un mundo ideal tendría una especificación para todas las páginas de su sitio. También tendría una infraestructura de prueba que podría llegar a todas sus páginas para probarlas.

Probablemente no esté en un mundo ideal. ¿Por qué no hacer esto ...?

  1. Crear una correlación entre las direcciones URL así viejos conocidos y los nuevos. Redirigir cuando vea una URL anterior. Posiblemente considere presentar un "esta página se ha movido, su nueva url es XXX, se le redirigirá en breve".

  2. Si usted tiene ninguna asignación, presentar un "lo siento -. Esta página ha cambiado Aquí está un enlace a la página principal" mensaje y redirigir si lo desea.

  3. Registre todas las redirecciones, especialmente las sin asignación. Con el tiempo, agregue las asignaciones para las páginas que son importantes.

32

hacer wget -r www.oldsite.com

A continuación, sólo find www.oldsite.com revelaría todas las direcciones URL, creo.

¡Alternativamente, solo sirva esa página personalizada no encontrada en cada solicitud 404! Es decir si alguien utilizaba el enlace incorrecto, obtendría que la página le dijera que no se encontró esa página y que haga algunas sugerencias sobre el contenido del sitio.

+10

Cabe destacar que, dado que esto arroja una lista de * archivos *, no de URL, esto solo funcionaría para los sitios que son colecciones de archivos HTML estáticos. Si el sitio tiene parámetros de consulta de URL, URL reescritas del lado del servidor o cualquier tipo de 'include' /' require'/etc. montaje de páginas, esto realmente no funcionará. –

+0

Podría estar malentendiendo wget. Pensé que 'wget' era para descargar los contenidos del sitio. – Doomsy

+0

@Doomsy sí, pero cuando haya descargado todo el contenido seguramente conocerá todas las URL de ese contenido, y sin descargar no hay forma de averiguar las URL. – alamar

1

Me gustaría buscar en cualquier número de herramientas de generación de sitemaps en línea.Personalmente, he usado this one (basado en Java) en el pasado, pero si haces una búsqueda en Google de "sitemap builder", estoy seguro de que encontrarás muchas opciones diferentes.

16

Aquí es una lista de los generadores de mapa (de la que, obviamente, se puede obtener la lista de direcciones URL de un sitio): http://code.google.com/p/sitemap-generators/wiki/SitemapGenerators

Mapa del sitio Web Generadores

Los siguientes son enlaces a herramientas que generan o mantenga los archivos en el formato XML Sitemaps, un estándar abierto definido en sitemaps.org y soportado por los motores de búsqueda como Ask, Google, Microsoft Live Search y Yahoo !. Los archivos de sitemaps generalmente contienen una colección de URL en un sitio web junto con algunos metadatos para estas URL. Las siguientes herramientas generalmente generan mapas de sitio XML "web-type" y archivos de lista URL (algunos también pueden admitir otros formatos).

Nota: Google no ha probado ni verificado las características o la seguridad del software de terceros que se incluye en este sitio. Por favor, dirigir cualquier pregunta sobre el software al autor del software. ¡Esperamos que disfrute de estas herramientas!

programas de servidor

  • Enarion phpSitemapsNG (PHP)
  • Google Sitemap Generator (Linux/Windows, 32/64 bits, de código abierto)
  • Outil en PHP (francés, PHP)
  • Perl mapa del sitio generador (Perl)
  • Python mapa del sitio generador (Python)
  • Sitemaps simples (PHP)
  • XML
  • SiteMap dinámico Sitemap Generator (PHP) $
  • generador de mapa del sitio para OS/2 (REXX-script)
  • XML Sitemap Generator (PHP) $

CMS y otros plugins:

  • ASP.NET - Sitemaps.Net
  • DotClear (español)
  • DotClear (2)
  • Drupal
  • plantillas de comercio electrónico (PHP) $
  • plantillas de comercio electrónico (PHP o ASP) $
  • LifeType generador
  • MediaWiki mapa del sitio
  • mnoGoSearch
  • OS Commerce
  • phpWebSite
  • Plone
  • RapidWeaver
  • Textpattern
  • vBulletin
  • wikkawiki (PHP)
  • WordPress

herramientas descargables

  • GSiteCrawler (Windows)
  • GWebCrawler & mapa del sitio creador (Windows)
  • G-Mapper (Windows)
  • Inspyder Sitemap Creator (Windows) $
  • IntelliMapper (Windows) $
  • Microsys A1 Sitemap Generator (Windows) $
  • Rage Google sitemap Automator $ (OS-X)
  • Screaming Frog SEO Spider generador de mapa del sitio (Windows/Mac) $
  • Mapa del sitio Pro (Windows) $
  • Sitemap Writer (Windows) $
  • mapa del sitio generador de DevIntelligence (Windows)
  • Sorrowmans Mapa del sitio Herramientas (Windows)
  • TheSiteMapper (Windows) $
  • Vigos Gsitemap (Windows)
  • Visual SEO Estudio (Windows)
  • WebDesignPros mapa del sitio generador (Aplicación Java Webstart)
  • WebLight (Windows/Mac) $
  • WonderWebWare mapa del sitio generador (Windows)

línea Generadores/Servicios

  • AuditMyPc.com mapa del sitio generador
  • AutoMapIt
  • Autositemap $
  • Enarion phpSitemapsNG
  • gratis mapa del sitio generador
  • Neuroticweb.com mapa del sitio generador
  • ROR mapa del sitio generador
  • ScriptSocket mapa del sitio generador
  • SeoUtility mapa del sitio generador (italiano)
  • SitemapDoc
  • Sitemapspal
  • SitemapSubmit
  • Smart-IT-Consulting Google Sitemaps XML validador
  • XML Sitemap Generator
  • XML-Sitemaps Generato r

CMS con los generadores Mapa del sitio integrados

  • Concrete5

Google Noticias Mapa del sitio Generadores Los siguientes plugins permiten editores para actualizar los archivos de Google Noticias Mapa del sitio, una variante de la sitemaps.org protocolo que describimos en nuestro Centro de ayuda. Además de a las propiedades normales de los archivos de Sitemap, Google News Sitemaps permite a los editores describir los tipos de contenido que publican, junto con especificando los niveles de acceso para los artículos individuales. Más información sobre Google News se puede encontrar en nuestro Centro de ayuda y foros de ayuda.

  • WordPress Google Noticias del plugin

fragmentos de código de script/Bibliotecas

  • ASP
  • Emacs Lisp guión biblioteca
  • Java Script
  • Perl
  • PHP cla ss
  • guión generador de PHP

Si usted cree que una herramienta se debe añadir o quitar para una legítima razón, por favor dejar un comentario en el foro de ayuda para webmasters.

6

Lo mejor que he encontrado es http://www.auditmypc.com/xml-sitemap.asp que usa Java, y no tiene límite en las páginas, e incluso le permite exportar los resultados como una lista de URL sin procesar.

También utiliza sesiones, por lo tanto, si está utilizando un CMS, asegúrese de cerrar la sesión antes de ejecutar el rastreo.

+1

sonaba bien, pero está roto. – NoobishPro

Cuestiones relacionadas