2009-03-11 14 views
6

pregunta corta:Alguien tiene ningún código C# para analizar y evaluar las URL robots.txt contra ella

Alguien tiene ningún código C# para analizar robots.txt y luego evaluar las URL en contra de ella por lo que ver si serían excluidos o no.

largo pregunta:

He sido la creación de un mapa de sitio para un nuevo sitio aún no se ha lanzado Google. El mapa del sitio tiene dos modos, un modo de usuario (como un mapa del sitio tradicional) y un modo 'admin'.

El modo de administración mostrará todas las URL posibles en el sitio, incluidas URL de entrada personalizadas o URLS para un socio externo específico, como example.com/oprah para cualquiera que vea nuestro sitio en Oprah. Quiero rastrear enlaces publicados en otro lugar que no sea una hoja de cálculo de Excel.

Tendría que suponer que alguien podría publicar el enlace /oprah en su blog o en alguna parte. En realidad, no queremos que este 'sitio mini-oprah' sea indexado porque daría lugar a que los espectadores que no son oprah puedan encontrar las ofertas especiales de Oprah.

Así que al mismo tiempo que estaba creando el mapa del sitio, también agregué URLs como /oprah para excluir de nuestro archivo robots.txt.

Luego (y esta es la pregunta real) pensé '¿no sería agradable poder mostrar en el mapa del sitio si los archivos están indexados y son visibles para los robots'? Esto sería bastante simple: simplemente analice robots.txt y luego evalúe un enlace en su contra.

Sin embargo, esta es una 'función de bonificación' y ciertamente no tengo tiempo para salir y escribirla (aunque probablemente no sea tan compleja), así que me pregunto si alguien ya ha escrito algún código para analizar robots .TXT ?

Respuesta

8

Odia decir eso, pero solo google "C# robots.txt parser" y haz clic en el primer hit. Es un CodeProject article about a simple search engine implemented in C# called "Searcharoo", y contiene un Searcharoo.Indexer.RobotsTxt clase, descrito como:

  1. Compruebe si hay, y si está presente, descargar y analizar el archivo robots.txt en el sitio
  2. proporcionar una interfaz para la araña para comprobar cada URL en contra de las reglas de robots.txt
+2

oops. admitiría que no busqué google esta vez. Sin embargo, irónicamente, esta pregunta es ahora la primera coincidencia de 'C# robots.txt' :-) Voy a ver si puedo extraer lo que necesito de eso. gracias –

+0

Espero que no estés atrapado en un ciclo infinito ahora ;-) Es curioso, incluso muestran exactamente la parte de Google de mi respuesta como texto de vista previa. No me di cuenta de que Google se ha vuelto tan rápido ahora incluso para sitios que no son de noticias, muy interesante. – realMarkusSchmidt

+0

¿Estoy cayendo en el circuito? :) – Velcro

1

un poco de auto promueven, pero ya que necesitaba un analizador similar y no pudo encontrar nada de lo que estaba contento con, creé mi propia:

http://nrobots.codeplex.com/

Me encantaría cualquier comentario

Cuestiones relacionadas