2010-04-07 30 views
30

He estado buscando por Google pero no puedo encontrar la respuesta a esta pregunta.Multiple Sitemap: entradas en robots.txt?

Un archivo robots.txt puede contener la siguiente línea:

Sitemap: http://www.mysite.com/sitemapindex.xml 

pero es posible especificar varios archivos de índice en el mapa robots.txt y tienen los motores de búsqueda reconocen que arrastrarse y TODOS los mapas de sitio referenciado en cada archivo de índice del mapa del sitio? Por ejemplo, esto funcionará:

Sitemap: http://www.mysite.com/sitemapindex1.xml 

Sitemap: http://www.mysite.com/sitemapindex2.xml 

Sitemap: http://www.mysite.com/sitemapindex3.xml 
+0

Sí lo hará, véase: http://ligatures.net/content /expertise/robots-txt-implementation.html – JVerstry

Respuesta

-1

Es posible escribirlos, pero depende del motor de búsqueda saber qué hacer con él. Sospecho que muchos motores de búsqueda "seguirán digiriendo" cada vez más tokens o, alternativamente, tomarán el último mapa del sitio que encuentren como verdadero.

Propongo que la pregunta sea "si quiero que ____ motor de búsqueda indexe mi sitio, ¿sería capaz de definir múltiples sitemaps?"

+1

Sí, parece razonable. Creo que leer en las Preguntas frecuentes de Google es que sí lo hacen. – user306942

+0

Google sí lo admite, pero si quiere estar seguro, solo envíe manualmente los archivos de Sitemap en las Herramientas para webmasters de Google. –

+0

-1 Está en las especificaciones del protocolo. Esta respuesta es una excusa poco convincente para no leerla y asumir que todos los demás, especialmente los implementadores, tampoco la leerían. La posibilidad de no admitir sitemaps en absoluto en el archivo robots.txt es mucho mayor que la que no se admite según las especificaciones. – hakre

63

Sí, es posible tener more than one sitemap-index-file:

Puede tener más de un archivo de índice del sitio.

Resalta por mí.

Sí, es posible enumerar múltiples mapa del sitio de archivos dentro de robots.txt, ver, así in the sitemap.org site:

Puede especificar más de un archivo de mapa del sitio por archivo robots.txt.

Sitemap: http://www.example.com/sitemap-host1.xml 

Sitemap: http://www.example.com/sitemap-host2.xml 

Resalte por mí, esto no puede ser malinterpretado diría, por lo que simplemente se habla, esto se puede hacer.

Esto también es necesario para envíos cruzados, por cierto. el robots.txt ha sido elegido.

Por cierto Google, Yahoo y Bing, todos son members of sitemaps.org:

mapa del sitio 0.90 se ofrece bajo los términos de la licencia Reconocimiento-Compartir bajo la misma idea y tiene amplia adopción, incluido el soporte de Google, Yahoo !, y Microsoft.

Para que pueda estar seguro de que los motores de búsqueda leerán correctamente las entradas de su mapa del sitio.

Enviarlos a través de herramientas de webmaster no puede hacer daño tampoco - como John Muellercommented.

+1

La documentación robots.txt Google confirma que esto es cierto para Google, y las referencias que se debe trabajar para otros robots, así: "puede existir entradas mapa múltiple como registros no son miembros del grupo, éstos no están vinculados a ningún usuario específico. -agentes y pueden ser seguidos por todos los rastreadores, siempre que no esté prohibido ". La documentación robots.txt Google se puede encontrar aquí: https://developers.google.com/webmasters/control-crawl-index/docs/robots_txt –

+1

La pregunta se refiere a si múltiples mapa índice * * asientos pueden existir en 'robots.txt 'no si pueden existir varias entradas de sitemaps. –

+1

@NigelAlderton: Las especificaciones son igualmente claros al respecto: [* "Usted puede tener archivo de índice más de un mapa del sitio." *] (Http://www.sitemaps.org/protocol.html#index). Si lo compara con la sección * Sitemaps & Cross Submits *, no solo está claro sino que es intrínsecamente necesario permitir múltiples archivos de índice por 'robots.txt' para el uso del índice entre dominios. – hakre

6

Si su mapa del sitio es más de 10 MB (sin comprimir) o tiene más de 50 000 entradas, Google requiere que use múltiples sitemaps incluidos con Sitemap Index File.

En su punto de robots.txt para un índice de mapa de sitio que debería tener este aspecto:

<?xml version="1.0" encoding="UTF-8"?> 
<sitemapindex xmlns="http://www.sitemaps.org/schemas/sitemap/0.9"> 
    <sitemap> 
     <loc>http://www.example.com/sitemap1.xml.gz</loc> 
     <lastmod>2012-10-01T18:23:17+00:00</lastmod> 
    </sitemap> 
    <sitemap> 
     <loc>http://www.example.com/sitemap2.xml.gz</loc> 
     <lastmod>2012-01-01</lastmod> 
    </sitemap> 
</sitemapindex> 
+2

Um, no exactamente. De http://www.sitemaps.org/protocol.php: "Cada archivo de texto puede contener un máximo de 50,000 URL y no debe ser mayor a 10MB (10,485,760 bytes)". desde – ayke

+1

Google ha subido el tamaño permitido por archivo de mapa de sitio para 50 MB http://stackoverflow.com/questions/2887358/limitation-for-google-sitemap-xml-file-size –

+2

¿Sería mejor a mapa del sitio: en los robots señalan a sitemapindex.xml o tienen múltiples sitemap: ¿líneas que apuntan a cada uno? – WarrenDodsworth