2009-04-02 13 views
5

Tengo curiosidad sobre la tecnología detrás de un motor de búsqueda como torrentz.com. Por lo que pude observar, no aloja ningún archivo torrent, sino que lo conecta con otros servidores que lo hacen.¿Cómo se genera un indexador de archivos torrent?

  • Si busca palabras clave, muestra una lista de posibles títulos que coinciden con su búsqueda.
  • y luego elige una de estas y le proporciona otra lista de posibles servidores que alojan el archivo torrent correspondiente.

Lo que me interesa en particular es la estrategia detrás de la recolección e indexación de todo ese contenido:

¿Cómo que recogen a continuación, agregar los datos?
¿Es un servicio base de presentación, donde cada uno de estos servidores envía su contenido para la indexación?
¿Es un algoritmo de rastreo? Si es así, ¿cómo empiezas a rastrear un sitio como piratebay.org?
¿Tienen acceso a las bases de estos otros servidores?

Mi conocimiento y comprensión del protocolo bittorrent no es muy elaborado, pero la documentación que encontré en línea me señaló más los procesos involucrados en la creación de un servicio de seguimiento, que no es exactamente lo que me interesa. visión y material de lectura recomendado es apreciado.

Respuesta

6

Para empezar, indexe sus feeds rss y recopile datos del mismo. El siguiente paso sería indexar las páginas del portal (como Mininova, tpb, etc.), pero ten cuidado con el hecho de que puedes ser excluido (basado en ip) por hacerlo, ya que eso provocaría una gran cantidad de datos solicitados desde sus servidores (i no creo que estén muy contentos con eso) ..

Dicho esto, dudo que tengan acceso a las bases de datos de otros servidores, sino que es crawling + rss.

Otra cosa que puedes usar es que cuando alguien hace una consulta de un artículo que no tienes en tu base de datos, haces la consulta en el portal principal de bt, almacena el resultado en caché en tu db y luego muestras resultados. Luego, si otro usuario hace la misma consulta (que es un escenario bastante común) puede mostrarle datos almacenados en caché + nuevos datos de rss.

Cuestiones relacionadas