2010-03-28 16 views

Respuesta

3

reddit intentará extraer una miniatura de cualquier fuente, no solo una URL de imagen. Esto se hace, en primer lugar, al establecer reglas para sitios específicos y, en segundo lugar, al tener un proceso genérico para recuperar miniaturas para URL desconocidas, y es un periodic task automatizado.

Uno de los (muchos) beneficios de reddit es the source code is open, y si comprende Python, debe consultar /r2/lib/scraper.py para obtener una vista más detallada de cómo funciona este proceso.

Además, aunque StackOverflow es un gran lugar para responder preguntas relacionadas con la programación, es posible que también desee consultar el propio /r/redditdev de reddit para obtener información sobre el desarrollo de reddit.

Hey there redditor!

0

Puede verificar el contenido de la etiqueta <img>.

+0

¿Te refieres al contenido de la etiqueta en Reddit? Parece que comprimen y reducen la imagen y la guardan como una imagen en miniatura en su servidor. – vette982

1
  1. De hecho, si la URL contiene .jpg, .png, etc., que utilizan.
  2. Si el sitio es un dominio populares (flickr.com, youtube.com, amazon.com, etc.), tienen un conjunto de reglas predefinidas para extraer algo que sabes que va a ser relevante (puede ser la imagen presentada, miniatura de YouTube , imagen de producto de Amazon, etc.)
  3. De lo contrario, si todo lo que tiene que hacer con es algo de HTML, tendrá que desenterrarlo usted mismo. Puede elegir el primero en la página, el más grande por tamaño, o incluso el algoritmo que ha determinado que es el más importante (por ejemplo, relativamente grande, dentro de lo que cree que es el contenido principal)

Si tiene que recurrir a la última opción, una técnica que recomendaría es extraer varias imágenes, y A/B probarlas para encontrar la que tiene la mejor tasa de clics. De esa manera, casi siempre puedes obtener la mejor opción.

Cuestiones relacionadas