Acabo de recopilar un montón de datos de Google Buzz, y quiero saber qué publicaciones de Buzz hacen referencia a las mismas noticias. El problema es que muchos de los enlaces en estas publicaciones han sido modificados por acortadores de URL, por lo que podría darse el caso de que muchas URL recortadas distintas apuntaran al mismo artículo de noticias.Detectar el destino de la url acortada o "minúscula"
Dado que tengo millones de mensajes, lo que es la forma más eficaz (preferiblemente en Python) para mí
- detectar si un URL es una URL acortada (de cualquiera de los muchos servicios de acortamiento de URL, o al menos la más grande)
- Encuentra el "destino" de la url acortada, es decir, la versión larga y original de la URL acortada.
¿Alguien sabe si los acortadores de URL imponen estrictos límites de velocidad de solicitud? Si mantengo esto en 100/segundo (todo viene de la misma dirección IP), ¿crees que me encontraré en problemas?
ACTUALIZACIÓN & primera solución Las respuestas han dado lugar a la siguiente solución simple
import urllib2
response = urllib2.urlopen("http://bit.ly/AoifeMcL_ID3") # Some shortened url
url_destination = response.url
Eso es todo!
¿Sabes qué biblioteca y comando python podría usar para descubrir de manera más eficiente la URL de destino? Por ejemplo importación urllib2 respuesta = urllib2.urlopen ("http://bit.ly/AoifeMcL_ID3") cabeceras = response.headers.headers En este caso, los encabezados contienen el nombre de dominio de la URL de destino, pero No veo la URL completa ... ¿dónde debo buscar la respuesta para la URL de destino? – conradlee