cómo determinar si la página web ha sido modificada

Tengo instantáneas de varias páginas web tomadas 2 veces. ¿Cuál es un método confiable para determinar qué páginas web se han modificado?cómo determinar si la página web ha sido modificada

No puedo confiar en algo así como una fuente RSS, y necesito ignorar el ruido menor como el texto de fecha.

Idealmente estoy buscando una solución de Python, pero un algoritmo intuitivo también sería genial.

Gracias!

Fuente

2009-10-19 hoju

¿Se refiere a imágenes cuando dice instantáneas? O HTML histórico? –

solo el HTML - sin archivos de respaldo – hoju

¿Desea diferenciar la estructura (etiquetas html) o el contenido o ambos? – elhoim

Bueno, primero debes decidir qué es ruido y qué no. Puede usar un analizador HTML como BeautifulSoup para eliminar el ruido, imprimir bastante el resultado y compararlo como una cadena.

Si busca una solución automática, puede usar difflib.SequenceMatcher para calcular las diferencias entre las páginas, calcule el similarity y compárelo hasta un umbral.

Fuente

2009-10-19 10:19:21

Algo como Levenshtein Distance puede ser útil si establece el umbral de los cambios a una distancia que ignore la cantidad de ruido adecuada para usted.

Fuente

2009-10-19 10:18:06

La distancia de Levenshtein es O (n^2) y lo más probable es que sea demasiado ineficaz para páginas web enteras. Sin embargo, puedes generalizarlo a secuencias y percibir palabras como símbolos en lugar de caracteres. Aquello podría funcionar. – bayer

La solución realmente depende si está raspando un sitio específico o está intentando crear un programa que funcione para cualquier sitio.

Se puede ver qué áreas cambian con frecuencia hacer algo como esto:

diff <(curl http://stackoverflow.com/questions/) <(sleep 15; curl http://stackoverflow.com/questions/)

Si su único preocupado por un solo sitio, puede crear algunas expresiones de sed para filtrar las cosas como marcas de tiempo. Puede repetir hasta que no se muestre ninguna diferencia para campos pequeños.

El problema general es mucho más difícil, y sugiero comparar el número total de palabras en una página para empezar.

Fuente

2009-10-19 12:34:25 brianegge

Sí, estoy buscando un enfoque general. El recuento total de palabras es una idea interesante (y directa). – hoju

-1

solo tome instantáneas de los archivos con MD5 o SHA1 ... si los valores difieren la próxima vez que los revise, entonces serán modificados.

Fuente

2009-10-19 12:38:28 ghostdog74

el problema es que ese tipo de enfoque no puede hacer frente al ruido. Por ejemplo, una página web puede mostrar la fecha de hoy, que cambiará incluso cuando el contenido no haya sido modificado. – hoju

ic .. he entendido mal su requisito. – ghostdog74

cómo determinar si la página web ha sido modificada

Respuesta

Cuestiones relacionadas