¿Alguien de un algoritmo que extrae contenidos de una página web? como instapaper?Algoritmo similar a Instapaper
Respuesta
Hay dos pasos a lo que hace Instapaper:
- Encuentra principal contenido bloque en la página (excluyendo los encabezados, pies de página, menús, etc.)
- A partir de este bloque de contenido extracto de y formato el texto
Para encontrar el bloque de contenido (generalmente un elemento de bloque html, como un div que contiene th Contenido de texto de la página clave) Instapaper usa un algoritmo muy parecido al utilizado por readability. Puede ver el source of readability.js para ver qué está sucediendo, pero en su núcleo trata de encontrar el área en la página con la relación de texto/enlace más alta, aunque también tiene otras métricas de puntuación simples (por ejemplo, fuera de mi cabeza) , cosas como proporción de texto a comas, para elementos, etc.) que entran en la heurística.
Una vez que haya identificado el elemento del nodo raíz, con el contenido relevante, tendrá que formatearlo, si lo desea, puede extraer el elemento nodo que contiene el texto del documento fuente e insertarlo en el suyo, pero, en realidad, es probable que desee eliminar los estilos existentes y aplicar los propios, para obtener un aspecto estándar. Si desea dar como resultado solo texto agradable, puede usar el Renderer de Jericho.
Update1: También debo mencionar algo más Instapaper hace - que es seguir los enlaces 'de paginación' (el "siguiente" o "1", "2", "3" enlaces) del artículo su conclusión, para que una pieza que puede abarcar muchas páginas en el original se le represente como un documento único.
update2 Hace poco encontré este comparison of text extraction algorithms
Si lo que desea todo el contenido y ninguna parte del formato en Python
>>> from BeautifulSoup import BeautifulSoup
>>> from urllib import urlopen
>>> soup = BeautifulSoup(urlopen("http://www.python.org/").read())
>>> contents = ''.join(soup.findAll(text=True))
hace el truco
Tenga en cuenta que este es obviamente un enfoque extremadamente ingenuo y que incorporará * cualquier * contenido en la página, incluido cualquier elemento en el encabezado, la barra lateral y el pie de página.Probablemente no sea lo que quiere si le muestra el texto a un usuario. –
no es un código abierto aplicación que analiza el texto de un artículo desde cualquier página web
https://github.com/jiminoc/goose/wiki
debe hacer el truco
¿Alguien hizo la comparación de rendimiento entre ** Goose ** y ** Boilerpipe **? – c24b
boilerpipe es Java de código abierto. el algoritmo se publica en un artículo científico para que pueda leer qué tan bien lo hace en comparación con otros algoritmos. leer a su alrededor parece ser uno de los mejores.
- 1. Instapaper API y Javascript XAuth
- 2. Algoritmo de diseño de fluido similar a la serpiente
- 3. Algoritmo genético en un optiproblema similar a la mochila
- 4. RGB Algoritmo de aproximación de color similar
- 5. ternario Operador similar a:?
- 6. Algo similar a split()?
- 7. GUID similar a YouTube
- 8. ¿Cuál es el nombre del algoritmo de desplazamiento de imagen similar a una serpiente?
- 9. PIL: cambio de tamaño de archivo: Algoritmo similar a Firefox de
- 10. ¿Un buen algoritmo similar a Levenshtein pero ponderado para teclados Qwerty?
- 11. Marca Xcode similar a emacs
- 12. Editor/IDE similar a Bpython?
- 13. Herramienta Scala similar a Linqpad
- 14. Calendario simple similar a DatePicker
- 15. Notificar panel similar a Staoveroverflow
- 16. Log4J - Funcionalidad similar a SiftingAppender
- 17. Google similar images algorithm
- 18. RGB a HSB Algoritmo
- 19. operador de JavaScript similar a SQL "como"
- 20. Algo similar a java.util en Javascript?
- 21. Usando live() - beneficios - similar a bind()
- 22. WPF Properties Panel similar a Visual Studio
- 23. Interfaz visual PostgreSQL similar a phpMyAdmin?
- 24. Undef'ing una función similar a la macro
- 25. Funcionalidad similar a Scipy en Java/Scala?
- 26. biblioteca similar a readline para Java
- 27. Documentación similar a Javadoc para C++
- 28. Software similar a Bitbucket que puedo autohospedar
- 29. ¿Alguien conoce algún servicio similar a Tropo?
- 30. escritorio marco de aplicaciones similar a Rails
Qué tipo de contenido, esto es tan vago que casi duele. Hay cientos de maneras de analizar y extraer contenido de una página web que abarca desde una aplicación completa hasta wget y egrep. Tendrás que ser mucho más específico. – austinbv
@zobgib Él dice "como instapaper" en justicia: http://www.instapaper.com/ – Orbling
"como un instapaper" se refiere a extraer el contenido textual de un artículo sin tener en cuenta el navegador, los encabezados y los pies de página. – Joel