Soy más familiar con el lenguaje de programación java Me gusta extraer los datos de un sitio web y almacenarlos en mi base de datos que se ejecuta en mi máquina. Es posible en java. Si es así, qué API debería usar. Por ejemplo, el número de escuelas enumeradas en un sitio web ¿Cómo puedo extraer esos datos y almacenarlos en mi base de datos utilizando Java?¿Cómo extraer los datos de un sitio web usando Java?
Respuesta
Lo que te refieres es comúnmente llamado 'screenscraping'. Hay una variedad de formas de hacer esto en Java, sin embargo, prefiero HtmlUnit. Si bien fue diseñado como una forma de probar la funcionalidad web, puede usarla para acceder a una página web remota y analizarla.
Recomendaría usar un buen error manejando el analizador html como Tagsoup para extraer del HTML exactamente lo que estás buscando.
Puedo secundar la recomendación para Tagsoup. Lo uso desde hace un tiempo para extraer datos de 'páginas del mundo real' (es decir, lleno de html no válido) y funciona muy bien – bert
Dependiendo de lo que realmente está tratando de hacer, puede usar muchas soluciones diferentes.
Si simplemente quiere obtener el código HTML de una página web, entonces URL.getContent() puede ser su solución. Aquí hay un pequeño tutorial:
http://www.javacoffeebreak.com/books/extracts/javanotesv3/c10/s4.html
EDIT: no entendía que estaba buscando una manera de analizar el código HTML. Algunas herramientas han sido sugeridas arriba. Lo siento por eso.
Definitivamente necesita un buen analizador como NekoHTML.
He aquí un ejemplo del uso de NekoHTML, aunque utilizando maravilloso (un lenguaje de programación basado en Java) en lugar de Java en sí:
http://www.keplarllp.com/blog/2010/01/better-competitive-intelligence-through-scraping-with-groovy
Puede utilizar VietSpider XML desde
http://sourceforge.net/projects/binhgiang/files/
Descargar VietSpider3_16_XML_Windows.zip o VietSpider3_16_XML_Linux.zip
VietSpider Web Data Extractor: el software rastrea los datos de los sitios web ((Data Scraper)), formatea el estándar XML (Text, CDATA) y luego lo almacena en la base de datos relacional. El producto es compatible con varios RDBM como Oracle, MySQL, SQL Server, H2, HSQL, Apache Derby, Postgres ... VietSpider Crawler admite sesión (inicio de sesión, consulta por entrada de formulario), descarga múltiple, manejo de JavaScript, proxy (y multi-proxy por escaneo automático de los proxies del sitio web) ...
- 1. ¿Cómo recupero una URL de un sitio web usando Java?
- 2. ¿Cómo obtener favicon.ico desde un sitio web usando Java?
- 3. Java - Búsqueda de datos en un sitio web
- 4. Cómo publicar un sitio web usando PSAKE
- 5. Leyendo datos de un sitio web usando C#
- 6. Iniciando sesión en un sitio web usando Java
- 7. ¿Cómo puedo extraer datos EXIF usando PerlMagick?
- 8. ¿Cómo puedo iniciar sesión en un sitio web usando Python?
- 9. ¿Cómo despliega un sitio web y un proyecto de base de datos usando TFS 2010?
- 10. Obtener datos del sitio web
- 11. Un sitio web usando Ruby solo
- 12. ¿Cómo localizas un sitio web basado en bases de datos?
- 13. Extraer las recomendaciones de LinkedIn para su sitio web
- 14. ¿Podemos construir un sitio web usando MSBuild
- 15. ¿Cómo obtengo el texto de un sitio web usando PHP?
- 16. Cómo conectarse a un sitio web seguro usando SSL en Java con un archivo pkcs12?
- 17. ¿Cómo puedo implementar OCR en un sitio web usando PHP?
- 18. Mejores prácticas de construcción de un sitio web usando Node.js
- 19. Implementación de sitio web multilingüe usando ASP.Net
- 20. ¿Cómo alojar un sitio web JSP en un servidor web?
- 21. ¿Cómo extraer datos de un PDF?
- 22. ¿Cómo los sprites de CSS aceleran un sitio web?
- 23. Sitio web de Parse HTML con JAVA
- 24. ¿Cómo perfilas tu sitio web/aplicación web?
- 25. Cómo ejecutar MSDeploy un paquete de sitio web creado en un sitio web de IIS virgen
- 26. ¿Cómo descargar todos los archivos (pero no HTML) de un sitio web usando wget?
- 27. Alojando un sitio web en una PC usando apache (Xampp)
- 28. ¿Cómo extraer extractos bancarios de sitios web?
- 29. ¿Cómo protejo con contraseña los recursos en un sitio web ModX usando htaccess y htpasswd?
- 30. ¿Cómo dar acceso sin conexión a los visitantes de un sitio web móvil a los datos de CouchDB?
Dupes: http://stackoverflow.com/questions/tagged/screen-scraping+java – Jherico
Millones de engañados! http://stackoverflow.com/questions/26638/what-html-parsing-libraries-do-you-recommend-in-java, http://stackoverflow.com/questions/238036/java-html-parsing, etc. etc., etc. –