2009-02-09 22 views
7

Estoy tratando de rozar un sitio web y volver a publicar los datos como un canal RSS. ¿Qué tan difícil es configurar esto con Google App Engine? Desventajas y ventajas con GAE. ¡Todas las recomendaciones y pautas son muy apreciadas!Web Scraping con Google App Engine

Respuesta

2

Google App Engine ofrece mucho más funcionalidad (y complejidad) de lo que será necesario si realmente todo lo que tendrá que hacer es volver a publicar algunos datos estructurados como RSS. Personalmente, usaría algo como Yahoo pipes para una tarea como esta.

Dicho eso ... si quieres/necesitas mojarte los pies con GAE, ¡adelante!

1

Más difícil de lo que sería en la mayoría de las otras tecnologías.

GAE puede tipo de hacer el lote programado cosas como esta ahora, pero en realidad no es para ese tipo de cosas. Elija prácticamente cualquier otro idioma y plataforma para esta tarea en particular, y hará que su vida sea mucho más fácil.

2

Trabajar con Google App Engine es bastante directo. Recomiendo pasar por el Getting Started guide. Es corto y simple y toca temas esenciales de GAE. Hay más pros y contras de los que enumeraré aquí.

Pros:
En general, App Engine está diseñado para aplicaciones web de alto tráfico que necesitan escalar. Además, está diseñado desde la perspectiva de un programador. Gran parte de los problemas de escalabilidad (optimización de bases de datos, administración de servidores, etc.) son tratados por Google. Habiendo dicho eso, creo que es una buena plataforma. Los ingenieros de Google todavía lo están desarrollando activamente, y la programación de tareas (una función que se solicitó durante mucho tiempo) se encuentra en el mapa de ruta actual.

Contras:
Quizás el mayor inconveniente en este momento es de nuevo la falta de apoyo oficial programación y las cuotas que se fijan actualmente para las cuentas gratuitas. Sin embargo, no puede quejarse mucho si es gratis. Actualmente solo admite Python como interfaz de programación (aunque pronto aparecerá un nuevo lenguaje [Java I predict]). Además, Python 2.6 (y 3.0 para el caso) aún no son compatibles. Además, Django 1.0 no es oficialmente compatible con App Engine (aunque puedes package Django 1.0 with your application).

0

Creo que BeautifulSoup podría funcionar con GAE, por lo que se manejan todas sus necesidades de raspado: D Además, GAE tiene una gran cosa. El único problema que creo que podría tener es no tener suficiente tiempo para obtener los datos (limitación de 30 segundos).

estoy trabajando en un mismo proyecto y he decidido que es más fácil para preparar los datos en otro servidor y empujarlos a GAE.