Me gustaría robar un sitio web para recopilar mediante programación cualquier enlace externo dentro de cualquier elemento flash en la página. También me gustaría recopilar cualquier otro texto, si es posible, pero los enlaces son la parte importante. es posible? Sería preferible una biblioteca/servicio freeware para realizar esta tarea, pero si no es así, ¿cómo puedo realizar la tarea por mí mismo? ¿Es posible obtener el código fuente y extraer de eso?¿Puedo raspar el flash?
Respuesta
Descompilar la fuente de Flash le permitiría ver la parte de ActionScript del archivo Flash, que he encontrado que a menudo contiene información como enlaces.
Un decompilador gratuito es Flare. Es solo línea de comando y funciona bien. No descifrará parte de la información en formatos de Flash más nuevos (creo que CS3). Vacia todo el AS en un archivo.
Sothink SWF Decompiler es un programa comercial más sofisticado. Funcionará bien con cualquier archivo Flash que haya probado y los resultados serán bastante completos y bien organizados. está basado en GUI y no sé si se automatiza fácilmente.
Con Flare, ya que es una herramienta de línea de comandos, uno podría escribir fácilmente una secuencia de comandos para obtener el archivo SWF, descompilarlo, grep para 'http: //', y registrar los resultados.
Como primer paso muy crudo primer paso puede usar Google para obtener un fragmento de texto del swf, dado que el swf ha sido indexado por Google y que usted sabe que es su URL. por ejemplo:
http://www.google.com/search?q=site%3Awww.michaelgraves.com%2Fmga.swf
Tirando "enlaces externos" fuera de un flash puede ser tan simple como, por ejemplo:
curl -s http://hostname/path/to/file.swf | strings | grep http
Por supuesto, esto va a fallar si el autor ha tomado cualquier intento para ocultar la URL
YMMV mucho. ¡Buena suerte!
La salida de curl se ve como un montón de caracteres aleatorios, nada tan co-heredero como http. Utilicé curl www.michaelgraves.com/mga.swf -o test.txt. ¿Las cadenas hacen algo para convertir a texto legible? –
el programa 'cadenas' quita lo que pueden ser cadenas legibles por humanos fuera de una secuencia de datos binarios. El 'grep' está sacando cualquier cadena que contenga la palabra' http'. También puede intentar modificar las opciones del comando de cadenas para darle un resultado más útil ('cadenas -10': solo cadenas de salida de al menos 10 caracteres) – MikeyB
Entonces, si el archivo no contiene una cadena" http ", las cadenas no son voy a dármelo, ¿verdad? –
- 1. Raspar Facebook en Python
- 2. pruebas unitarias para raspar pantallas?
- 3. Cómo raspar HTTPS javascript páginas web
- 4. ¿Cómo puedo instalar adobe flash en el emulador de Android?
- 5. ¿Cómo puedo ver el código fuente de Flash?
- 6. ¿Cuál es el mejor lenguaje para raspar pantallas?
- 7. ¿Cómo puedo formatear una fecha en Flash?
- 8. ¿Cómo raspar logotipos de sitios web?
- 9. raspar y convertir el sitio web en HTML?
- 10. ¿Cómo raspar un _private_ google group?
- 11. raspar los tweets completos de un usuario
- 12. Arrastrar y raspar iTunes App Store
- 13. Cómo raspar una gran cantidad de tweets
- 14. Facebook no puede raspar mi url
- 15. Opciones para raspar web - Versión C++ solamente
- 16. raspar sitios web con desplazamiento infinito
- 17. ¿Cómo integrar Flash Professional y Flash Builder?
- 18. Flash Security.AllowDomain()
- 19. ¿Cómo puedo ingresar datos en una página web para raspar la salida resultante usando Python?
- 20. Importación de proyecto Flash en Flash Builder
- 21. ¿Cómo puedo usar R (paquetes Rcurl/XML?!) Para raspar esta página web.
- 22. Prevenir el flash en Cocoa WebView
- 23. ¿Hay algún lenguaje que sea simplemente "perfecto" para raspar web?
- 24. ¿Cómo puedo hacer que LWP :: UserAgent parezca tener Flash instalado?
- 25. ¿Cómo puedo lograr este efecto Flash usando jQuery?
- 26. ¿Hay algo más rápido que Jsoup para raspar HTML?
- 27. ¿Puedo usar Python para crear flash como juegos de navegador?
- 28. Raspar una página web con C# y HTMLAgility
- 29. ¿Cuáles son las diferencias entre Flash Professional y Flash Builder?
- 30. cómo raspar html generado por javascript usando python?
Flare ya no funciona para Mac. –