2010-05-30 17 views
5

Deseo realizar una ingeniería inversa de cualquier página web en una representación lógica de la página. Por ejemplo, si una página web tiene un menú, entonces quiero una estructura de menú lógica tal vez en XML. Si la página web tiene un artículo, quiero un nodo XML de artículo, si tiene un título para el artículo, quiero un nodo XML de título. Básicamente, quiero la forma lógica de la página web sin ninguna de la interfaz de usuario.Reverse Engineer una página web

Este modelo lógico podría ser objetos en código o XML, no importa, la parte importante es que ha identificado lo que significa todo en la página.

Respuesta

3

Parece que lo que usted necesita requiere que un humano categorice los contenidos de una página.

Esto podría ser automático, pero tendría falsos positivos y no funcionaría en todos los casos.

Por ejemplo, ¿qué ocurre si una página utiliza un ul para un menú y otra utiliza celdas de tabla?

¿Desea esto para un sitio en particular o para cualquier otro sitio en Internet?

0

¿Qué tal análisis del XML ya en la página, ver

http://en.wikipedia.org/wiki/XHTML

+3

Iba a sugerir también que convierte la totalidad de Internet a XHTML;) – Onots

+0

hace que quiera encontrar que el GIF de las Ventanas diálogo de transferencia que dice 'Descarga de Internet ...' – alex

+2

@alex - http://www.gifbin.com/982378 :) Sin embargo, el tamaño parece un poco pequeño ahora ... –