2010-02-16 17 views
6

necesito una fuente de Java crwaler basado en la web abierta que puedo extender por comparación de precios? ¿Cómo hago la comparación de precios? ¿Hay algún código fuente abierto para eso?rastreador Web de comparación de precios

+0

No rastrear las páginas web usted mismo. Solo genera dolor y problemas (tanto en el código como en términos legales). Debe ponerse en contacto con proveedores de listas de precios para obtener más información sobre sus servicios web públicos y luego hacer uso de ellos. – BalusC

+0

@BalusC problema (términos legales)? como y por qué ? – Lite

Respuesta

3

Echa un vistazo a la cosecha web, usted tiene que usar es un poco extraño y peculiar sintaxis para el procesamiento de páginas web, pero debe ser bastante para extenderlo a hacer un poco de comparación de precios:

http://web-harvest.sourceforge.net/samples.php?num=2

+0

Esta aplicación parece realmente genial y fácil de usar, pero desafortunadamente en realidad el rendimiento (por mis medidas) es bastante malo. – javamonkey79

1

¿Alguna razón por la que no puede obtener sus datos de uno de los cientos de sitios de comparación de precios que ya existen? Parece que sería más fácil eliminar nextag o froogle o lo que sea, en lugar de escribir un rastreador para raspar miles de millones de sitios web de tiendas.

+1

Thx para la respuesta. Sí, ya he revisado la cosecha web. Sí, también tuve ideas acerca de simplemente raspar sitios de comparación de precios. Entonces debería ser por un rastreador ¿no? A continuación, ¿los sitios de comparación de precios le permiten crwal sus sitios? ¿Me estoy perdiendo de algo? Si es simple todo lo que necesita es crwal 10-20 sitios web ¿verdad? – yeskay

2

Construir algo que raspa la información de precios de un gran número de sitios diferentes va a ser mucho trabajo, ya sea que se deshaga de las propias tiendas o de los sitios de comparación existentes.

  • El diseño de la página web de cada persona será diferente, lo que requiere que configure su rastreador por separado para cada una.

  • Algunos sitios web pueden presentar la información de precios de manera que dificultan el raspado; p.ej. usando AJAX.

Algunos propietarios de sitios web van a poner las páginas relevantes en sus archivos robots.txt para decirle que se mantenga alejado. Y si ignoras eso, hay varias cosas que pueden hacer para hacerte la vida más difícil.

Raspar muchos sitios web de personas sin permiso es probable que lo haga impopular. Podría atraer amenazas de demandas, o demandas reales de personas que perciben que está perjudicando su modelo comercial. U otras respuestas ...

¿Estás seguro de que quieres hacer esto? ¿¿De Verdad??

0

Nadie quiere que su sitio para obtener sobrecargado sin obtener ningún beneficio. Creo que deberías crear un rastreador para tu necesidad. Sin embargo, tenga en cuenta que la mayoría de ellos pueden bloquearlo o hacer que sus respuestas sean más lentas. debe comportarse como si no fuera uno y comer su ancho de banda ...

0

Alguien aquí escribió sobre los problemas legales. Los problemas legales no son simples. Stephen C escribió sobre pleitos pero eso va en ambos sentidos. Existe un gran cuerpo de leyes relacionadas con la conducta anticompetitiva. Si alguien quiere que sus precios no sean informados porque están involucrados en la fijación de precios o haciendo afirmaciones falsas, entonces los sitios web se enfrentan a severas penalidades. La ley no es algo para citar trivialmente. Puede fijar precios en google y ver las grandes multas ya impuestas a innumerables empresas.

Cuestiones relacionadas