2010-04-24 30 views
9

¿Cómo puedo evitar que mi competencia aspire mi sitio web asp.net 3.5? Idealmente, quiero asegurarme de que ningún webbots o screenscrapers pueda extraer datos de mi sitio web.¿Cómo puedo evitar que mi sitio asp.net sea filtrado?

¿Hay alguna forma de detectar que haya un webbot o un raspador de pantalla en ejecución?

+0

@AndrewBarber ... el OP NO está pidiendo el código. – Csharp

Respuesta

12

Es posible tratar de detectar raspadores de pantalla:

utilizar cookies y el tiempo, esto hará que sea más difícil para aquellos de los raspadores de pantalla caja. También verifique el soporte de JavaScript, la mayoría de los raspadores no lo tienen. Verifique los datos del Metabuscador para verificar que realmente es un navegador web.

También puede verificar solicitudes en un minuto, un usuario que maneja un navegador solo puede hacer un pequeño número de solicitudes por minuto, por lo que la lógica en el servidor que detecta demasiadas solicitudes por minuto podría presumir que se está raspando la pantalla y evitar el acceso desde la dirección IP ofensiva durante un período de tiempo. Si esto comienza a afectar a los rastreadores, inicie sesión en la IP de los usuarios que está bloqueada y comience a permitir sus direcciones IP según sea necesario.

Puede usar http://www.copyscape.com/ para tratar su contenido también, esto al menos le dirá quién reutiliza sus datos.

Ver esta pregunta también:

Protection from screen scraping

también echar un vistazo a

http://blockscraping.com/

Niza doc sobre captura de imágenes:

http://www.realtor.org/wps/wcm/connect/5f81390048be35a9b1bbff0c8bc1f2ed/scraping_sum_jun_04.pdf?MOD=AJPERES&CACHEID=5f81390048be35a9b1bbff0c8bc1f2ed

Cómo prevenir la captura de imágenes:

http://mvark.blogspot.com/2007/02/how-to-prevent-screen-scraping.html

+0

+1 buena respuesta. pero ... he vencido a la mayoría de esos guardias, por lo tanto, mi respuesta. ;-) –

+1

Su pregunta es, ¿es posible detectarlo? Lo es, y es fácil crear un programa para raspar el sitio, no es 100% pero lo hará más difícil. Si un usuario puede abrirlo en el navegador, puede ser un script, a menos que use captcha para acceder a la información que no desea raspar. –

+0

Sí, tienes razón. Soy culpable de responder una pregunta diferente. –

2

No creo que sea posible sin autenticar a los usuarios de su sitio.

+0

@Raj, de modo que la autenticación evitará que (por supuesto, la competencia pueda registrarse y ejecutar una s/s) – user279521

+1

Autenticación Ni siquiera lo obstaculizará, si quieren eliminar crearán un script de ese proceso fácilmente. –

+0

No estaba seguro de si tenía una lista de usuarios autorizados que podrían acceder a su aplicación. Obviamente este no es el caso aquí. –

8

Desconecte el cable de red del servidor.

paráfrasis: si el público puede verlo, se puede raspar.

actualización: al segundo intento parece que no estoy respondiendo la pregunta. Lo siento. Vecdid ha ofrecido una buena respuesta.

Pero cualquier código medio decente podría vencer a las medidas enumeradas. En ese contexto, mi respuesta podría considerarse válida.

+0

+1 mejor respuesta aún, podría no ser lo que el operador quería escuchar, pero es la única solución. – mxmissile

+0

de hecho. Es como cuando estaba de moda para evitar el clic derecho para robar imágenes. – renoirb

1

En última instancia, no puede detener esto.

Puede hacer que a la gente le resulte más difícil hacerlo, configurando el archivo robots.txt, etc. Pero debe obtener información en las pantallas legítimas de los usuarios para que tenga que ser servida de alguna manera, y si es así su los competidores pueden llegar a eso.

Si obliga a los usuarios a iniciar sesión, puede detener los robots todo el tiempo, pero de todos modos no hay nada que impida que un competidor se registre en su sitio. Esto también puede alejar a los clientes potenciales si no pueden acceder a cierta información de forma "gratuita".

+0

@ChrisF, ¿hay alguna forma de detectar que haya un webbot o raspador de pantalla en ejecución? – user279521

+0

@usuario - consulte las otras respuestas de personas con más experiencia en esta área que yo – ChrisF

0

No creo que eso sea posible. Pero sea lo que sea que se te ocurra, será tan malo para la optimización del motor de búsqueda como lo será para la competencia. ¿Es eso realmente deseable?

1

Si el competidor está en mismo país que usted, tiene una política de uso aceptable y los términos de servicio claramente publicados en su sitio. Mencione el hecho de que no permite ningún tipo de robo de pantallas/robots, etc. Si eso continúa, solicite a un abogado que les envíe una carta de cese y desistimiento.

0

¿Qué le parece servir cada bit de texto como una imagen? Una vez hecho esto, sus competidores se verán obligados a invertir en tecnologías OCR, o descubrirán que no tienen usuarios, por lo que la pregunta será irrelevante.

1

Puede usar un CAPTCHA.

Además, puede mitigarlo en su lugar al limitar su conexión. No los evitará completamente del raspado de la pantalla, pero probablemente evitará que obtengan datos suficientes para ser útiles.

Primero, para los usuarios que cocinan, las conexiones del acelerador para que pueda ver a lo sumo una vista de página por segundo, pero una vez que se agota el temporizador de un segundo no experimenta estrangulamiento alguno. Sin impacto en usuarios normales, mucho impacto en raspadores de pantalla (al menos si tiene muchas páginas a las que apuntan).

A continuación, solicite cookies para ver las páginas sensibles a los datos.

Podrán entrar, pero siempre que no acepte cookies falsas, no podrán raspar la pantalla a gran velocidad.

Cuestiones relacionadas