Necesito detectar raspado de información en mi sitio web. Probé la detección basada en patrones de comportamiento, y parece ser prometedor, aunque el cálculo es relativamente pesado.La forma de detectar el raspado web
La base es recopilar las marcas de tiempo de la solicitud de cierto lado del cliente y comparar su patrón de comportamiento con un patrón común o un patrón precalculado.
Para ser más precisos, colecciono intervalos de tiempo entre las solicitudes en matriz, indexada por función del tiempo:
i = (integer) ln(interval + 1)/ln(N + 1) * N + 1
Y[i]++
X[i]++ for current client
donde N es el tiempo (recuento) límite, intervalos mayores que N se dejan caer. Inicialmente, X e Y están llenos de unos.
Luego, después de obtener suficiente número de ellos en X e Y, es hora de tomar una decisión. Criterios es parámetro C:
C = sqrt(summ((X[i]/norm(X) - Y[i]/norm(Y))^2)/k)
donde X es ciertos datos de los clientes, Y es de datos comunes, y la norma() es la función de calibración, y k es el coeficiente de normalización, dependiendo del tipo de norma(). Hay 3 tipos:
norm(X) = summ(X)/count(X), k = 2
norm(X) = sqrt(summ(X[i]^2), k = 2
norm(X) = max(X[i]), k is square root of number of non-empty elements X
C está en el rango (0..1), 0 significa que no hay desviación comportamiento y 1 es la desviación max.
La calibración del tipo 1 es la mejor para repetir las solicitudes, escriba 2 para repetir la solicitud con pocos intervalos, escriba 3 para los intervalos de solicitud no constantes.
¿Qué opinas? Le agradeceré que pruebe esto con sus servicios.
Solo busqué en Google "escarpado" en caso de que fuera un término con el que no estaba familiarizado. ¿Debo entender que debe significar "raspado"? –
@Martin - 'screen-raspado' había sido seleccionado como una etiqueta, así que he editado en función de eso. – slugster
Solo tengo que decir: el raspado siempre existirá. En el futuro, al menos debería considerar un modelo de negocio adecuado para el siglo XXI. – rook