Similitud hashing

Normalmente, el objetivo del hash es convertir una función continua en una función discreta: un pequeño cambio en la entrada debería provocar un gran cambio en la salida. Sin embargo, ¿hay algún algoritmo hashing que, (muy) hablando en términos generales, devuelva hashes similares pero (aún diferentes) para entradas similares?Similitud hashing

(Un ejemplo del uso de esto sería para comprobar si dos archivos son "similares", al comprobar su hashes de similitud. Por supuesto, cierto grado de fracaso siempre es aceptable.)

Fuente

2011-01-29 Mehrdad

¿Cómo se define "similar"? – thkala

Se considerarían similares dos flujos de aproximadamente la misma longitud y aproximadamente los mismos datos en el mismo orden. (Tenga en cuenta que no necesito decir "¿Son estos dos similares?" Como un booleano, sino más bien como un tipo de sistema de calificación numérica. Por ejemplo, [1, 2, 3, 4] podría ser más similar a [1, 2, 3] que a [4, 3, 2, 1] ...) – Mehrdad

El objetivo de una función hash es asegurarse de que un cambio en cualquier bit de la entrada debe tener la posibilidad de cambiando * cada * bit de la salida. – Pointy

Mira Locality Sensitive Hashing (LSH) . Esa es una forma probabilística de encontrar rápidamente un montón de puntos cerca de uno dado, por ejemplo.

Fuente

2011-01-29 00:36:08

+1 parece ser exactamente lo que estaba buscando ... No sabía los términos para buscar; ¡Gracias! :) – Mehrdad

dado una función de distancia que le indica qué tan similares o diferentes son sus objetos, también se puede emplear permutaciones distancia: http://www.computer.org/portal/web/csdl/doi/10.1109/TPAMI.2007.70815 o bocetos: http://portal.acm.org/citation.cfm?id=1638180

Para una implementación de este último enfoque: http://obsearch.net

Fuente

2011-06-26 14:36:44

Similitud hashing

Respuesta

Cuestiones relacionadas