Básicamente lo que hace después de la construcción de la pirámide perro está detectando extremos locales en esas imágenes. Después, descarta algunos de los extremos locales detectados porque probablemente sean inestables. Proceso de identificación de esos puntos significativos inestables/características se realiza mediante dos pasos:
- puntos de rechazo que tienen bajo contraste
- rechazar puntos que están mal localizado a lo largo del borde (que significa que tienen fuerte respuesta de borde en una dirección solamente)
Para poder hacer estos pasos, primero debe obtener la ubicación real de los extremos tomando una expansión de la serie Taylor. Le dará información para resolver esos dos pasos.
El paso final es la construcción de descriptores ...
estoy en un proceso de estudio de este algoritmo, así y no me parece tan trivial para entender. Hay algunos detalles que no están incluidos en el documento de Lowe's, por lo que es más difícil de entender. No he encontrado muchos recursos adicionales que expliquen este algoritmo más a fondo, pero hay algunas implementaciones de código abierto, por lo que también podría hacer uso de ellos.
EDIT: más información :)
papel se enlazó es su trabajo temprano y usted debe obtener la versión más reciente de papel, porque hay algunas modificaciones. Buscando más recursos También leí su patente y también contiene información antigua, por lo que tampoco debería buscarla.
Por lo tanto, mi comprensión de este paso de scale-space extrema es la siguiente. Primero, necesitamos construir una pirámide gaussiana. El documento dice que para la completitud local extrema necesitamos construir s + 3 imágenes gaussianas en cada octava. Teniendo algunas pruebas Lowe concluyó que para s = 3 obtiene los mejores resultados. Entonces eso implica que tenemos 6 imágenes gaussianas en cada octava, de las cuales obtenemos 5 imágenes DoG. Tenga en cuenta que todas estas imágenes DoG tienen la misma resolución. El re-muestreo se hace solo al pasar a la siguiente octava.
El próximo paso sería encontrar un extremo local. Lowe propone buscar dentro de un vecindario de 26, lo que significa que debemos comenzar nuestra búsqueda desde la segunda imagen porque esa es la primera imagen para la que existe 26 vecindarios. Del mismo modo, detenemos nuestra búsqueda en la cuarta imagen. Este proceso se repite para cada octava individualmente. Para cada extremo encontrado, al menos debe guardar su ubicación y su escala. Tener extrema encontrado el siguiente paso sería una localización más precisa que se hace con la serie de Taylor.
Este es mi entendimiento de cómo funciona este paso y espero que no estoy demasiado lejos de la verdad :)
Espero que esto ayudó un poco más.
¿Cuál es el papel que lees? –