Imagine que tengo una situación en la que necesito indizar oraciones. Déjame explicarlo un poco más profundo.Mejor algoritmo para indexar oraciones
Por ejemplo, tengo estas frases:
- El hermoso cielo.
- Beautiful sky dream.
- Hermoso sueño.
Por lo que yo puedo imaginar el índice debería ser algo como esto:
alt text http://img7.imageshack.us/img7/4029/indexarb.png
Pero también me gustaría hacer una búsqueda por cualquiera de estas palabras.
Por ejemplo, si busco por "the" Debería mostrarme la conexión a "beautiful". si busco por "bello" debería darme las conexiones a (anterior) "The", (next) "sky" y "dream". Si busco por "cielo" debería dar una conexión (anterior) a "bella" y etc ...
¿Alguna idea? ¿Quizás ya conozcas el algoritmo existente para este tipo de problema?
El uso de una matriz asociativa le permitirá analizar rápidamente oraciones en Perl. Es mucho más rápido de lo que anticiparía y puede ser efectivamente arrojado en una estructura similar a un árbol para su posterior uso por un lenguaje de nivel superior. Aunque quieres un algoritmo – ojblass
@Lukas Šalkauskas, ¿por qué eliminaste esta pregunta? Es genial. Solo tiene un error tipográfico en el diagrama. –