2009-11-17 18 views
6

¿Hay alguna implementación de código abierto de LSI en Java? Quiero usar esa biblioteca para mi proyecto. He visto jLSI pero implementa algún otro modelo de LSI. Quiero un modelo estándar.¿Alguna indexación semántica latente?

+0

Gracias por añadir los comentarios sobre jLSI. – Nettogrof

Respuesta

5

¿Ha considerado LDA (asignación de Dirichlet latente)? En realidad tampoco, pero me encontré con el mismo problema con LSI recientemente (patentes). Por lo que entiendo, LDA es una técnica relacionada/más poderosa. http://en.wikipedia.org/wiki/Latent_Dirichlet_allocation aparentemente tiene algunos enlaces a implementaciones de código abierto.

+0

Aunque está preguntando específicamente por LSI, ¿no es así? Oh, bueno, vale la pena intentarlo ... –

1

Una búsqueda en google para java LSI lleva a a similar question que recomienda SemanticVectors. Un paquete construido encima de Lucene que es 'similar' a LSI. No sé si está más cerca que la implementación de jLSI.

Ese hilo también menciona que LSI está patentado y no hay muchas implementaciones del mismo. Por lo tanto, si necesita una implementación estándar, es posible que deba usar un idioma que no sea java.

0

Creo que LSA/LSI fue patentado en 1989, lo que significa que la patente debería haber expirado. Con suerte, pronto veremos algunas aplicaciones de código abierto.

1

La S-Space Package tiene una versión de código abierto de LSA, con enlaces para los vectores de documentos LSI. (Ambos enfoques operan en la misma matriz de documento de términos y son equivalentes excepto en el resultado). Es un enfoque bastante escalable que usa el SVD delgado. Lo he usado para ejecutar LSI en toda la Wikipedia sin problemas (después de eliminar los términos poco frecuentes con menos de 5 apariciones).

Como mencionó Scott Ray, el paquete SemanticVectors también tiene una buena implementación de LSI que recientemente cambió a usar el mismo SVD delgado (SVDLIBJ), por lo que podría verificarlo como si no lo hubiera hecho antes.

1

una búsqueda en Google de herramientas de PNL proporciona este slides que creo que ayuda a ...