2012-01-11 26 views
15

Quiero implementar una búsqueda semántica basada en python sobre un conjunto de palabras clave (principalmente pasatiempos, últimas noticias, etc. de las que la gente podría estar interesada para hablar). Quiero saber si existen bases de datos ontológicas para los mismos algoritmos/implementaciones de búsqueda de fuente abierta para los mismos.Búsqueda semántica en Python para pasatiempos + últimas noticias

Por ejemplo. Mi set = {hablando, bebiendo, twitteando, Katrina Kaif, ciclón de Katrina, recolección de rocas, recolección de monedas}

Por lo tanto, al buscar "acumular" podría obtener la colección de rocas y la recolección de monedas como salida.

Editar: Los términos pueden tener varias palabras. Es decir, "el presidente, Barack Obama de Estados Unidos" es una consulta válida.

+0

¿Puede usted explicar sobre el conjunto de entrada y la salida situada en detalles? – shibly

+0

@guru Primero necesitamos construir una base de datos de pasatiempos/temas o cualquier cosa de la que la gente quiera hablar. Sería bueno si la base de datos se actualiza a sí misma, pero los usuarios agregarían la suya de todos modos. Dado que esta base de datos queremos implementar una búsqueda semántica sobre ellos. Entonces, dados estos términos, debería poder realizar una búsqueda semántica en ellos y devolver una lista de usuarios cuyos intereses coinciden con el interés buscado. – w2lame

Respuesta

4

Es posible que desee utilizar "indexación aleatoria". Puede hacer exactamente lo que necesita, calcula un vector de características para cada palabra y define una métrica de similitud semántica entre dos palabras.

Todo lo que necesita es tomar una copia de An Introduction to Random Indexing y un paquete semanticvectors para empezar ...

espero que esto ayude, si necesita más información, por favor comentar ...

1

I Espero pero no estoy seguro de si esto es útil para ti.

Gnowsys

  • todavía bajo Desarrollos pesada
+0

Se ve muy bien. Gracias por compartir. – w2lame

Cuestiones relacionadas