2011-01-16 12 views

Respuesta

20

Si lo que buscas es un caso en el mundo real echa un vistazo a este que automatically assigns priority to bugs.

También he creado un par de proyectos de prueba para tener una idea de cómo podría usarlo en la producción.

Uno de ellos suggests tags para preguntas sobre Stackoverflow. El modelo para esto se entrenó con preguntas (del volcado de datos) que solo tenían 1 etiqueta. Esto le ayuda a reconocer los detalles de una etiqueta específica. El código y la prosa se dividieron en funciones separadas, ya que uno de ellos puede tener un mayor impacto en el resultado. Cuando se le formula una pregunta, devuelve las 10 mejores sugerencias de etiquetas; etiquetas reales se incluyen para la comparación.

Estructura era un archivo CSV:

"tag","code blocks(200 chars)","body text(200 chars)" 

Algunos caracteres se han filtrado de code que causó errores de entrenamiento: []^|~. No estoy seguro de cuál de ellos estaba causando problemas.

Si desea ver una determinada pregunta agregada a la lista de prueba, hágamelo saber. Obviamente, las preguntas que tienen código predicen mejor.

El otro proyecto predice movie ratings basado en datos de IMDB y director/actores. A diferencia de la sugerencia de etiqueta, esta es en vivo, por lo que puede experimentar con diferentes combinaciones para ver lo que predeciría.

Estructura aquí fue:

rating,"directorId","actorId actorId actorId" 

Ambos se ejecuta en Google App Engine lo que Python es el extremo posterior. No estoy usando una API particular; acabo de seguir algunos de Nick Johnson example code.

+0

¡Impresionante! ¡Exactamente lo que quería ver! – user94154

+4

Lamentablemente, los enlaces en la respuesta ya no están en línea. Alguien tiene algunos ejemplos actualizados? –

3

No he usado esta API. Pero sus website lists los siguientes casos de uso

  • Los sistemas de recomendación (código de demostración)
  • detección de spam (código de demostración)
  • análisis de los sentimientos de los clientes
  • análisis de oportunidades Upsell
  • decisiones de enrutamiento de mensajes
  • Diagnóstico
  • Clasificación de documentos y correos electrónicos
  • identificación de actividades sospechosas
  • análisis mantequera
  • identificación Idioma
+0

Gracias por la respuesta, pero estoy más interesado en lo que los no-Googlers han usado para/cómo lo hicieron (es decir, qué idioma/biblioteca, cómo manejaron la recopilación de datos, cómo estructuraron los datos, etc.). – user94154