2008-12-27 19 views
13

No puedo encontrar nada más que aplicaciones web de código cerrado. ¿Hay algún proyecto activo? Me interesaría usar el software en algo que estoy desarrollando e involucrándome.¿Existe software de código abierto disponible que analiza una cadena y adivina el sexo del autor?

+0

Creo que la mayoría de la gente está malentendiendo su pregunta. Usted quiere saber, dado un cuerpo de texto, si John o Jane lo escribieron. No si John es un niño o una niña. La aclaración podría estar en orden. – biozinc

+1

+1 por una pregunta fascinante que nunca pensé –

Respuesta

0

Te encontrarás con un problema: las suposiciones serán solo eso: conjeturas. No existe una manera remotamente precisa de distinguir el sexo de un autor estrictamente de lo que escriben, lo máximo que obtendrás es una mala estimación.

+0

Eso está bien. Entiendo que no puede ser completamente preciso, y que tal característica solo podría ser para entretenimiento. – rmh

0

Oye, esto probablemente podría hacerse. Tendría que tomar un montón de libros de autores masculinos y femeninos, sacar oraciones, mezclarlos y alimentarlos a algún tipo de red neuronal para el entrenamiento. Para ser sincero, me interesaría ver si alguien lo hace. Ah, y yo soy sólo curiosidad qué uno necesitaría un programa de este tipo :)

+0

Una razón: analizar los blogs con fines de marketing. – stalepretzel

+0

Otra razón: adivinar la demografía de sus usuarios. Probablemente puedas adivinar, con un buen programa, el sexo, la edad y la región geográfica de un usuario, solo mirando muestras de escritura. – stalepretzel

+0

Si desea la demografía de sus usuarios, ¡solo pregunte! Si se preocupan lo suficiente como para escribir contenido (publicaciones, comentarios, etc.) para el que tienen que iniciar sesión, solo tiene que obtener esa información durante el registro. –

1

Hay aplicaciones como "El Género Genie", que operan dentro de un grado razonable de éxito: http://bookblog.net/gender/genie.php (y sobre todo con textos más largos)

No necesita ser completamente exitoso. Tendría que lidiar con una gran cantidad de datos, y es principalmente solo por diversión.

Si alguien sabe de algo, por favor, comparta.

Richard

+1

hmm, el genio de género parece clasificar consistentemente los textos escritos por mí como femeninos: -/ –

0

Hay una sección sobre esto en el libro de Stephen Baker, El Numerati. Hay empresas dedicadas al análisis computacional de la blogósfera con fines de marketing, y parte de sus algoritmos se ocupan de decidir si el autor es hombre o mujer. Sugiero leer esto.

No creo que ningún trabajo como este sea de código abierto, pero usted mismo puede construir una versión comprimida. Sin embargo, antes de analizar MUCHOS datos para programar esto, no creo que sea muy preciso.

0

Existen algunas implementaciones de código abierto de indexación/análisis semántico latente. Si tiene un buen conjunto de escritura masculina y femenina relevante para su aplicación, podría clasificar con la precisión suficiente como para ser útil.

1

Dado que está asumiendo dos categorías, casi cualquier clasificador probablemente lo hará bien. Algunas sugerencias:

  • Bayes ingenuo
  • máquinas de vectores soporte

Como un comentarista dijo anteriormente, a partir de una muestra conocida de texto (y debe haber un montón de periódicos ... corpus puede ser bueno), entrenar y clasificar, en algunos atributos razonables (tal vez presencia/ausencia o palabras o pares de palabras).

Éste debe ser (comparativamente) fácil.

Si está utilizando Python, incluso algo tan simple como el kit de herramientas de lenguaje natural (cf: nltk.org) y su libro deberían llevarlo allí.

2

Aquí hay otro sitio web que afirma hacer esto: GenderAnalyzer. Sin embargo, se basa en otro sitio web llamado uClassify.com que está caído mientras escribo esto. Tienen un enlace de contacto en la parte inferior para preguntas.

Parece un atuendo académico: "En nuestro laboratorio parece funcionar bastante bien".

+3

Cualquiera puede reclamar un "laboratorio". Todo lo que eso significa es una computadora para probar. – Tim

+0

@Tim: Suena académico sin embargo. Podría intentar contactarlos. – rmh

+0

Probé con ellos. Dijeron que mi página probablemente fue escrita por un hombre, lo cual es correcto. Tenían botones para hacer clic para acertar o no, y los resultados eran sobre el nivel de probabilidad. O no les va bien o la gente hace clic deshonestamente (o ambas cosas). –

2

Hay un conjunto completo de analizadores de dos clases que se pueden adaptar aquí ... software de identificación y bloqueo de spam. Todavía requiere que el usuario obtenga texto escrito por hombres (tratado como correo no deseado) y texto femenino (tratado como jamón o al revés), pero muchos deberían funcionar.

0

nlpers blog acerca de esto hace algunos años; ver los comentarios allí para algunas sugerencias ...

Cuestiones relacionadas