2011-09-27 8 views
9

¿Qué enfoque puedo usar para predecir la nacionalidad de una persona a partir del apellido?cómo adivinar la nacionalidad de una persona del apellido?

Tengo una gran lista de textos y apellidos de autores. Me gustaría identificar qué textos han sido escritos por hablantes de lenguas latinas y qué textos han sido escritos por hablantes nativos de inglés, con el fin de estudiar si ciertos patrones de estilo de escritura son diferentes en un grupo en comparación con el otro.

He buscado en google y pubmed una base de datos de apellidos, pero no he podido encontrar ninguno de forma gratuita. Otro enfoque es usar algunas expresiones regulares, por ejemplo, ". * Ez" para identificar algunos apellidos hispanos, como "rodriguez", pero no me lleva muy lejos.

¿Tiene alguna sugerencia? Ya que revisaré manualmente todas las asociaciones después de hacer la predicción, no necesito una gran precisión, pero cualquier ayuda o idea será bienvenida.

+4

Alguien en la TSA podría saberlo. – awm

+1

Wow. Eso parece una gran tarea. Dudo que sea capaz de lograr una gran precisión ya que los apellidos obviamente pueden cambiar de generación en generación y las personas no siempre se consideran de una nacionalidad específica, incluso si su apellido es de esa nación. ¿Qué tipo de precisión necesitarías en esto de todos modos? Supongo que si tuviera acceso a datos como directorios telefónicos/censos de diferentes naciones, ciertamente podría buscar nombres comunes y similitudes con dichos apellidos comunes. Por ejemplo, una diferencia de 1 carácter es básicamente el mismo nombre. – Thor84no

+0

Porque tienes un apellido español no implica que no seas un hablante nativo de inglés, ni funciona en la otra dirección. – bitmask

Respuesta

4

No creo que pueda hacer esto con ningún grado de fiabilidad. A Rodríguez bien puede tener un nombre de origen español, pero bien podría haber nacido y criado en cualquier lugar. Podrían ser británicos de segunda generación, y nunca se ha hablado en español a su alrededor, por lo que entran en la categoría de hablante de inglés nativo.

+8

Esto no es una respuesta sino un comentario. – bitmask

2

No hay una manera significativa de hacerlo. No hay ninguna razón por la cual las personas con nombres hispanos no pueden ser hablantes nativos de inglés.

Si va a revisarlo de todos modos, ¿por qué no utilizar los datos que tiene?

+0

Necesito hacer esto para una gran lista de textos, así que necesito esto para configurar los valores predeterminados y facilitar el trabajo. – dalloliogm

3

Si los autores reales, entonces tal vez usted puede araña amazon y comprobar su información 'Información del autor'?

No creo que puedas adivinar. P.ej. Los apellidos irlandeses - se estima que hay 80,000,000 de personas con herencia irlandesa, sin embargo, de los 4,5 millones de estos viven en Irlanda/pasaron por la educación irlandesa.

1

Suponiendo que tiene la intención de hacer una comparación programática de los textos, debe categorizar manualmente los textos. Las conjeturas incorrectas probablemente te llevarán a construir un algoritmo roto para el análisis textual. Esto será especialmente problemático con el aprendizaje automático, como las redes neuronales artificiales.

Cuestiones relacionadas