¿Cuál sería la mejor expresión regular para tokenizar un texto en inglés?Regexp para Tokenizing English Text
Con un token en inglés, me refiero a un átomo que consiste en la cantidad máxima de caracteres que pueden usarse de manera significativa para fines de PNL. Una analogía es un "token" en cualquier lenguaje de programación (por ejemplo, en C, '{', '[', 'hello', '&', etc. pueden ser tokens). Hay una restricción: aunque los caracteres de puntuación en inglés pueden ser "significativos", ignóremoslos por simplicidad cuando no aparecen en el medio de \ w +. Entonces, "Hola, mundo". produce 'hola' y 'mundo'; de manera similar, "Eres guapo". puede ceder ya sea [usted, es guapo] o [usted, es, bueno, buscando].
Consulte [esta pregunta] (http://stackoverflow.com/questions/992176/c-tokenize-a-string-using-a-regular-expression) sobre tokening en C++ utilizando Roost.Regex. – Lazer
posible duplicado de [¿Definición verdadera de una palabra en inglés?] (Http://stackoverflow.com/questions/3690195/true-definition-of-an-spanish-word) –
@OTZ en inglés ¿Qué es un token si no es un ¿palabra? –