2012-09-27 34 views
7

Al probar el motor de expresiones regulares de PHP, veo que solo considera [0-9A-Za-z_] como caracteres de palabra. Las letras de idiomas que no son ASCII, como el hebreo, no se corresponden con los caracteres de palabra con [\w]. ¿Hay alguna secuencia de escape de expresiones regulares de PHP o Perl que coincida con una letra en cualquier idioma? Podría agregar rangos para cada alfabeto que espero usar, ¡pero los usuarios siempre nos sorprenderán con idiomas inesperados!Regex para caracteres de palabra en cualquier idioma

Tenga en cuenta que esto no es para el filtrado de seguridad sino para tokenizar un texto.

Respuesta

1

Trate \p{L}. Coincide con cualquier tipo de letra de cualquier idioma. Si no desea utilizar el conjunto de caracteres [].

Cuestiones relacionadas