Al probar el motor de expresiones regulares de PHP, veo que solo considera [0-9A-Za-z_]
como caracteres de palabra. Las letras de idiomas que no son ASCII, como el hebreo, no se corresponden con los caracteres de palabra con [\w]
. ¿Hay alguna secuencia de escape de expresiones regulares de PHP o Perl que coincida con una letra en cualquier idioma? Podría agregar rangos para cada alfabeto que espero usar, ¡pero los usuarios siempre nos sorprenderán con idiomas inesperados!Regex para caracteres de palabra en cualquier idioma
Tenga en cuenta que esto no es para el filtrado de seguridad sino para tokenizar un texto.
Muy bien, gracias. También tuve que agregar el modificador 'u' para que funcione. – dotancohen