2012-07-20 12 views
6

Tengo un vector de oraciones que fueron escaneadas de documentos escritos a mano. En el proceso hubo algunos problemas de espacios como este:R Regex/gsub: Cómo colapsar espacios en una cadena

The d og is br own. 

tenía curiosidad si había una manera de forma genérica tomar cualquier patrón con '_x_' o espacio-personaje-espacio y colapsar el segundo espacio como este:

The d og is br own. --> The dog is br own. 

Solo me preocupa un solo carácter entre los espacios ('_x_' NOT '_xx_').

¿Alguna sugerencia?

+1

No sé cómo puede determinar que "The d og" debería ser "The dog" o "Thed og" sin un corpus. –

+0

@JoshuaUlrich: estoy de acuerdo, estoy tratando de ver si hay una manera de colapsar uniformemente el primer o el segundo espacio en todos ellos, luego dejo que el corrector ortográfico lo mire y vea cómo resulta. – screechOwl

+0

Oh, duh ... me perdí esa parte. Supongo que es hora de dormir un poco. –

Respuesta

4

Tal

> x<-"The d og is br own." 
> gsub(" (.) "," \\1",x) 
[1] "The dog is br own." 

o

gsub(" ([[:alnum:]]) "," \\1",x) 

(.) concuerda con algo ([[:alnum:]]) partidos sólo caracteres alfanuméricos.

+0

¡Eso lo hizo, muchas gracias! – screechOwl

Cuestiones relacionadas