Tengo un montón de nombres, y quiero obtener los nombres únicos. Sin embargo, debido a errores ortográficos e inconsistencias en los datos, los nombres pueden escribirse incorrectamente. Estoy buscando una forma de verificar un vector de cadenas si dos de ellas son similares.¿Cómo se mide la similitud entre cadenas?
Por ejemplo:
pres <- c(" Obama, B.","Bush, G.W.","Obama, B.H.","Clinton, W.J.")
Quiero encontrar que " Obama, B."
y "Obama, B.H."
son muy similares. ¿Hay alguna forma de hacer esto?