2009-09-18 16 views
5

Estoy tratando de averiguar cómo hacer un reemplazo con Javascript. Estoy mirando todo el cuerpo de la página y me gustaría reemplazar la palabra clave coincide NO dentro de una etiqueta HTML.En JavaScript, ¿cómo puedo reemplazar texto en una página HTML sin afectar las etiquetas?

Aquí se muestra un ejemplo:

<body> 
    <span id="keyword">blah</span> 
    <div> 
    blah blah keyword blah<br /> 
    whatever keyword whatever 
    </div> 
</body> 

<script type="text/javascript"> 
var replace_terms = { 
    'keyword':{'url':'http://en.wikipedia.org/','target':'_blank'} 
} 

jQuery.each(replace_terms, function(i, val) { 
    var re = new RegExp(i, "gi"); 
    $('body').html(
    $('body').html().replace(re, '<a href="'+ val['url'] +'" target="'+val['target']+'">' + i + '</a>') 
); 
}); 

</script> 

estoy buscando para reemplazar todas las instancias de la "palabra clave" que no está dentro de una etiqueta HTML (entre < y >).

Supongo que también necesito ignorar si "palabra clave" está dentro de un elemento script o style.

+2

¿No es toda la página, por definición, dentro de una etiqueta HTML? –

+0

Sí. El HTML que tenía en mi ejemplo no apareció. Básicamente quiero decir que no quiero reemplazar ningún atributo de una etiqueta. – Phil

+1

Creo que quiere decir dentro de los corchetes (como un nombre/valor de atributo). – Mayo

Respuesta

12

No utilice regex para analizar HTML. [X] [HT] ML no es un idioma normal y no se puede procesar de manera confiable utilizando expresiones regulares. Su navegador tiene un buen analizador de HTML incorporado; dejemos que la tensión de averiguar dónde están las etiquetas.

También realmente no desea trabajar en html()/innerHTML en el cuerpo. Esto serializará y volverá a analizar la página completa, que será lenta y perderá cualquier información que no pueda ser serializada en HTML, como manejadores de eventos, valores de formularios y otras referencias de JavaScript.

Aquí hay un método que utiliza DOM que parece funcionar para mí:

function replaceInElement(element, find, replace) { 
    // iterate over child nodes in reverse, as replacement may increase 
    // length of child node list. 
    for (var i= element.childNodes.length; i-->0;) { 
     var child= element.childNodes[i]; 
     if (child.nodeType==1) { // ELEMENT_NODE 
      var tag= child.nodeName.toLowerCase(); 
      if (tag!='style' && tag!='script') // special case, don't touch CDATA elements 
       replaceInElement(child, find, replace); 
     } else if (child.nodeType==3) { // TEXT_NODE 
      replaceInText(child, find, replace); 
     } 
    } 
} 
function replaceInText(text, find, replace) { 
    var match; 
    var matches= []; 
    while (match= find.exec(text.data)) 
     matches.push(match); 
    for (var i= matches.length; i-->0;) { 
     match= matches[i]; 
     text.splitText(match.index); 
     text.nextSibling.splitText(match[0].length); 
     text.parentNode.replaceChild(replace(match), text.nextSibling); 
    } 
} 

// keywords to match. This *must* be a 'g'lobal regexp or it'll fail bad 
var find= /\b(keyword|whatever)\b/gi; 

// replace matched strings with wiki links 
replaceInElement(document.body, find, function(match) { 
    var link= document.createElement('a'); 
    link.href= 'http://en.wikipedia.org/wiki/'+match[0]; 
    link.appendChild(document.createTextNode(match[0])); 
    return link; 
}); 
+1

'i -> 0' Inteligente. Nunca había visto eso antes. –

+2

No puedo reclamar un crédito por eso, es un modismo para la iteración inversa en lenguajes tipo C. :-) – bobince

+0

Suelo usar simplemente 'i -', como en: 'para (var i = 100; i--;)' – kangax

Cuestiones relacionadas