eliminar comentarios del código fuente html

Sé cómo obtener el código fuente html a través de cUrl, pero quiero eliminar los comentarios en el documento html (me refiero a lo que está entre ). Además, si puedo tomar solo el BODY del documento html. gracias.eliminar comentarios del código fuente html

Fuente

2011-06-10 Luis

debe volver a analizarlos manualmente ... Tengo mi propia biblioteca de JavaScript para eso, pero no sé cómo podría implementar eso en PHP – metaforce

no hay una opción de cUrl para esto? – Luis

No lo creo así ... – metaforce

Trate PHP DOM*:

$html = '<html><body><!--a comment--><div>some content</div></body></html>'; // put your cURL result here 

$dom = new DOMDocument; 
$dom->loadHtml($html); 

$xpath = new DOMXPath($dom); 
foreach ($xpath->query('//comment()') as $comment) { 
    $comment->parentNode->removeChild($comment); 
} 

$body = $xpath->query('//body')->item(0); 
$newHtml = $body instanceof DOMNode ? $dom->saveXml($body) : 'something failed'; 

var_dump($newHtml);

Salida:

string(36) "<body><div>some content</div></body>"

Fuente

2011-06-10 11:35:49 Yoshi

Mira que está funcionando bien, nunca he hablado sobre DOM. gracias. – Luis

Si no hay opción para esto en rizo (y sospecho que no es, pero me he equivocado antes), entonces usted puede por lo menos analizar el HTML resultante al contenido de su corazón con un PHP DOM parser.

Probablemente esta sea su mejor apuesta a largo plazo en términos de capacidad de configuración y soporte.

Fuente

2011-06-10 11:30:56 David

Correcto, no hay tal opción en el curl. Simplemente obtiene los datos cuando el servidor los envía. –

lo haría tubería a sed de una expresión regular, algo así como

curl http://yoururl.com/test.html | sed -i "s/<!\-\-\s?\w+\s?\-\->//g" | sed "s/.?(<body>.?</body>).?/\1/"

Las expresiones regulares pueden no ser exactos, pero usted consigue la idea ...

Fuente

2011-06-10 11:32:02

eliminar comentarios del código fuente html

Respuesta

Cuestiones relacionadas