No hay ninguna garantía con esto (como a continuación), pero traté de hacer mi solución ligera porque el purificador html (http://htmlpurifier.org) es muy grande para mi pequeño objetivo. Mi objetivo es la prevención de XSS y nada más que el resultado de los intentos de XSS será un montón de cosas sucias para este código, pero creo que va a ser seguro:
<?
//href="javascript:
//style="....expression
//style="....behavior
//<script
//on*="
$str = '
asd
<a STyLE="asd; expression" hRef=" javascript:" onx="asd">asd</a>
asd
<code><a href="javascript:">asd</a></code>
<scr<script></script>ipt ... >asd</script>
<a style="hey:good boy;" href="javascript:">asd</a>';
function stripteaser($str, $StripHTMLTags = true, $AllowableTags = NULL) {
$str = explode('<code>', $str);
$codes = array();
if (count($str) > 1) {
foreach ($str as $idx => $val) {
$val = explode('</code>', $val);
if (count($val) > 1) {
$uid = md5(uniqid(mt_rand(), true));
$codes[$uid] = htmlentities(array_shift($val), ENT_QUOTES, 'UTF-8');
$str[$idx] = "##$uid##" . implode('', $val);
}
}
}
$str = implode('', $str);
while (stripos($str, '<script') !== false) {
$str = str_ireplace('<script', '<script', $str);
}
$rptjob = function(&$str, $regexp) {
while (preg_match($regexp, $str, $matches)) {
$str = str_ireplace($matches[0], htmlentities($matches[0], ENT_QUOTES, 'UTF-8'), $str);
}
};
$rptjob($str, '/href[\s\n\t]*=[\s\n\t]*[\"\'][\s\n\t]*(javascript:|data:)/i'); //href = "javascript:
$rptjob($str, '/style[\s\n\t]*=[\s\n\t]*[\"][^\"]*expression/i'); //style = "...expression
$rptjob($str, '/style[\s\n\t]*=[\s\n\t]*[\'][^\']*expression/i'); //style = '...expression
$rptjob($str, '/style[\s\n\t]*=[\s\n\t]*[\"][^\"]*behavior/i'); //style = "...behavior
$rptjob($str, '/style[\s\n\t]*=[\s\n\t]*[\'][^\']*behavior/i'); //style = '...behavior
$rptjob($str, '/on\w+[\s\n\t]*=[\s\n\t]*[\"\']/i'); //onasd = "
if ($StripHTMLTags)
$str = strip_tags($str, $AllowableTags);
foreach ($codes as $idx => $code) {
$str = str_replace("##$idx##", $code, $str);
}
return $str;
}
echo stripteaser($str);
exit;
?>
: D código sucio para esta luna en a casa y ... Sin embargo, no es un buen trabajo (muchas de las condiciones toman un poco de tiempo de CPU) pero es mejor que otro gran componente como el purificador html para mi pequeña meta.
resultado será:
asd
<a STyLE="asd; expression" hRef=" javascript:" onx="asd">asd</a>
asd
<a href="javascript:">asd</a>
<scri<script></script>pt ... >asd</script>
<a style="hey:good boy;" href="javascript:">asd</a>
no tengo experiencia con las expresiones CSS, pero lo que sé sobre el comportamiento de uso de JS VML en Internet Explorer para esquinas curvas por lo que puede ser peligroso. Y FINALMENTE NO HAY NINGUNA GARANTÍA.
espero que pueda ser útil para algún amigo ;)
Puede hacerlo en PHP de la misma manera que lo haría en cualquier otro idioma. Y no puedes usar una expresión regular para eso. – AndreKR