¿Hay una mejor herramienta para escanear y escanear HTML que CGI para Ruby?

CGI.escapeHTML es bastante malo, pero CGI.unescapeHTML está completamente remendado. Por ejemplo:¿Hay una mejor herramienta para escanear y escanear HTML que CGI para Ruby?

require 'cgi' 

CGI.unescapeHTML('&#8230;') 
# => "…"     # correct - an ellipsis 

CGI.unescapeHTML('&hellip;') 
# => "&hellip;"    # should be "…" 

CGI.unescapeHTML('&#162;') 
# => "\242"     # correct - a cent 

CGI.unescapeHTML('&cent;') 
# => "&cent;"    # should be "\242" 

CGI.escapeHTML("…") 
# => "…"     # should be "&#8230;"

Parece que unescapeHTML sabe acerca de todos los códigos numéricos más &, <, > y ". Y escapeHTML solo conoce esos cuatro últimos, no hace ninguno de los códigos numéricos. Entiendo que, por lo general, el escapado no tiene que ser tan sólido, ya que HTML permitirá las versiones literales de la mayoría de los caracteres, excepto los cuatro que conoce CGI.escapeHTML. Pero la eliminación del vacío realmente debería ser mejor.

¿Hay alguna herramienta mejor, al menos para quitar el vacío?

Fuente

2008-12-18 James A. Rosen

No maneja — tampoco. – Chloe

La gema htmlentities debe hacer el truco:

require 'rubygems' 
require 'htmlentities' 

coder = HTMLEntities.new 

coder.decode('&#8230;') # => "…" 
coder.decode('&hellip;') # => "…" 
coder.decode('&#162;') # => "¢" 
coder.decode('&cent;') # => "¢" 
coder.encode("…", :named) # => "&hellip;" 
coder.encode("…", :decimal) # => "&#8230;"

Fuente

2008-12-20 18:17:41 titanous

require 'rubygems' 
require 'hpricot' 

Hpricot('&#8230;', :xhtml_strict => true).to_plain_text

Aunque puede que tenga que juguetear con la codificación de caracteres.

Fuente

2008-12-18 23:21:06

Usa la gema htmlentities en lugar de hpricot. –

¿Hay una mejor herramienta para escanear y escanear HTML que CGI para Ruby?

Respuesta

Cuestiones relacionadas