Cómo eliminar etiquetas XML de la línea de comandos de Unix?

estoy grepping un archivo XML, lo que me da salida como esta:Cómo eliminar etiquetas XML de la línea de comandos de Unix?

<tag>data</tag> 
<tag>more data</tag> 
...

Nota, este es un archivo plano, no un árbol XML. Quiero eliminar las etiquetas XML y simplemente mostrar los datos en el medio. Estoy haciendo todo esto desde la línea de comandos y me preguntaba si hay una manera mejor que las tuberías en awk dos veces ...

cat file.xml | awk -F'>' '{print $2}' | awk -F'<' '{print $1}'

Idealmente, me gustaría hacer esto en un comando

Fuente

2011-03-21 Tarski

* "Estoy grepping un archivo XML" * - * "se trata de un archivo plano, no un árbol XML" * - Ahora, ¿el archivo está bien formado XML o no? – Tomalak

Quizás debería haber sido un poco más claro: es un archivo XML bien formado, pero una vez que lo he canalizado a través de grep ya no es una estructura de árbol XML, es esencialmente un archivo plano. – Tarski

Ahh, ahora tiene sentido para mí.De todos modos, he aceptado porque la versión * clean * sería pasar este archivo XML a través de XSLT, en lugar de a través de grep/sed. Escribiría una respuesta XSLT pero parece que has elegido tu veneno. :-) – Tomalak

Si el archivo se parece a eso, entonces sed puede ayudarle a:

sed -e 's/<[^>]*>//g' file.xml

Por supuesto you should not use regular expressions for parsing XML because it's hard.

Fuente

2011-03-21 10:01:14 Johnsyweb

Gracias. Edite para agregar el cierre 'después de la g – Tarski

Editado. De nada. – Johnsyweb

comando útil para limpiar etiquetas en html-gracias! – p1nesap

Utilizando awk:

awk '{gsub(/<[^>]*>/,"")};1' file.xml

Fuente

2011-03-21 10:20:23 dogbane

Al probar la página html, los resultados parecen idénticos a sed (arriba). ¡Gracias por publicar el método awk! – p1nesap

seguirlo:

grep -Po '<.*?>\K.*?(?=<.*?>)' inputfile

Explicación:

Utilizando Perl expresiones Compatible Regular (-P) y la salida sólo los partidos especificados (-o):

<.*?> - Partido no codicioso de cualquier carácter dentro de paréntesis angulares
\K - No incluya el partido anterior en la salida (RESET START partido - similar a la mirada positiva detrás, pero funciona con longitud variable coincide)
.*? - no codicioso partido parando en el próximo partido (esta parte será de salida)
(?=<.*?>) - partido no codicioso de los personajes dentro de paréntesis angulares, y no incluyen el partido en la salida (Look-positivo adelante - funciona con coincidencias de longitud variable)

Fuente

2011-03-22 01:54:58

Funcionará solo en Linux, ya que en OSX se ha eliminado el indicador '-P'. – kenorb

@kenorb: tenga en cuenta que las utilidades de GNU están disponibles para OS X. Utilizando [Homebrew] (http://brew.sh/), por ejemplo. –

Utilice la herramienta de línea de comandos html2text, que convierte html en texto sin formato.

Alternativamente, usted puede tratar ex-way:

ex -s +'%s/<[^>].\{-}>//ge' +%p +q! file.txt

cat file.txt | ex -s +'%s/<[^>].\{-}>//ge' +%p +q! /dev/stdin

Fuente

2015-05-04 22:07:29 kenorb

Sé que esto no es un "concurso perlgolf", pero solía utilizar este truco.

Conjunto separador de registros de < o >, a continuación, imprimir sólo las líneas impares:

awk -vRS='<|>' NR%2 file.xml

Fuente

2015-06-01 18:48:06 SielaQ

Cómo eliminar etiquetas XML de la línea de comandos de Unix?

Respuesta

Cuestiones relacionadas