2012-08-07 12 views
7

Me gustaría analizar un enorme xml (> 200MB) usando lxml.etree en Python. He intentado utilizar etree.parse para cargar el archivo XML, pero esto no funciona debido al tamaño de archivo:Usando python lxml.etree para archivos XML de gran tamaño

etree.parse('file.xml')Traceback (most recent call last): 
File "<stdin>", line 1, in <module> 
    File "lxml.etree.pyx", line 2706, in lxml.etree.parse (src/lxml/lxml.etree.c:49958) 
    File "parser.pxi", line 1500, in lxml.etree._parseDocument (src/lxml/lxml.etree.c:71797) 
    File "parser.pxi", line 1529, in lxml.etree._parseDocumentFromURL (src/lxml/lxml.etree.c:72080) 
    File "parser.pxi", line 1429, in lxml.etree._parseDocFromFile (src/lxml/lxml.etree.c:71175) 
    File "parser.pxi", line 975, in lxml.etree._BaseParser._parseDocFromFile (src/lxml/lxml.etree.c:68173) 
    File "parser.pxi", line 539, in lxml.etree._ParserContext._handleParseResultDoc (src/lxml/lxml.etree.c:64257) 
    File "parser.pxi", line 625, in lxml.etree._handleParseResult (src/lxml/lxml.etree.c:65178) 
    File "parser.pxi", line 565, in lxml.etree._raiseParseError (src/lxml/lxml.etree.c:64521) 
lxml.etree.XMLSyntaxError: Excessive depth in document: 256 use XML_PARSE_HUGE option, line 1276, column 7 

Como quiero utilizar expresiones XPath, que tienen que analizar el archivo primero. ¿Cómo puedo analizar el archivo XML? ¿Cómo uso XML_PARSE_HUGE en conexión con lxml.etree?

Gracias!

Respuesta

15

intenta crear una costumbre XMLParser ejemplo:

from lxml.etree import XMLParser, parse 
p = XMLParser(huge_tree=True) 
tree = parse('file.xml', parser=p) 
+0

funciona bien. gracias. – scdev

+0

Si encuentra este error: "python XMLSyntaxError: error interno: búsqueda de entrada enorme", ¡esta solución también funciona! – ospider

Cuestiones relacionadas