Python学习--xml-Elemen

发布时间:2019-09-13 09:28:10编辑:auto阅读(1754)

    当你需要解析和处理 XML 的时候,Python 表现出了它 “batteries included” 的一面。 标准库 中大量可用的模块和工具足以应对 Python 或者是 XML 的新手。

    ElementTree 生来就是为了处理 XML ,它在 Python 标准库中有两种实现。一种是纯 Python 实现例如 xml.etree.ElementTree ,另外一种是速度快一点的 xml.etree.cElementTree 。

    从 Python 3.3 开始,ElementTree 模块会自动寻找可用的 C 库来加快速度。所以只需要 importxml.etree.ElementTree

    XML 是一种分级的数据形式,所以最自然的表示方法是将它表示为一棵树。ET 有两个对象来实现这个目的 - ElementTree 将整个 XML 解析为一棵树, Element 将单个结点解析为树。如果是整个文档级别的操作(比如说读,写,找到一些有趣的元素)通常用 ElementTree 。单个 XML 元素和它的子元素通常用 Element 。

    eg:

    xm.xml

    <data>
        <country name="Liechtenstein">
            <rank updated="yes">2</rank>
            <year>2023</year>
            <gdppc>141100</gdppc>
            <neighbor direction="E" name="Austria" />
            <neighbor direction="W" name="Switzerland" />
        </country>
        <country name="Singapore"></country>
    </data>

    加载并且解析这个 XML :

    from xml.etree import ElementTree as et
    tree = et.parse('xm')
    root = tree.getroot()        #获取xml文件的根节点
    print(root)
    print(root.tag)
    
    <Element 'data' at 0x00A28750>
    data
    # 遍历XML文档的第二层
    for child in root:    
        # 第二层节点的标签名称和标签属性
        print(child.tag, child.attrib)    
        # 遍历XML文档的第三层
        for i in child:        
            # 第二层节点的标签名称和内容
            print(i.tag,i.text)


    我们可以用一个简单的递归获取 XML 中的任何元素。然而,因为这个操作比较普遍,ET 提供了一些有用的工具来简化操作

    遍历所有的元素,然后检验有没有你想要的。ET 可以让这个过程更便捷。 iter 方法接受一个标签名字,然后只遍历那些有指定标签的元素:

    from xml.etree import ElementTree as ET
    ############ 解析方式一 ############
    """
    # 打开文件,读取XML内容
    str_xml = open('xo.xml', 'r').read()
    
    # 将字符串解析成xml特殊对象,root代指xml文件的根节点
    root = ET.XML(str_xml)
    """
    ############ 解析方式二 ############
    # 直接解析xml文件
    tree = ET.parse("xo.xml")
    # 获取xml文件的根节点
    root = tree.getroot()
    
    ### 操作
    
    # 顶层标签
    print(root.tag)
    
    # 遍历XML中所有的year节点
    for node in root.iter('year'):    
        # 节点的标签名称和内容
        print(node.tag, node.text)


    修改节点内容

    由于修改的节点时,均是在内存中进行,其不会影响文件中的内容。所以,如果想要修改,则需要重新将内存中的内容写到文件。

    from xml.etree import ElementTree as ET
    
    ############ 解析方式一 #############
     打开文件,读取XML内容
     str_xml = open('xm.xml', 'r').read()
     # 将字符串解析成xml特殊对象,root代指xml文件的根节点
     root = ET.XML(str_xml)
    ############ 操作 ############
    
    print(root.tag)
    # 循环所有的year节点
    for node in root.iter('year'):    
        # 将year节点中的内容自增一
        new_year = int(node.text) + 1
        node.text = str(new_year)    
        # 设置属性
        node.set('name', 'alex')
        node.set('age', '18')    
        
        # 删除属性
        del node.attrib['name']
    ############ 保存文件 ############
    tree = ET.ElementTree(root)
    tree.write("newnew.xml", encoding='utf-8')
    from xml.etree import ElementTree as ET
    
    ############ 解析方式二 ############# 
    直接解析xml文件
    tree = ET.parse("xo.xml")
    # 获取xml文件的根节点
    root = tree.getroot()
    
    ############ 操作 ############# 
    顶层标签print(root.tag)
    # 循环所有的year节点
    for node in root.iter('year'):    
        # 将year节点中的内容自增一
        new_year = int(node.text) + 1
        node.text = str(new_year)    
        # 设置属性
        node.set('name', 'alex')
        node.set('age', '18')    
        # 删除属性
        del node.attrib['name']
    
    ############ 保存文件 ############
    tree.write("newnew.xml", encoding='utf-8')


    删除节点

    # 顶层标签
    print(root.tag)
    
    # 遍历data下的所有country节点
    for country in root.findall('country'):
        # 获取每一个country节点下rank节点的内容
        rank = int(country.find('rank').text)
            if rank > 50:
                # 删除指定country节点
                root.remove(country)
                
             
    ############ 保存文件 ############
    还是前面那两种方式


    创建XML文档

    from xml.etree import ElementTree as ET
    
    # 创建根节点
    root = ET.Element("famliy")
    
    # 创建节点大儿子
    son1 = ET.Element('son', {'name': '儿1'})
    
    # 创建小儿子
    son2 = ET.Element('son', {"name": '儿2'})
    
    # 在大儿子中创建两个孙子
    grandson1 = ET.Element('grandson', {'name': '儿11'})
    grandson2 = ET.Element('grandson', {'name': '儿12'})
    son1.append(grandson1)
    son1.append(grandson2)
    
    # 把儿子添加到根节点中
    root.append(son1)
    root.append(son1)
    
    tree = ET.ElementTree(root)
    tree.write('oooo.xml',encoding='utf-8', short_empty_elements=False)

    创建方式二:

    from xml.etree import ElementTree as ET
    
    # 创建根节点
    root = ET.Element("famliy")
    
    # 创建大儿子
    son1 = root.makeelement('son', {'name': '儿1'})
    
    # 创建小儿子
    son2 = root.makeelement('son', {"name": '儿2'})
    
    # 在大儿子中创建两个孙子
    grandson1 = son1.makeelement('grandson', {'name': '儿11'})
    grandson2 = son1.makeelement('grandson', {'name': '儿12'})
    
    son1.append(grandson1)
    son1.append(grandson2)
    
    # 把儿子添加到根节点中
    root.append(son1)
    root.append(son1)
    
    tree = ET.ElementTree(root)
    tree.write('oooo.xml',encoding='utf-8', short_empty_elements=False)

    方式三:

    from xml.etree import ElementTree as ET
    
    # 创建根节点
    root = ET.Element("famliy")
    
    # 创建节点大儿子
    son1 = ET.SubElement(root, "son", attrib={'name': '儿1'})
    
    # 创建小儿子
    son2 = ET.SubElement(root, "son", attrib={"name": "儿2"})
    
    # 在大儿子中创建一个孙子
    grandson1 = ET.SubElement(son1, "age", attrib={'name': '儿11'})
    grandson1.text = '孙子'
    
    et = ET.ElementTree(root)  #生成文档对象
    et.write("test.xml", encoding="utf-8", xml_declaration=True, short_empty_elements=False)


    由于原生保存的XML时默认无缩进,如果想要设置缩进的话, 需要修改保存方式:

    from xml.etree import ElementTree as ET
    from xml.dom import minidom
    
    def prettify(elem):
        """将节点转换成字符串,并添加缩进。
        """
        rough_string = ET.tostring(elem, 'utf-8')
        reparsed = minidom.parseString(rough_string)
        return reparsed.toprettyxml(indent="\t")
        
        
        按上面方式创建文档内容
        
        
    raw_str = prettify(root)
    
    f = open("xxxoo.xml",'w',encoding='utf-8')
    f.write(raw_str)
    f.close()


关键字