Python学习笔记__12.11章 H

发布时间:2019-09-11 07:45:00编辑:auto阅读(1695)

    1、概览

    HTML本质上是XML的子集,但是HTML的语法没有XML那么严格,所以不能用标准的DOM或SAX来解析HTML。

    Python提供了HTMLParser来非常方便地解析HTML。而且,HTMLParse类里的函数名是不能改的

     

    from html.parser import HTMLParser

    from html.entities import name2codepoint

     

    class MyHTMLParser(HTMLParser):

    # 处理开始标签,比如<div>;这里的attrs获取到的是属性列表,属性以元组的方式展示

    # <time datetime="2018">,tag标签是timeargs[["datetime","2018"]]

        def handle_starttag(self, tag, attrs):

            print('<%s>' % tag)

     

        def handle_endtag(self, tag): # 处理结束标签,比如</div>

            print('</%s>' % tag)

     

        def handle_startendtag(self, tag, attrs):  # 处理自己结束的标签,如<img />

            print('<%s/>' % tag)

     

        def handle_data(self, data): #处理数据,标签之间的文本

            print(data)

     

        def handle_comment(self, data): # 打印注释

            print('<!--', data, '-->')

     

        def handle_entityref(self, name): # 打印<body>中,没有被标签圈起来的内容 HTML tutorial...

            print('&%s;' % name)

     

        def handle_charref(self, name): # 打印特殊符号  --

            print('&#%s;' % name)

     

    parser = MyHTMLParser()

    # feed(str),为解释器提供文本。

    parser.feed('''<html>

    <head></head>

    <body>

    <!-- test html parser -->

        <p>Some <a href=\"#\">html</a> HTML tutorial...<br>END</p>

    </body></html>''')

    2、扩展文档

    Python爬虫常用之HtmlParser (https://www.cnblogs.com/masako/p/5868367.html)

     

    3、例子

    1、找一个网页,例如https://www.python.org/events/python-events/,用浏览器查看源码并复制,然后尝试解析一下HTML,输出Python官网发布的会议时间、名称和地点。

     

    方法一:小范围匹配

    from html.parser import HTMLParser

    from html.entities import name2codepoint

    from urllib import request

    import re

     

     

    class MyHTMLParser(HTMLParser):

        a_t1 = False # 用于匹配状态的判断

        a_t2 = False

        a_t3 = False

        def __init__(self): # 初始化实例

            HTMLParser.__init__(self)

            self.information = []

            self.information_all = {}

     

     

        def handle_starttag(self, tag, attrs): # attrs是list['list']的存储方式

            def _attr(attrlist, attrname): # 接受的参数都是 attrs,和‘class

                for attr in attrlist:  # attrs [[],[]]类的,那attr就是里面的list

                    if attr[0] == attrname: #如果匹配,返回attr[1]

                        return attr[1]

                return None

     

            if tag=="time" : # 如果条件对上了,修改匹配状态为True

                self.a_t1 = True

            elif tag=="span" and _attr(attrs, 'class')=="event-location":

                self.a_t2 = True

            elif tag=="h3" and _attr(attrs, 'class')=="event-title":

                self.a_t3 = True

     

     

        def handle_data(self, data):

            if self.a_t1 is True:

                if re.match(r'^\s\d{4}', data): # data数据

                    self.information.append(dict(year=data))

                else:

                    self.information.append(dict(day=data))

            elif self.a_t2 is True:

                self.information.append(dict(event_location=data)) 取地址数据

            elif self.a_t3 is True:

                self.information.append(dict(event_title=data)) # 取标题数据

     

     

        def handle_endtag(self, tag): # 将匹配状态重置,为后续继续检索做准备

            if tag == "time":

                self.a_t1 = False

            elif tag =="span":

                self.a_t2 = False

            elif tag == "h3":

                self.a_t3 = False

     

     

     

    def parseHTML(html_str):

        parser = MyHTMLParser()

        parser.feed(html_str) #接受HTML并解析

        for i, val in enumerate(parser.information): #enumeratelist变为索引-元素对。遍历打印value

            i +=  1

            print(val)

            if i%4==0:

     

                print('--------------------------------------------')

     

     

    URL = 'https://www.python.org/events/python-events/'

    with request.urlopen(URL, timeout=4) as f:  # 收集页面信息

        data = f.read()

     

    parseHTML(data.decode('utf-8')) #将收到的信息解码,并传给parseHTML()调用

     

    方法二:大范围匹配

    from html.parser import HTMLParser

    from urllib import request

    import re

     

    class MyHTMLParser(HTMLParser):

        flag = 0

        res = []

        is_get_data = 0

     

        def handle_starttag(self, tag, attrs):

            # 首先找到包裹事件的元素

            if tag == 'ul':

                for attr in attrs:

                    if re.match(r'list-recent-events', attr[1]):

                        self.flag = 1

     

            # 处理包裹事件名称的a元素

            if tag == 'a' and self.flag == 1:

                self.is_get_data = 'title'

     

            # 处理时间的time元素

            if tag == 'time' and self.flag == 1:

                self.is_get_data = 'time'

     

            # 处理包裹地点的time元素

            if tag == 'span' and self.flag == 1:

                self.is_get_data = 'addr'

     

        def handle_endtag(self, tag):

            if self.flag == 1 and tag == 'ul':

                self.flag = 0

     

        def handle_data(self, data):

            if self.is_get_data and self.flag == 1:

                if self.is_get_data == 'title':

                    #获得title,即会议名时,给res添加一个新dict:res 由[] 变为 [{'title':'PyCascades 2018'}],此时len(self.res)==1

                    self.res.append({self.is_get_data: data})

                else:

                # 获得addr,time这样的其它属性时,相当于res[0][time]=data。

                # 这是将time=data键值对加到了此前的那个字典里,现在len(self.res)依然==1

                    self.res[len(self.res) - 1][self.is_get_data] = data

                self.is_get_data = None

     

     

    parser = MyHTMLParser()

     

    with request.urlopen('https://www.python.org/events/python-events/') as f:

        data = f.read().decode('utf-8')

     

    parser.feed(data)

    for item in MyHTMLParser.res:

        print('---------------')

        for k,v in item.items():

            print("%s : %s" % (k,v))

     


关键字