使用Python爬取糗事百科热门文章

发布时间:2019-09-10 09:18:46编辑:auto阅读(1695)

      默认情况下取糗事百科热门文章只有35页,每页20条,根据下面代码可以一次性输出所有的文章,也可以选择一次输出一条信息,回车继续。不支持图片内容的显示,显示内容包括作者,热度(觉得好笑的人越多,热度越高),内容。从热度最高开始显示到最低。实现代码如下:

    #!/usr/bin/python
    #coding:utf8
    """
    爬取糗事百科热门文章
    """
    
    import urllib2
    import re
    
    #模拟浏览器访问,否则无法访问
    user_agent = r"Mozilla/5.0 (Windows NT 6.1; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/59.0.3071.115 Safari/537.36"
    
    #匹配作者,内容和认为段子好笑的人数
    regex1 = re.compile(r'<h2>(.*?)</h2>.*?<div class="content">.*?<span>(.*?)</span>.*?<div class="stats">.*?<i class="number">(.*?)</i>', re.S)
    
    n = 1
    for i in range(0,35):
        
        url = "https://www.qiushibaike.com/8hr/page/%s/" %(n)
        
        request = urllib2.Request(url, headers={"User-Agent":user_agent})
        response = urllib2.urlopen(request)
        response = response.read()
        
        paragraph = regex1.findall(response)
        
        for i in paragraph:
            author = i[0]
            text = re.sub('<br/>', '\n', i[1])
            count = i[2]
            print("作者:%s" %(author))
            print("好笑:%s" %(count))
            print("内容:%s" %(text))
            print("\n")
            #注释下面三行就一次性显示所有文章
            q = raw_input("退出请输入q/Q,继教看请直接回车:")
            if q == "q" or q == "Q":
                break
        if q == "q" or q == "Q":
                break
        n += 1

    .


关键字