爬虫养成记 - 网络下载器urllib

发布时间:2019-10-08 20:14:58编辑:auto阅读(1909)

    申明:本系列文章借鉴了慕课网的课程,http://www.imooc.com/learn/563。慕课网是一个非常赞的学习网站。

    urllib2是python2.x下的一个模块,在Python3.x中,urllib2被拆分成urllib.request和urllib.error.

    实现一个最简单的下载器

    使用urllib2.urlopen(url)函数可以给服务器发送一个请求。
    该函数返回一个file-like object. 该返回的对象有三个额外的函数:

    • geturl() 取得服务器返回的url。一般用来判断是否需要重定向。

    • info() 获取页面的meta信息

    • getcode() 获取响应的http状态码

    例如我们写了一小段程序

    import urllib2
    
    response = urllib2.urlopen("http://www.baidu.com")
    print response.getcode()
    print response.info()

    用来下载百度首页的内容。

    构造一个request对象

    urllib2.urlopen()函数不仅仅能接收一个url字符串,还能接收一个request对象。
    我们可以在Request对象中添加数据和header。

    设置请求头

    import urllib2
    
    request = urllib2.Request('https://www.zhihu.com/question/28593608/answer/141936198')
    request.add_header('User-Agent', 'Mozilla/5.0')
    
    response = urllib2.urlopen(request)
    print response.read()

    Post请求方法和在请求中添加数据

    上面的代码是一个爬取知乎某一个回答的代码。我们可以看到,我们并没有在request中添加data。
    urllib2 默认没有data的,请求方式为GET。
    urllib2 如果添加了data,那么请求方式为POST。
    例如:

    import urllib
    
    values = {
        "name": "charlie",
        "age": 20,
        "gender": "male"
    }
    
    data = urllib.urlencode(values)
    
    request.add_data(data)

    我们使用POST方式提交数据的时候,我们需要创建一个字典型数据,并且用urllib.urlencode()函数将器编码成字符串,并用Request.add_data()函数添加到request中。

    cookie、https、Proxy、HttpRedirect

    实际情况中,往往比上面的更加复杂,例如很多网站会设置cookie、可以会使用https加密传输,可能会设置代理,会有重定向等。
    如何要处理上面这些特殊的情境,那么我们则需要添加特殊的处理器。

    • HTTPCookieProcessor

    • ProxyHandler

    • HTTPHandler

    • HTTPRedirectHandler

    构造好上述对象后,需要运用urllib2.build_opener()创建一个opener.
    然后将opener安装到urllib2中: urllib2.install_opener(opener)。
    例如:

    import urllib2
    import cookielib
    
    cookie_jar = cookielib.CookieJar()
    cookie_processor = urllib2.HTTPCookieProcessor(cookiejar=cookie_jar)
    opener = urllib2.build_opener(cookie_processor)
    urllib2.install_opener(opener)
    
    response = urllib2.urlopen("http://www.baidu.com")
    for item in cookie_jar:
        print item.name, item.value

    如上述代码所示,我们先新建了一个CookieJar。CookieJar是一个内存中保存cookie的对象。
    然后我们构造一个cookie的处理器——HTTPCookieProcessor。
    然后我们在根据cookie处理器构造一个opener。

    opener的概念

    opener我们可以理解成打开网页获取response的东西。默认的opener只能接收url、data或resquest等的一个opener。
    如果我们想要获得更加多的功能,那么我们就需要构造一个有HttpCookieProcessor的opener。

    更多关于urllib2的opener概念,可以阅读一篇非常棒的文章:http://cuiqingcai.com/968.html

关键字