python实现简单爬虫--爬图片

发布时间:2019-09-01 09:51:46编辑:auto阅读(1577)

    首先有两个功能需求:

    第一:获取到要爬的页面html内容;

    第二:使用正则表达式进行匹配并进行保存到本地。

    #!/usr/bin/env python
    #encoding:utf-8
    import urllib
    import re
    def getHtml(url):
        '''获取到url的html内容'''
        page = urllib.urlopen(url)
        html = page.read()
        return html
    html1 = getHtml('http://p_w_picpath.baidu.com/search/index?tn=baidup_w_picpath&ct=201326592&lm=-1&cl=2&ie=gbk&word=%C3%C0%C5%AE&ala=1&fr=ala&alatpl=cover&pos=0')
    # print html1
    # print re.findall(r'"objURL":"(.+?\.jpg)"',html1)
    def downloadImg(html1):
        '''下载页面里的jpg图片'''
        reg = r'"objURL":"(.+?\.jpg)"'
        #预编译正则表达式提高运行速度
        imgreg = re.compile(reg)
        urllist = re.findall(imgreg,html1)
        num = 0
        #for循环遍历下载每个图片
        for i in urllist:
            urllib.urlretrieve(i,'%s.jpg' % num)
            num+=1
    downloadImg(html1)


关键字