python3 网页爬虫图片下载无效链

发布时间:2019-09-25 08:13:22编辑:auto阅读(1647)

    代码比较粗糙,主要是备忘容易出错的地方。供自己以后查阅。


    #图片下载

    import re

    import urllib.request    #python3中模块名和2.x(urllib)的不一样

    site='https://world.taobao.com/item/530762904536.htm?spm=a21bp.7806943.topsale_XX.4.jcjxZC'

    page=urllib.request.urlopen(site)

    html=page.read()

    html=html.decode('utf-8')    #读取下来的网页源码需要转换成utf-8格式

    reg=r'src="//(gd.*?jpg)'

    imgre=re.compile(reg)

    imglist=re.findall(imgre,html)


    trueurls=[]

    for i in imglist:

    trueurls.append(i.replace('gd','http://gd'))

    trueurls[2]='http://wlgsad.com.jpg'

    print (trueurls)


    x=200

    for j in trueurls:

    try:

    urllib.request.urlretrieve(j,'%s.jpg' %x)    

    except Exception :     #except Exception as e:

    pass        #    print (e)

                      #     print ('有无效链接')

    x=x+1


    在except子句可以打印出一些提示信息

    下载图片的时候,如果有无效的链接,可以用try except跳过无效链接继续下一个图片的下载

关键字