python中urllib的整理

发布时间：2019-03-16 22:30:22编辑：auto阅读（2216）

本不想使用这个玩意，奈何看到很多地方使用，随手整理下

urllib模块提供的urlretrieve()函数，urlretrieve()方法直接将远程数据下载到本地

urlretrieve(url, filename=None, reporthook=None, data=None)。

参数filename指定了保存本地路径（如果参数未指定，urllib会生成一个临时文件保存数据。）
参数reporthook是一个回调函数，当连接上服务器、以及相应的数据块传输完毕时会触发该回调，我们可以利用这个回调函数来显示当前的下载进度
参数data指post导服务器的数据，该方法返回一个包含两个元素的(filename, headers) 元组，filename 表示保存到本地的路径，header表示服务器的响应头

urlopen一般常用的有三个参数：

urllib.requeset.urlopen(url,data,timeout)

url: 需要打开的网址

data：Post提交的数据

timeout：设置网站的访问超时时间

urlopen返回对象提供一些基本方法（快速请求)

read() ：返回文本数据

readline()：返回一行

info()：表示远程服务器返回的头信息。

getcode()：返回Http状态码，如果是http请求，200表示请求成功完成;404表示网址未找到。

geturl()：返回请求的url。

直接用urllib.request模块的urlopen（）获取页面，req的数据格式为bytes类型，需要decode（）解码，转换成str类型

import urllib.request
import re
url = 'http://tieba.baidu.com/p/2460150866'
req=urllib.request.urlopen(url).read().decode()
r=re.findall(r'src="(.*?\.jpg)" pic_ext',req)
x=0
for i in r:
    local='F://python/'
    urllib.request.urlretrieve(i,local+ '%s.jpg' % x)
    x=x+1

浏览器的模拟（需要添加headers头信息，urlopen不支持，需要使用Request）

import urllib.request

url='http://www.baidu.com'

header={'User-Agent': 'Mozilla/5.0 (Windows NT 6.1; WOW64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/58.0.3029.96 Safari/537.36'}

request=urllib.request.Request(url,headers=header)

response=urllib.request.urlopen(request).read()

f=open('file1','wb')

f.write(response)

f.close()

关键字：

上一篇： Python 学习第三部分函数——第一章

下一篇： python爬虫基础



搜索

热门推荐

最新文章

Python搭建一个RAG系统(分片/检索/召回/重排序/生成)
 2036°
Browser-use:智能浏览器自动化(Web-Agent)
 2745°
使用 LangChain 实现本地 Agent
 2293°
使用 LangChain 构建本地 RAG 应用
 2227°
使用LLaMA-Factory微调大模型的function calling能力
 2705°
复现一个简单Agent系统
 2249°
LLaMA Factory-Lora微调实现声控语音多轮问答对话-1
 3000°
LLaMA Factory微调后的模型合并导出和部署-4
 4940°
LLaMA Factory微调模型的各种参数怎么设置-3
 4794°
LLaMA Factory构建高质量数据集-2
 3412°

博主信息

姓名：Run
职业：谜
邮箱：383697894@qq.com
定位：上海 · 松江

扫我打开

友情链接

百度 淘宝 腾讯 慕课网 CSDN 博客园 51cto博客