Python3 urllib.parse

发布时间:2019-09-26 07:28:38编辑:auto阅读(1777)

    1、获取url参数。

    >>> from urllib import parse
    >>> url = r'https://docs.python.org/3.5/search.html?q=parse&check_keywords=yes&area=default'
    >>> parseResult = parse.urlparse(url)
    >>> parseResult
    ParseResult(scheme='https', netloc='docs.python.org', path='/3.5/search.html', params='', query='q=parse&check_keywords=yes&area=default', fragment='')
    >>> param_dict = parse.parse_qs(parseResult.query)
    >>> param_dict
    {'q': ['parse'], 'check_keywords': ['yes'], 'area': ['default']}
    >>> q = param_dict['q'][0]
    >>> q
    'parse'
    #注意:加号会被解码,可能有时并不是我们想要的
    >>> parse.parse_qs('proxy=183.222.102.178:8080&task=XXXXX|5-3+2')
    {'proxy': ['183.222.102.178:8080'], 'task': ['XXXXX|5-3 2']}


    2、parse_qs/parse_qsl

    >>> from urllib import parse
    >>> parse.parse_qs('action=addblog&job=modify&tid=1766670')
    {'tid': ['1766670'], 'action': ['addblog'], 'job': ['modify']} #注意和第三个并不一样
    >>> parse.parse_qsl('action=addblog&job=modify&tid=1766670')
    [('action', 'addblog'), ('job', 'modify'), ('tid', '1766670')]
    >>> dict(parse.parse_qsl('action=addblog&job=modify&tid=1766670')) #注意和第一个并不一样
    {'tid': '1766670', 'action': 'addblog', 'job': 'modify'}

    3、urlencode

    >>> from urllib import parse
    >>> query = {
    	'name': 'walker',
    	'age': 99,
    	}
    >>> parse.urlencode(query)
    'name=walker&age=99'

    4、quote/quote_plus

    >>> from urllib import parse
    >>> parse.quote('a&b/c')    #未编码斜线
    'a%26b/c'
    >>> parse.quote_plus('a&b/c')    #编码了斜线
    'a%26b%2Fc'

    5、unquote/unquote_plus

    from urllib import parse
    >>> parse.unquote('1+2')    #不解码加号
    '1+2'
    >>> parse.unquote('1+2')    #把加号解码为空格
    '1 2'

      如果你还想问为什么没有urldecode——再把示例1看五遍。^_^

    6、域名编码避免敏感词屏蔽。

    >>> ''.join('%' + ('%x'%ord(ch)).upper() for ch in 'github.com')
    '%67%69%74%68%75%62%2E%63%6F%6D'


    相关阅读:

    1、urllib.parse — Parse URLs into components

    2、Binary-to-text encoding (各种base编码。base58、base64等)

    3、Requests:为人类设计的HTTP库


    *** walker ***


关键字