python之re模块

发布时间:2019-03-08 20:26:29编辑:auto阅读(1820)

    python 中使用正则表达式需要引入re模块,用来匹配处理字符串 

    如:

    import re #第一步,要引入re模块

    a = re.findall("匹配规则", "要匹配的字符串") #第二步,调用模块函数

    以列表形式返回匹配到的字符串

    1、普通字符和11个元字符:

     

    普通字符
    匹配自身
    abc
    abc
    .
    匹配任意除换行符"\n"外的字符(在DOTALL模式中也能匹配换行符
    a.c
    abc
    \
    转义字符,使后一个字符改变原来的意思
    a\.c;a\\c
    a.c;a\c
    *
    匹配前一个字符0或多次
    abc*
    ab;abccc
    +
    匹配前一个字符1次或无限次
    abc+
    abc;abccc
    ?
    匹配一个字符0次或1次
    abc?
    ab;abc
    ^
    匹配字符串开头。在多行模式中匹配每一行的开头 ^abc
    abc
    $
    匹配字符串末尾,在多行模式中匹配每一行的末尾 abc$
    abc
    | 或。匹配|左右表达式任意一个,从左到右匹配,如果|没有包括在()中,则它的范围是整个正则表达式
    abc|def
    abc
    def
    {} {m}匹配前一个字符m次,{m,n}匹配前一个字符m至n次,若省略n,则匹配m至无限次
    ab{1,2}c
    abc
    abbc
    []
    字符集。对应的位置可以是字符集中任意字符。字符集中的字符可以逐个列出,也可以给出范围,如[abc]或[a-c]。[^abc]表示取反,即非abc。
    所有特殊字符在字符集中都失去其原有的特殊含义。用\反斜杠转义恢复特殊字符的特殊含义。
    a[bcd]e
    abe
    ace
    ade
     
    ()
    被括起来的表达式将作为分组,从表达式左边开始没遇到一个分组的左括号“(”,编号+1.
    分组表达式作为一个整体,可以后接数量词。表达式中的|仅在该组中有效。
    (abc){2}
    a(123|456)c
    abcabc
    a456c

     

    2、预定义字符集(可以写在字符集[...]中) 

     

    \d
    数字:[0-9]
    a\bc
    a1c
    \D
    非数字:[^\d]
    a\Dc
    abc
    \s
    匹配任何空白字符:[<空格>\t\r\n\f\v]
    a\sc
    a c
    \S 非空白字符:[^\s]
    a\Sc
    abc
    \w
    匹配包括下划线在内的任何字字符:[A-Za-z0-9_]
    a\wc
    abc
    \W
    匹配非字母字符,即匹配特殊字符
    a\Wc
    a c
    \A
    仅匹配字符串开头,同^ \Aabc
    abc
    \Z
    仅匹配字符串结尾,同$
    abc\Z
    abc
    \b
    匹配\w和\W之间,即匹配单词边界匹配一个单词边界,也就是指单词和空格间的位置。例如, 'er\b' 可以匹配"never" 中的 'er',但不能匹配 "verb" 中的 'er'。 \babc\b
    a\b!bc
    空格abc空格
    a!bc
    \B
    [^\b]
    a\Bbc
    abc

    模块函数:

    1、compile()

    编译正则表达式字符串,返回一个对象。该对象可以直接以  .  的方式访问模块函数

    格式:

    re.compile(pattern,flags=0)

    pattern: 编译时用的表达式字符串。

    flags 编译标志位,用于修改正则表达式的匹配方式,如:是否区分大小写,多行匹配等。

    2、match()

    从字符串头部开始匹配。//注:这个方法并不是完全匹配。当pattern结束时若string还有剩余字符,仍然视为成功。想要完全匹配,可以在表达式末尾加上边界匹配符'$'

    格式:

    re.match(pattern, string, flags=0)

    3、search()

     格式:

    re.search(pattern, string, flags=0)

    re.search函数会在字符串内查找模式匹配,只要找到第一个匹配然后返回,如果字符串没有匹配,则返回None。

    4、findall()

    re.findall遍历匹配,获取字符串中所有匹配的子串,返回一个列表。

     格式:

    re.findall(pattern, string, flags=0)

关键字