python-其它有用模块1

发布时间：2017-12-11 22:09:31编辑：Run阅读（4626）

re模块(正则表达式)

re模块是文件处理中必不可少的模块，它主要应用于字符串的查找，定位等等，在使用网络爬虫时，即使没有爬虫框架，re模块配合urllib.request模块也可以完成简单的爬虫功能，先来看看正则表达式，python支持的正则表达式元字符和语法

1 字符

. 点匹配任意除换行符\n外的字符，abc匹配abc

\ 转义字符，使后一个字符改变原来的意思，a\.bc匹配a.bc

[...] 字符集(字符类),对应字符集中的任意字符，第一个字符是^则取反，a[bc]d匹配abd或者acd

2 预定义字符集

\d 数字[0-9],匹配数字0-9

\D 非数字[^\d],即匹配非数字

\s 空白字符[空格\t\r\n\f\v]

\S 非空白字符[^\s]

\w 单词字符[a-zA-Z0-9]

\W 非单词字符[^\w]

3 数量词

* 匹配前一个字符0或者无限次，al*b 匹配 ab,alb,allb .....

+ 匹配前一个字符1或者无限次，al+b 匹配 alb,allb .....

? 匹配前一个字符0或1次，al?b 匹配 ab,alb

{m} 匹配前一个字符m次，al{3}b 匹配 alllb

{m,n} 匹配前一个字符m至n次，al{2,3}b 匹配 allb,alllb

4 边界匹配

^ 匹配字符串开头，如^abc 匹配以abc开头的字符串

$ 匹配字符串结尾，如xyz$ 匹配以xyz结尾的字符串

\A 仅匹配字符串开头，如\Aabc

\Z 仅匹配字符串结尾，如xyz\Z

python的re模块提供了两种不同的原始操作：match和search，match是从字符串的起点开始做匹配，而search是对字符串做任意匹配，最常用的几个re模块方法如下

re.compile(pattern,flags=0) 将字符串形式的正则表达式编译为Pattern对象

re.search(string[,pos[,endpos]]) 从string的任意位置开始匹配

re.match(string[,pos[,endpos]]) 从string的开头开始匹配

re.findall(string[,pos[,endpos]]) 从string任意位置开始匹配，返回一个列表

re.finditer(string[,pos[,endpos]]) 从string任意位置开始匹配，返回一个迭代器，一般匹配findall就可以了，大数量的匹配还是使用finditer比较好

简单的测试一下，打开IDLE执行命令

关键字：



搜索

热门推荐

最新文章

博主信息

扫我打开

友情链接

百度 淘宝 腾讯 慕课网 CSDN 博客园 51cto博客