网络异步请求之gevent

发布时间:2019-10-15 09:04:54编辑:auto阅读(1794)

    我们知道对于网络请求这种IO bound的场景来说,最怕的就是某个请求阻塞了其余的操作,让并发性大大降低。今天就来介绍一款python下的并发库-gevent

    首先看一下他自己的介绍:

    gevent是一个基于libev的并发库。它为各种并发和网络相关的任务提供了整洁的API。

    嗯,确实很简洁,很易使用。待会我们就见识到了。

    同步IO

    首先我们来看看传统的IO请求。
    比如我们请求:http://httpbin.org/ip 发个http get请求会得到我们的ip地址,如:

    {
      "origin": "183.240.202.14"
    }

    我们来写个脚本连续发50个get请求到这个地址,以模拟多个请求。(脚本命名为get.py)

    import requests
    
    url = 'http://httpbin.org/ip'
    
    for i in range(50):
        print("{}: {}".format(i, requests.get(url).text))
    

    统计一下运行时间:

    $ time python3 get.py
    
    (输出略...)
    python3 get.py  0.56s user 0.06s system 1% cpu 35.606 total

    大概花费35s钟,当然不同网络环境可能结果不同。而且打印出来的结果是按照1, 2, 3...50这样的顺序来的,说明整个请求是同步的,一个请求结束再发下一个请求。

    使用gevent

    我们再来写一个gevent版的get.py,命名为gevent_get.py

    import requests
    import gevent
    import gevent.monkey
    # 这里将socket变成异步
    gevent.monkey.patch_socket()
    
    url = 'http://httpbin.org/ip'
    
    
    def hello(i):
        print("{}: {}".format(i, requests.get(url).text))
    
    
    tasks = [gevent.spawn(hello, i) for i in range(50)]
    gevent.joinall(tasks)
    

    再来看看运行时间:

    $ time python3 gevent_get.py
    
    (输出略...)
    python3 gevent_get.py  0.49s user 0.06s system 39% cpu 1.403 total

    我的天!才1.4秒左右,而且打印出来的结果没有按照1, 2, 3...50这样排列,而是按照随机顺序排列的,说明整个请求是异步非阻塞的。

    结论

    我又多试了几次,gevent的效率确实牛,远远高于同步io请求。最近在我的一个爬虫小项目里面用进程池 + gevent,爬取80个页面,大概花费40s左右,每个页面只要0.5s,而且还包括DOM解析的时间,而用同步请求则花费大概300s左右。

    gevent的更多用法请参考其官方文档。这么简单又好用的库赶紧试试吧。^_^

关键字

上一篇: 编译VIM

下一篇: Ubuntu Apache下部署Dja