Selenium&Pytesseract模拟登录+验证码识别

发布时间:2018-08-21 20:14:09编辑:Run阅读(4641)

    验证码是爬虫需要解决的问题,因为很多网站的数据是需要登录成功后才可以获取的.

    验证码识别,即图片识别,很多人都有误区,觉得这是爬虫方面的知识,其实是不对的.

    验证码识别涉及到的知识:人工智能,模式识别,机器视觉,图像处理.

    主要流程:

    1 图像采集:就直接通过HTTP抓HTML,然后分析出图片的url,然后下载保存就可以了

    2 预处理:   检测是正确的图像格式,转换到合适的格式,压缩,剪切出ROI,去除噪音,灰度化,转换色彩空间这些

    3 检测:       验证码识别呢,主要是找出文字所在的主要区域

    4 前处理:   验证码识别,“一般”要做文字的切割

    5 训练:       通过各种模式识别,机器学习算法,来挑选和训练合适数量的训练集

    6 识别:       输入待识别的处理后的图片,转换成分类器需要的输入格式,然后通过输出的类和置信度,来判断大概可能是 哪个字母


    Pytesseract--验证码识别

    1  简介

    Python-tesseract是一款用于光学字符识别(OCR)的python工具,即从图片中识别出其中嵌入的文字。Python-tesseract是对Google Tesseract-OCR的一层封装。它也同时可以单独作为对tesseract引擎的调用脚本,支持使用PIL库(Python Imaging Library)读取的各种图片文件类型,包括jpeg、png、gif、bmp、tiff和其他格式,。作为脚本使用它将打印出识别出的文字而非写入到文件。所以安装pytesseract前要先安装PIL和tesseract-orc这俩依赖库


    2 安装

    PIL安装  Python平台的图像处理标准库

    pip3 install pillow


    pytesseract安装,文字识别库

    pip3 install pytesseract


    tesseract-ocr安装,识别引擎

    windows:

    https://digi.bib.uni-mannheim.de/tesseract/

    下载

    tesseract-ocr-setup-3.05.02 或者 tesseract-ocr-setup-4.0.0-alpha

    linux:

    github上面下载对应版本

    https://github.com/tesseract-ocr/tesseract


    遇到问题及解决:

    pytesseract.pytesseract.TesseractNotFoundError: tesseract is not installed or it's not in your path


    解决方法:(我是win环境)

    找到tesseract-ocr安装目录,复制路径如:  C:\Program Files (x86)\Tesseract-OCR\tesseract.exe

    找到pytesseract.py文件,修改tesseract_cmd的路径,如下:

    blob.png


    环境安装完后,分析目标网站:

    华中科技大学  http://www.hust-snde.com/cms/

    需求,每天登陆一次保持活跃度

    可以看到这个登陆是需要输入验证码的

    blob.png


    下面将利用Selenium&Pytesseract模拟登陆+验证码识别

    完整代码如下:

    #!/usr/bin/env python
    # coding: utf-8
    
    import time
    from selenium import webdriver
    from PIL import Image
    import pytesseract
    
    
    class LoginSchool(object):
        def __init__(self, username, password, url):
            self.username = username
            self.password = password
            self.url = url
            self.browser = self.getbrowser()
            self.login_school(self.browser)
    
        def getbrowser(self):
            chrome_options = webdriver.ChromeOptions()
            # 去除警告
            chrome_options.add_argument('disable-infobars')
            # 无头模式
            # chrome_options.set_headless()
            browser = webdriver.Chrome(options=chrome_options,
                                       executable_path=r'D:\chromedriver_2.41\chromedriver.exe')
            return browser
    
        def login_school(self, browser):
            browser.get(self.url)
            time.sleep(3)
            # 打开目标网站,并截取完整的图片
            browser.get_screenshot_as_file('login.png')
            # 找到输入账号的input,并输入账号
            browser.find_element_by_id("loginId").send_keys(self.username)
            # 找到输入密码的input,并输入密码
            browser.find_element_by_id("passwd").send_keys(self.password)
            # 找到验证码img标签,切图
            img_code = browser.find_element_by_xpath("//div[@class='logif']//img[@id='imgCode']")
            time.sleep(3)
            # 算出验证码的四个点,即验证码四个角的坐标地址
            left = img_code.location['x']
            top = img_code.location['y']
            right = img_code.location['x'] + img_code.size['width']
            bottom = img_code.location['y'] + img_code.size['height']
            print("验证码坐标::", left, top, right, bottom)
            # 利用python的PIL图片处理库,利用坐标,切出验证码的图
            im = Image.open('login.png')
            im = im.crop((left, top, right, bottom))
            im.save('code.png')
            # 调用图片识别的函数,得到验证码
            code = self.img_to_str()
            # 找到验证码的input,并输入验证码
            browser.find_element_by_id("authCode").send_keys(code)
            # 点击登录按钮
            browser.find_element_by_xpath("//div[@class='loga']/a[text()=' 登 录']").click()
            time.sleep(2)
            try:
                msg = browser.find_element_by_xpath("//div[@class='user_name']").text
                if msg:
                    print('登陆成功')
                    print(msg)
            except Exception as e:
                print('登陆失败:{}'.format(e))
            finally:
                time.sleep(1)
                browser.quit()
    
        def img_to_str(self):
            # 打开切出的验证码code.png
            img = Image.open('code.png')
            # 利用pytesseract识别出验证码
            # -psm 8 为识别模式
            # -c tessedit_char_whitelist=1234567890  的意思是 识别纯数字(0-9)
            code = pytesseract.image_to_string(img, config='-psm 8 -c tessedit_char_whitelist=1234567890')
            print('验证码识别:{}'.format(code))
            return code
    
    
    if __name__ == '__main__':
        username = '账号'
        password = '密码'
        url = 'http://www.hust-snde.com/center\
        /left_hydl.jsp?url=www.hust-snde.com:80/sso/login_centerLogin.action'
        st = LoginSchool(username=username, password=password, url=url)


    运行程序:

    blob.png


    当前目录下会生成两个图片文件

    login.png 为登陆时的截图

    blob.png


    code.png是从上面login.png中切出来的验证码图片


    blob.png


    pytesseract识别简单的验证码成功率还行,如果验证码有干扰线,噪点之类的就需要对验证码图片进行去除噪音,灰度化,转换色彩空间这些处理.

    如果验证码有字体样式,或者比较复杂,就需要训练,来提高识别的成功率.

关键字