Windows系统中Python实现每

发布时间:2019-09-30 07:19:47编辑:auto阅读(2245)

    之前说要每周写的。。然后最近忙着毕业就一直没动。>.<感觉月更都困难了。

    问题描述

    在每天比如10点到11点之间定时自动登陆网站,签到

    实现思路

    1. 使用fiddler抓包工具先登陆一遍,把请求的地址,header等信息都拿到。

    2. 使用python写一个脚本,模拟浏览器向服务器发送登陆,签到请求

    3. 使用批处理bat来写几句话,随机在一小时内运行python脚本

    4. 使用Windows自带的计划任务,定时每日10点运行bat脚本

    另外,之前不想那么麻烦写代码,还去找了一个叫做按键精灵的软件来模拟执行。不过那个软件是模拟鼠标和键盘,所以执行的时候会有界面出现,而且你的鼠标和键盘不能动,所以后来放弃了。如果觉得这个麻烦也可以试试那个。可以生成一个按键小精灵的exe,用计划任务定时执行。这个软件也很邪教啊,还可以自动截图。

    实现过程

    一、fiddler抓包

    这个直接下载然后上手做就可以了,打开工具,然后进行正常的登陆,每一个请求的过程都有。主要目的是找到每个发送请求的url和header信息。
    比如我练习网站的登陆请求发送的url是http://XXX.com/Home/Login/log...

    这个具体的url也可以用谷歌浏览器chrome进入审查元素去选取按钮,简陋一些的网站可以看到js代码是怎么跳转过去的。如果遇到一些按钮点击一次以后无法再点,可以用这个办法找它的url。

    二、python写请求脚本

    这里用这里用python3写的,这部分总结晚点写:P

    import urllib.request  
    import urllib  
    import gzip  
    import http.cookiejar  
    import time
      
    # generate request header, deal with cookie  
    def getOpener(head):  
        # deal with the Cookies  
        cj = http.cookiejar.CookieJar()
        pro = urllib.request.HTTPCookieProcessor(cj)  
        opener = urllib.request.build_opener(pro)  
        header = []  
        for key, value in head.items():  
            elem = (key, value)  
            header.append(elem)  
        opener.addheaders = header  
        return opener  
      
    #encapsulate the header as the browser
    header = {  
        'Connection': 'Keep-Alive',  
        'Accept-Language': 'zh-CN',  
        'Accept': 'image/jpeg, application/x-ms-application, image/gif, application/xaml+xml, image/pjpeg, application/x-ms-xbap, application/vnd.ms-excel, application/vnd.ms-powerpoint, application/msword, */*',  
        'User-Agent': 'Mozilla/4.0 (compatible; MSIE 7.0; Windows NT 6.1; Trident/5.0; SLCC2; .NET CLR 2.0.50727; .NET CLR 3.5.30729; .NET CLR 3.0.30729; .NET4.0C; .NET4.0E)',  
        'Accept-Encoding': 'gzip, deflate',  
        'X-Requested-With': 'XMLHttpRequest',  
        'Host': 'http://XXX.com/',  
    }  
    
    
    url = 'http://XXX.com/Home/Login/login_submit'  
    opener = getOpener(header)  
      
    id = 'xxxx'#你的用户名  
    password = 'fddafda'#你的密码,抓包是什么就输什么,有时候是md5加密的
    postDict = {  
            'logname': id,  
            'passwd': password,  
    }  
    #这里的post数据的json可以检查fiddler的webform里会有。
    
    postData = urllib.parse.urlencode(postDict).encode()  
    op = opener.open(url, postData)  
    data = op.read()  
    print(data)
    
    #签到
    url = 'http://XXX.com/index/index/sign/P/in'
    op = opener.open(url)
    data = op.read()
    print(data)
    
    

    三、bat调用python脚本

    @echo off
    rem 这里就是先用cd命令转到.py文件所在的地址
    C:
    cd C:\Windows\
    
    rem 用random生成一个数字对3600秒取余得到一个一小时内的随机秒数存在rd中
    set /a rd=%random%%%3600
    rem ping用于等待若干秒
    ping -n %rd% 127.0.0.1 > nul 
    python test.py
    
    rem 生成日志
    set  today=%date:~0,4%-%date:~5,2%-%date:~8,2%
    echo login at %today%_%time:~0,2%:%time:~3,2%  >> E:\LogFile\log%today%.txt
    exit

    rem是注释可以删,python里面还有一个pythonw.exe调用这个可以完全不出现界面。如果命令行cmd里面没有python,去环境变量path里面加一下python所在的地址。

    总结

    实现这个小任务,让我发现python的功能确实很大,而且可以用的库也非常多。这里主要是在廖雪峰的python教程中查看的python基本的东西。然后搜了一个例子。模仿着做的。

    另外,对前端的启发也蛮大的。防止这些爬虫去解析前端的信息,主要可以有以下措施:

    • 对所有发布的网站中JS进行压缩混淆加密

    • 一些关键数据可以用图片展示,增加一点爬取难度

    • 登陆设置验证码和动态token

关键字