Python 爬虫与数据分析

你学的太多，练习太少。 -- 古典

授权说明：Anti 996 License
https://github.com/996icu/996...

抓取数据但不用 Python

不编码是第一选择

八爪鱼采集器 Octoparse

特点: 内嵌浏览器, 可视化定位, 可提取 JavaScript 生成内容, 提取数据用 xpath, 常用网站模板, 支持云采集, 支持多种数据格式输出和数据库导出
http://www.bazhuayu.com/
5分钟演示 https://v.youku.com/v_show/id...
支持部分验证码自动识别 http://www.bazhuayu.com/faq/c...
免费版同时2个线程, 最多10个任务

火车采集器

特点: 对接数据库, 可直接导入 cms
http://www.locoy.com/

很多 cms 自带文章采集工具

如 jeecms, phpCMS, dedeCMS, 帝国 cms
(略)

为什么要学 Python

数据分析需要多个阶段, 抓取数据仅是一个环节, 数据需要不断采集, 更新, 清洗, 分析, 可视会展示等多个阶段, 这些过程中 Python 都能应对自如. 属于性阶适中的工具.

vs C

对比 C 语言, 效率弱一些, 但仅是运行效率, 开发效率高很多, 多数项目恰是开发占比高, 一直开发, 偶尔运行成为常态

vs Java

无需编译, 省去很多麻烦, 更适合一次性应用, 或小团队使用, 更灵活.

Life Is Short, Use Python

AI与机器学习

Python 语言基础

版本的问题

区别

Python 2.x 和 3.x 有很大区别

2to3

使用 2to3 可以自动升级大部分代码

3.x 新特性

https://www.asmeurer.com/pyth...

版本隔离 virtualenv

$ pip3 install virtualenv
$ virtualenv --no-site-packages venv
$ source venv/bin/activate
(venv)$ 
(venv)$ deactivate
$

常用数据结构

{} 大字典   Dictionary  键值对, 键唯一, 按键可以很快随机查找
[] 方列表  List  元素存储紧凑, 顺序固定, 可排序
(1,) 圆元组 tuple
set() 设集合 set 集合中,元素唯一,无相同元素

输入输出, 文本处理, 数组处理

input 终端输入

读文件

open(), read() seek()

写文件

写文件和读文件是一样的，唯一区别是调用open()函数时，传入标识符'w'或者'wb'表示写文本文件或写二进制文件：

>>> f = open('/Users/michael/test.txt', 'w')
>>> f.write('Hello, world!')
>>> f.close()

数组

面向对象基本概念与使用

如何轻松愉快地学 Python

游戏学编程,熟悉语法, 流程结构, 函数等 https://codecombat.com/
ide: pycharm, vs code, 断点调试

Python教程

练习题

猜随机数
成三角形概率
求质数的几种境界
质数概率
png 格式简析

图形格式介绍

png, gif, jpg, svg, webp

特色与难点

装饰器

decorator @

生成器

generator

yeild

lambda 表达式

一些常用函数

zip()

map()

filter()

网络协议与文件格式

URL

协议头://域名:端口/路径/文件?参数1=参数值1&参数2=参数值2#页面锚点

HTTP 协议

https://www.tutorialspoint.co...

无连接: 请求之间不需要保持连接
媒介无关: MIME 类型确定数据内容
无状态: 用 cookie 或参数跟踪状态

请求头

通过观察浏览器 -> 开发者工具学习

重点掌握

Cookie
Referer
User-Agent
Content-Type

请求方法

GET

最常见, 一般通过 url 传递参数, 幂等性

POST

提交操作, 大量数据时, 上传文件时用

响应状态码

200：请求成功处理方式：获得响应的内容，进行处理

301：请求到的资源都会分配一个永久的URL，这样就可以在将来通过该URL来访问此资源查看头里的 Location
302：请求到的资源在一个不同的URL处临时保存查看头里的 Location

400：非法请求
401：未授权
403：禁止

404：没有找到

500：服务器内部错误
502：错误网关作为网关或者代理工作的服务器尝试执行请求时，从上游服务器接收到无效的响应。

测试工具

curl

结合浏览器的使用, -o 参数,

wget

断点续传之 -c 参数, 批量下载时的通配符使用

chromium, telnet, netcat

HTML 格式

学习工具

w3cschool.com

json

格式
工具

JavaScript & CSS

适当了解

python常用抓取工具/类库介绍

urllib

import urllib2
 
response = urllib2.urlopen("http://www.baidu.com")
print response.read()

2to3 urllib.py

import urllib.request, urllib.error, urllib.parse
 
response = urllib.request.urlopen("http://example.com")
print(response.read())

练习指导:

Python3 启动, 退出 Ctrl+D
2to3 --help 找出 -w 回写参数
两种执行方式, 命令行, 交互式

参考: https://cuiqingcai.com/947.html

Requests 库

Scrapy

$ pip install Scrapy lxml

PySpider

非常方便并且功能强大的爬虫框架，支持多线程爬取、JS动态解析，提供了可操作界面、出错重试、定时爬取等等的功能，使用非常人性化。

官网

安装

$ pip install pyspider

使用

$ pyspider all

然后浏览器访问 http://localhost:5000

Selenium & PhantomJS

$pip install selenium

用浏览器进行加载页面

    from selenium import webdriver     
    browser = webdriver.Chrome()
    browser.get('http://www.baidu.com/')

驱动浏览器进行搜索

import unittest
from selenium import webdriver
from selenium.webdriver.common.keys import Keys
 
class PythonOrgSearch(unittest.TestCase):
 
    def setUp(self):
        self.driver = webdriver.Chrome()
 
    def test_search_in_python_org(self):
        driver = self.driver
        driver.get("http://www.python.org")
        self.assertIn("Python", driver.title)
        elem = driver.find_element_by_name("q")
        elem.send_keys("pycon")
        elem.send_keys(Keys.RETURN)
        assert "No results found." not in driver.page_source
 
    def tearDown(self):
        self.driver.close()
 
if __name__ == "__main__":
    unittest.main()

用 PhantomJS 保存页面为图片

PhantomJS 相当于无界面浏览器, 可执行脚本和 CSS 内存渲染

phantomjs helloworld.js

var page = require('webpage').create();
page.open('http://cuiqingcai.com', function (status) {
    console.log("Status: " + status);
    if (status === "success") {
        page.render('example.png');
    }
    phantom.exit();
});

数据提取工具

html, xml, xpath, selector, json

正则表达式

掌握起来, 有一定难度, 多数编辑器支持, 使用场景广, 但不适合结构化数据(xml, json, html)

Python Re模块提供

#返回pattern对象
re.compile(string[,flag])  
#以下为匹配所用函数
re.match(pattern, string[, flags])
re.search(pattern, string[, flags])
re.split(pattern, string[, maxsplit])
re.findall(pattern, string[, flags])
re.finditer(pattern, string[, flags])
re.sub(pattern, repl, string[, count])
re.subn(pattern, repl, string[, count])

参见: https://cuiqingcai.com/912.html

其于 Dom 模型的 jQuery selector

在 Selenium 中或浏览器中直接使用

基于查询语言的 XPath 标准

XPath语言是基于一个树形结构表示的XML 文档，提供的导航能力，通过多种属性选择节点的一个标准。
XPath 是提取 XML 的工具, 所以需要对 HTML正行校正

校正工具:

使用 lxml 完成解析 HTML

>>> from lxml import etree
>>> doc = '<foo><bar></bar></foo>'
>>> tree = etree.HTML(doc)

>>> r = tree.xpath('/foo/bar')
>>> len(r)
1
>>> r[0].tag
'bar'

>>> r = tree.xpath('bar')
>>> r[0].tag
'bar'

最稳定的结果是使用 lxml.html 的 soupparser。你需要安装 python-lxml 和 python-beautifulsoup，然后你可以执行以下操作：

from lxml.html.soupparser import fromstring
tree = fromstring('<mal form="ed"><html/>here!')
matches = tree.xpath("./mal[@form=ed]")

XPath 文档

维基 https://en.wikipedia.org/wiki...
W3C https://www.w3.org/TR/xpath-30/

入门教程

https://www.w3schools.com/xml...

XPath 在线测试工具

https://codebeautify.org/Xpat...

特点: 可以直接加载 url

<root xmlns:foo="http://www.foo.org/" xmlns:bar="http://www.bar.org">
 <employees>
  <employee id="1">Johnny Dapp</employee>
  <employee id="2">Al Pacino</employee>
  <employee id="3">Robert De Niro</employee>
  <employee id="4">Kevin Spacey</employee>
  <employee id="5">Denzel Washington</employee>
  
 </employees>
 <foo:companies>
  <foo:company id="6">Tata Consultancy Services</foo:company>
  <foo:company id="7">Wipro</foo:company>
  <foo:company id="8">Infosys</foo:company>
  <foo:company id="9">Microsoft</foo:company>
  <foo:company id="10">IBM</foo:company>
  <foo:company id="11">Apple</foo:company>
  <foo:company id="12">Oracle</foo:company>
 </foo:companies>
</root>

示例:
1.选择文档节点
/
2.选择“root”元素
/root
3.选择所有'employee'元素，它们是'employees'元素的直接子元素。
/root/employees/employee
4.选择所有“公司”元素，无论它们在文档中的位置如何。
//foo:company
5.选择“公司”元素的“id”属性，无论它们在文档中的位置如何。
//foo:company/@id
6.选择第一个“employee”元素的文本值。
//employee[1]/text()
7.选择最后一个'employee'元素。
//employee[last()]
8.使用其位置选择第一个和第二个“employee”元素。
//employee[position() < 3]
9.选择具有“id”属性的所有“employee”元素。
//employee[@id]
10.选择'id'属性值为'3'的'employee'元素。
//employee[@id='3']
11.选择“id”属性值小于或等于“3”的所有“employee”节点。
//employee[@id<=3]
12.选择“companies”节点的所有子项。
/root/foo:companies/*
13.选择文档中的所有元素。
// *
14.选择所有“员工”元素和“公司”元素。
//employee|//foo:company
15.选择文档中第一个元素的名称。
name(//*[1])
16.选择第一个“employee”元素的“id”属性的数值。
number(//employee[1]/@id)
17.选择第一个“employee”元素的“id”属性的字符串表示形式值。
string(//employee[1]/@id)
18.选择第一个“employee”元素的文本值的长度。
string-length(//employee[1]/text())
19.选择第一个“company”元素的本地名称，即没有命名空间。
string-length(//employee[1]/text())
20.选择“公司”元素的数量。
count(//foo:company)
21.选择'company'元素的'id'属性的总和。
sum(//foo:company/@id)

http://www.xpathtester.com/xpath

使用示例: 用xpath怎么提取重复元素中的一个元素

<div class="container">
  <div class="col-12 col-sm-3">
    <p class="title">序号</p>
    <p>001</p>
  </div>
  <div class="col-12 col-sm-3">
    <p class="title">编号</p>
    <p>999</p>
  </div>
  <div class="col-12 col-sm-3">
    <p class="title">列号</p>
    <p>321</p>
  </div>
</div>

//p[text()="编号"]/following-sibling::p[1]
例如：Python+Selenium获取文本：
driver.driver.find_element_by_xpath(//p[text()="编号"]/following-sibling::p[1]).text
注: Selenium 支持 XPath 和类 jQuery Selector 等多种选择方式.

Firefox 和 XPath

2017之前的 firefox 版本 + Firebug
2017后 Firefox Developer Edition + Chropath addon
https://addons.mozilla.org/en...

Chromium 和 XPath

在Chrome/ Firefox浏览器中打开网站

按Ctrl + Shift + I（将打开开发人员工具）Alt+CMD+I
选择仪器窗口顶部的“元素”
选择仪器窗口底部的放大镜
在浏览器中选择所需的元素
右键单击DOM树中的选定行，然后选择“复制XPath”

Chrome Extension XPath Helper (需要科学上网)

数据保存

csv 及 excel 格式

注意引号转义, 可用现成库

MySQL 数据库

安装MySQL驱动
由于MySQL服务器以独立的进程运行，并通过网络对外服务，所以，需要支持Python的MySQL驱动来连接到MySQL服务器。MySQL官方提供了mysql-connector-python驱动，但是安装的时候需要给pip命令加上参数--allow-external：

$ pip install mysql-connector-python --allow-external mysql-connector-python

如果上面的命令安装失败，可以试试另一个驱动：

$ pip install mysql-connector

我们演示如何连接到MySQL服务器的test数据库：

# 导入MySQL驱动:
>>> import mysql.connector
# 注意把password设为你的root口令:
>>> conn = mysql.connector.connect(user='root', password='password', database='test')
>>> cursor = conn.cursor()
# 创建user表:
>>> cursor.execute('create table user (id varchar(20) primary key, name varchar(20))')
# 插入一行记录，注意MySQL的占位符是%s:
>>> cursor.execute('insert into user (id, name) values (%s, %s)', ['1', 'Michael'])
>>> cursor.rowcount
1
# 提交事务:
>>> conn.commit()
>>> cursor.close()
# 运行查询:
>>> cursor = conn.cursor()
>>> cursor.execute('select * from user where id = %s', ('1',))
>>> values = cursor.fetchall()
>>> values
[('1', 'Michael')]
# 关闭Cursor和Connection:
>>> cursor.close()
True
>>> conn.close()

爬虫常见问题

常见反爬技术

User-Agent

新华网

　Referer

频率

36kr.com
taobao.com

用户点击才展示内容

csdn.net 博客

登录后可用内容

taobao.com

各种人机验证 Captcha

封IP, 封ID

编码问题 GB2312, GB18030, GKB, UTF-8, ISO8859-1

GB18030 > GBK > GB2312 但相互兼容
UTF-8与以上编码不兼容

用代理隐藏 ip

import requests
from lxml import etree
headers = {
        'User-Agent': 'Mozilla/5.0 (Windows NT 6.1; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/53.0.2785.143 Safari/537.36'
    }
url = 'https://ip.cn/'

## 下面的网站是用来获取代理ip的API
ip_url = 'http://proxy.w2n1ck.com:9090/random'
ip = {'http'  : 'http://'+requests.get(ip_url).text}
print(ip)
response = requests.get(url, headers=headers, proxies=ip, timeout=10).text
html = etree.HTML(response)
## 提取页面显示的ip
res = html.xpath('//*[@id="result"]/div/p[1]/code/text()')
print(res)

模拟登录

图形验证码处量

百度OCR　

https://aip.baidubce.com/rest...

Tesseract + openCV

ML-OCR

效果最好

人工OCR

手工录入

数据可视化

matplot

echarts

Tableau

高级话题

手机　APP　接口数据抓取

Python3.x+Fiddler抓取APP数据
思路是电脑共享 wifi, 手机连这个 wifi, 电脑wifi 的 IP做为代理，　手机上设置代理．
手机信任电脑的代理证书．　中间人攻击完成了．　
截获到网络请求再通过参数变换完成抓取
https://segmentfault.com/a/11...

分布式爬虫

数据库或缓存为协调工具

中文分词

结巴分词

自然言语分析

hanlp
tlp-cloud

人脸识别

阿里的接口

图形识别

有问题到哪里去问？

Coursera

stackoverflow.com

思否

Python 从入门到爬虫极简教程

Python 爬虫与数据分析

抓取数据但不用 Python

八爪鱼采集器 Octoparse

火车采集器

很多 cms 自带文章采集工具

为什么要学 Python

vs C

vs Java

AI与机器学习

Python 语言基础

版本的问题

区别

2to3

3.x 新特性

版本隔离 virtualenv

常用数据结构

输入输出, 文本处理, 数组处理

input 终端输入

读文件

写文件

数组

面向对象基本概念与使用

如何轻松愉快地学 Python

练习题

图形格式介绍

特色与难点

装饰器

生成器

lambda 表达式

一些常用函数

网络协议与文件格式

URL

HTTP 协议

请求头

请求方法

GET

POST

响应状态码

测试工具

curl

wget

chromium, telnet, netcat

HTML 格式

json

JavaScript & CSS

python常用抓取工具/类库介绍

urllib

Requests 库

Scrapy

PySpider

Selenium & PhantomJS

用浏览器进行加载页面

驱动浏览器进行搜索

用 PhantomJS 保存页面为图片

数据提取工具

html, xml, xpath, selector, json

正则表达式

其于 Dom 模型的 jQuery selector

基于查询语言的 XPath 标准

XPath 文档

入门教程

XPath 在线测试工具

https://codebeautify.org/Xpat...

http://www.xpathtester.com/xpath

Firefox 和 XPath

Chromium 和 XPath

数据保存

csv 及 excel 格式

MySQL 数据库

爬虫常见问题

常见反爬技术

User-Agent

Referer

频率

用户点击才展示内容

登录后可用内容

各种人机验证 Captcha

封IP, 封ID

编码问题 GB2312, GB18030, GKB, UTF-8, ISO8859-1

　Referer

百度OCR　

手机　APP　接口数据抓取