Python爬虫教程-01-爬虫介绍

发布时间：2019-03-07 20:01:56编辑：auto阅读（3790）

Spider-01-爬虫介绍

Python 爬虫的知识量不是特别大，但是需要不停和网页打交道，每个网页情况都有所差异，所以对应变能力有些要求

爬虫准备工作

参考资料
精通Python爬虫框架Scrapy，人民邮电出版社

基础知识

url, http
web前端，html，css，js
ajax
re，xpath
xml

python 爬虫简介

爬虫定义：网络爬虫（又被称为网页蜘蛛，网络机器人，在FOAF社区中间，更经常的称为网页追逐者），是一种按照一定的规则，自动地抓取万维网信息的程序或者脚本。另外一些不常使用的名字还有蚂蚁、自动索引、模拟程序或者蠕虫
两大特征
- 能按照作者要求下载数据
- 能自动在网络上流窜
三大步骤
- 下载网页
- 提取正确的信息
- 根据一定规则自动跳到另外的网页上执行上两步操作
爬虫分类
- 通用爬虫：
不分类，比如百度搜索引擎，我们通过百度输入数据，获取百度爬虫从各种网站爬到的数据
- 专用爬虫（聚焦爬虫）：
就是我们介绍的，关于某一类的数据，比如说，需要爬智联招聘网站，某地区的招聘信息
Python网络包简介
- Python2.* ：urllib, urllib2, urllib3, httplib, httplib2, requests
- Python3.* ：urllib, urllib3, httplib2, requests
- Python2：urllib, urllib2配合使用，或者requests
- Python3：urllib，requests

我的爬虫笔记

本笔记学习于图灵学院python全栈课程
本笔记不允许任何个人和组织转载

关键字：

上一篇： python hashlib模块算法

下一篇： Python爬虫教程-00-写在前面



搜索

热门推荐

最新文章

博主信息

姓名：Run
职业：谜
邮箱：383697894@qq.com
定位：上海 · 松江

扫我打开

友情链接

百度 淘宝 腾讯 慕课网 CSDN 博客园 51cto博客