python 抓网页内容分析

发布时间：2019-09-10 09:14:46编辑：auto阅读（2184）

用Python语言写搜索引擎蜘蛛的脚本非常简单、轻松。给大家分享两种抓网页内容的方法

一、用urllib2/sgmllib包，将目标网页的所有URL列出。

import urllib2

from sgmllib import SGMLParser

class URLLister(SGMLParser):
def reset(self):
SGMLParser.reset(self)
self.urls = []

def start_a(self, attrs):
href = [v for k, v in attrs if k=='href']
if href:
self.urls.extend(href)

f = urllib2.urlopen("http://www.baidu.com/")

if f.code == 200:
parser = URLLister()
parser.feed(f.read())
f.close()
for url in parser.urls: print url

二、用python调用IE抓取目标网页（Require win32com, pythoncom）的所有图像的url和大小

import win32com.client, pythoncom
import time
ie = win32com.client.DispatchEx('InternetExplorer.Application.1')
ie.Visible = 1
ie.Navigate("http://news.sina.com.cn")
while ie.Busy:
time.sleep(0.05)
doc = ie.Document
for i in doc.p_w_picpaths:
print i.src, i.width, i.height

这种方法可以利用IE本身的Javascript. DHTML的支持，来做自动提交Form,和处理Javascript。
有关样例可以参考http://win32com.de

关键字：

上一篇： Python小九九--Python 2

下一篇： Skype For Business 2



搜索

热门推荐

最新文章

Ubuntu本地部署dots.ocr
 24°
Python搭建一个RAG系统(分片/检索/召回/重排序/生成)
 2250°
Browser-use:智能浏览器自动化(Web-Agent)
 2940°
使用 LangChain 实现本地 Agent
 2451°
使用 LangChain 构建本地 RAG 应用
 2394°
使用LLaMA-Factory微调大模型的function calling能力
 2984°
复现一个简单Agent系统
 2401°
LLaMA Factory-Lora微调实现声控语音多轮问答对话-1
 3205°
LLaMA Factory微调后的模型合并导出和部署-4
 5270°
LLaMA Factory微调模型的各种参数怎么设置-3
 5100°

博主信息

姓名：Run
职业：谜
邮箱：383697894@qq.com
定位：上海 · 松江

扫我打开

友情链接

百度 淘宝 腾讯 慕课网 CSDN 博客园 51cto博客