【掘金日报】第二期 全球最大成人网站 PornHub 爬虫??? - 掘金
掘金日报主打分享优质深度技术内容,技术内容分:前端、后端、Android、iOS、产品设计、工具资源和一些有趣的东西。 前端 16种方法实现水平居中垂直居中 熟悉水平居中和垂直居中的方法, 不为别的, 就为用的时候能够信手拈来. 单页应用 - Toke...
完美解决 Python2 和 python3 共存 - 掘金
Python3 被越来越多的开发者所接受,同时让人尴尬的是很多遗留的老系统依旧运行在 Python2 的环境中,因此有时你不得不同时在两个版本中进行开发,调试。 如何在系统中同时共存 Python2 和 Python3 是开发者不得不面对的问题,一个利好的消息...
爬虫入门系列(二):优雅的HTTP库requests - 掘金
在系列文章的第一篇中介绍了 HTTP 协议,Python 提供了很多模块来基于 HTTP 协议的网络编程,urllib、urllib2、urllib3、httplib、httplib2,都是和 HTTP 相关的模块,看名字觉得很反人类,更糟糕的是这些模块在 P...
用 Python 浅析股票数据 - 后端 - 掘金
本文将使用Python来可视化股票数据,比如绘制K线图,并且探究各项指标的含义和关系,最后使用移动平均线方法初探投资策略。 数据导入 这里将股票数据存储在stockData.txt文本文件中,我们使用pandas...
PornHubBot - ? 全球最大成人网站 PornHub 爬虫 (Scrapy、MongoDB) 一天 500w 的海量数据 - 后端 - 掘金
Disclaimer: This project is intended to study the Scrapy Spider Framework and the MongoDB database, can not be used for commercial...
爬虫入门到精通 - 网页的解析(正则) - 后端 - 掘金
本文章属于爬虫入门到精通系统教程第五讲 在爬虫入门到精通第四讲中,我们了解了如何下载网页,这一节就是如何从下载的网页中获取我们想要的内容 万能匹配 ...
全栈 - 9 实战 爬取豆瓣电影数据 - 掘金
这是全栈数据工程师养成攻略系列教程的第九期:9 实战 爬取豆瓣电影数据。 掌握了爬虫的基本原理和代码实现,现在让我们通过实战项目巩固一下。 确定目标 在写爬虫之前应当想清楚:我需要哪方面的数据?需要包含哪些字段?这些数据需要以何种形式呈现? 很多网站往往都是大...
使用 python 爬虫工具 Scrapy 统计简书文章阅读量 - 后端 - 掘金
突然发现多年来一直断断续续在学习使用的python,拥有着广泛的使用场景,从开源硬件、服务器运维、自动化测试,到数学计算,人工智能,都有python的一席之地,在各个领域python有丰富的框架和工具。 听闻python的Scrapy爬...
用爬虫揭露优信二手车车源量造假事实 - 阅读 - 掘金
我也看到了优信数据造假的报道,本着程序员严谨的态度,喜欢用技术解决问题,就写了个简单的爬虫代码来详细计算一下优信上面的数据真伪。 先打开优信北京页,看到了显示车辆为62475,共300页。 每页显示40辆车,共计显示40*30=12000辆车。 也就是存在着1...
使用 python 抓取美女福利图片 - 后端 - 掘金
这篇文章干嘛的? 本屌在上网时偶然看到一个图片网站,网站的尺度是这样的: 图片站首页 ...
基于 MongoDB 的 python 日志功能 - 掘金
本文首发于 Gevin的博客 原文链接:基于MongoDB的python日志功能 未经 Gevin 授权,禁止转载 基于MongoDB的python日志功能 why-log-to-mongodb 我几个月前在《Python 日志功能详解》中介绍了Pytho...
知乎热门榜 - Android - 掘金
解析知乎上最受欢迎的热门话题中点赞数比较高的答案。 下载: ...
Python 爬虫库 - Beautiful Soup 的使用 - 后端 - 掘金
Beautiful Soup 是一个可以从HTML或XML文件中提取数据的Python库,简单来说,它能将HTML的标签文件解析成树形结构,然后方便地获取到指定标签的对应属性。 如在上一篇文章通过爬虫爬取漫画图片,获取信息纯粹用正则表达式进行处理,这种方式即复...
你并不熟悉的 Python 正则高级用法 - 后端 - 掘金
学习正则的第一个教程应该去看(http://deerchao.net/tutorials... 学会里面的内容就足够满足大部分的工作需要了。而对于Python来说,就要学习模块re的使用方法。文本将展示一些大家都应该掌握的高级技巧...
Python 数据可视化概览(涵盖 ggplot 和 Altair) - 后端 - 掘金
原文地址:A Dramatic Tour through Python’s Data Visualization Landscape (including ggplot and Altair) 原文作者:Dan Saber 译文出自:掘金翻译计划 译者:cdp...
最好的语言 PHP + 最好的前端测试框架 Selenium = 最好的爬虫(上) - 后端 - 掘金
入职冰鉴科技做爬虫开发已经半年多了,陆续开发维护了几个爬虫以后终于在web端爬虫这一块有了登堂入室的感觉。中间踩了许多坑,也对爬虫的许多细节有了自己的认识,所以今天希望能分享一些爬虫经验。虽然爬虫的很多东西不好说太细,因为说太细了别人马上有针对性的反爬虫了,而...
写个抓取网易云音乐精彩评论的爬虫 - 掘金
被投诉,所以删掉了 我的知乎Live「Python 工程师的入门和进阶」 欢迎关注本人的微信公众号获取更多Python相关的内容(也可以直接搜索「Python之美」):...
Python 福利小爬虫,爬取今日头条街拍美女图 - 后端 - 掘金
先实际感受一下我们要抓取的福利是什么?点击 今日头条,在搜索栏输入街拍 两个字,点开任意一篇文章,里面的图片即是我们要抓取的内容。 头条街拍搜索结果.jpg 可以看到搜索结果默认返回了 20 篇文章,当页面滚动到底部时头条通过 ajax 加载更多文章,浏览...
Python 爬虫学习系列教程 - 后端 - 掘金
大家好哈,我呢最近在学习Python爬虫,感觉非常有意思,真的让生活可以方便很多。学习过程中我把一些学习的笔记总结下来,还记录了一些自己实际写的一些小爬虫,在这里跟大家一同分享,希望对Python爬虫感兴趣的童鞋有帮助,如果有机会期待与大家的交流。 Pytho...
Python函数式编程:从入门到走火入魔 - 掘金
很多人都在谈论函数式编程(Functional Programming),只是很多人站在不同的角度看到的是完全不一样的风景。坚持实用主义的 Python 老司机们对待 FP 的态度应该更加包容,虽然他们不相信银弹,但冥冥中似乎能感觉到 FP 暗合了 Pytho...
(译) 带你声明 Python 中的动态属性 - 后端 - 掘金
原文地址:Python: Declaring Dynamic Attributes 原文作者:Amir Rachum 译文出自:掘金翻译计划 译者:王子建 校对者:冯志浩,Zheaoli 以下实例均为 Python 3.5 版本,但同样适用于 Pyt...
Awesome Python frameworks, packages, software and resources - 工具资源 - 掘金
A curated list of awesome Python frameworks, packages, software and resources....
理解 python 中的协程 - 后端 - 掘金
什么是Coroutine? Coroutine,又称作协程。从字面上来理解,即协同运行的例程,它是比是线程(thread)更细量级的用户态线程,特点是允许用户的主动调用和主动退出,挂起当前的例程然后返回值或去执行其他任务,接着返回原来停下的点继续执行。等下,这...
python 实现微信第三方登录 - 阅读 - 掘金
很不错的...
局部变量在 Python 闭包中遇到的一些麻烦 - 后端 - 掘金
Python 的作用域有这样的规则,你在内部的局部作用域里,仅仅使用外部的变量是允许的,但是改变这个引用本身是不被允许的。 def outer(): v = 2 def inner(): t = v + 1 p...
听说你会 Python ? - 后端 - 掘金
前言最近觉得 Python 太“简单了”,于是在师父川爷面前放肆了一把:“我觉得 Python 是世界上最简单的语言!”。于是川爷嘴角闪过了一丝轻蔑的微笑(内心 OS:Naive!,作为一个 Python 开发者,我必须要给你一点人生经验,不然你不知道天高地厚...