python python3 splider lang sh

Python-34-splider 爬虫

Posted by houbb on February 14, 2018

善良比聪明更重要

爬虫究竟是合法还是违法的？

遵守以下规则

遵守 Robots 协议，但有没有 Robots 都不代表可以随便爬，可见下面的大众点评百度案；

限制你的爬虫行为，禁止近乎 DDOS 的请求频率，一旦造成服务器瘫痪，约等于网络攻击；

对于明显反爬，或者正常情况不能到达的页面不能强行突破，否则是 Hacker 行为；

最后，审视清楚自己爬的内容，以下是绝不能碰的红线（包括但不限于）：

爬取用户个人数据非法牟利，包括模拟登录他人账号，如下一案例中操作账号加粉

爬虫流程

基本

找到一个网站
判断是否需要登录。常见网站登录
解析对应的 html 内容。
选择合适的框架，进行抓取+存储
选择合适的存储方式。比较小可以使用文件。都是 json 使用 mongo，条理化清晰可以使用 mysql 等关系型数据库。

应用

根据需要对数据进行展现。比如 cli 工具，或者页面。

进阶

ip 如何动态变换？
多线程爬虫。

拓展阅读

python 多线程

参考资料

法律

爬虫究竟是合法还是违法的？

善良比聪明更重要
- 遵守以下规则
爬虫流程
- 基本
- 应用
- 进阶
拓展阅读
参考资料

更多学习

个人 Github

个人公众号

更多实时资讯，前沿技术，生活趣事。尽在【老马啸西风】

交流社群：交流群信息