善良比聪明更重要
遵守以下规则
遵守 Robots 协议,但有没有 Robots 都不代表可以随便爬,可见下面的大众点评百度案;
限制你的爬虫行为,禁止近乎 DDOS 的请求频率,一旦造成服务器瘫痪,约等于网络攻击;
对于明显反爬,或者正常情况不能到达的页面不能强行突破,否则是 Hacker 行为;
最后,审视清楚自己爬的内容,以下是绝不能碰的红线(包括但不限于):
爬取用户个人数据非法牟利,包括模拟登录他人账号,如下一案例中操作账号加粉
爬虫流程
基本
-
找到一个网站
-
判断是否需要登录。常见网站登录
-
解析对应的 html 内容。
-
选择合适的框架,进行抓取+存储
-
选择合适的存储方式。比较小可以使用文件。都是 json 使用 mongo,条理化清晰可以使用 mysql 等关系型数据库。
应用
- 根据需要对数据进行展现。比如 cli 工具,或者页面。
进阶
-
ip 如何动态变换?
-
多线程爬虫。
拓展阅读
参考资料
- 法律