遵守以下规则

遵守 Robots 协议，但有没有 Robots 都不代表可以随便爬，可见下面的大众点评百度案；

限制你的爬虫行为，禁止近乎 DDOS 的请求频率，一旦造成服务器瘫痪，约等于网络攻击；

对于明显反爬，或者正常情况不能到达的页面不能强行突破，否则是 Hacker 行为；

老马啸西风2018年2月14日大约 1 分钟

BeautifulSoup is a Python library designed for quick turnaround projects like screen-scraping.

特性

Three features make it powerful:

Beautiful Soup provides a few simple methods and Pythonic idioms for navigating, searching, and modifying a parse tree: a toolkit for dissecting a document and extracting what you need. It doesn't take much code to write an application

老马啸西风2018年2月14日大约 3 分钟

Python-36-splider requests 爬虫

Requests is the only Non-GMO HTTP library for Python, safe for human consumption.

特性

请求允许您发送有机草草HTTP / 1.1请求，而无需手工劳动。

无需手动将查询字符串添加到您的URL，也无需对POST数据进行表单编码。

由于urllib3，保持活动和HTTP连接池是100％自动的。

老马啸西风2018年2月14日小于 1 分钟

Python-37-splider Scrapy 爬虫

Scrapy is an and collaborative framework for extracting the data you need from websites.

In a fast, simple, yet extensible way.

快速开始

install

$   pip install scrapy

老马啸西风2018年2月14日大约 2 分钟

Python-38-scrapinghub 爬虫平台

scrapinghub 是一款爬虫托管平台。

数据的价值

更好的数据可带来更好的决策。

关注行业趋势，深入了解客户（和竞争对手），保护您的业务 - 可能性无穷无尽。

按需数据

如果您没有时间或专业知识来抓取网站，我们的网络抓取专家可以提供帮助。

你将掌握得很好。我们是Scrapy的创建者和主要维护者，Scrapy是用Python编写的最流行的Web抓取框架。

老马啸西风2018年2月14日大约 4 分钟