遵守以下规则
遵守 Robots 协议,但有没有 Robots 都不代表可以随便爬,可见下面的大众点评百度案;
限制你的爬虫行为,禁止近乎 DDOS 的请求频率,一旦造成服务器瘫痪,约等于网络攻击;
对于明显反爬,或者正常情况不能到达的页面不能强行突破,否则是 Hacker 行为;
遵守 Robots 协议,但有没有 Robots 都不代表可以随便爬,可见下面的大众点评百度案;
限制你的爬虫行为,禁止近乎 DDOS 的请求频率,一旦造成服务器瘫痪,约等于网络攻击;
对于明显反爬,或者正常情况不能到达的页面不能强行突破,否则是 Hacker 行为;
BeautifulSoup is a Python library designed for quick turnaround projects like screen-scraping.
Three features make it powerful:
Beautiful Soup provides a few simple methods and Pythonic idioms for navigating, searching, and modifying a parse tree: a toolkit for dissecting a document and extracting what you need. It doesn't take much code to write an application
Requests is the only Non-GMO HTTP library for Python, safe for human consumption.
请求允许您发送有机草草HTTP / 1.1请求,而无需手工劳动。
无需手动将查询字符串添加到您的URL,也无需对POST数据进行表单编码。
由于urllib3,保持活动和HTTP连接池是100%自动的。
Scrapy is an and collaborative framework for extracting the data you need from websites.
In a fast, simple, yet extensible way.
$ pip install scrapy
scrapinghub 是一款爬虫托管平台。
更好的数据可带来更好的决策。
关注行业趋势,深入了解客户(和竞争对手),保护您的业务 - 可能性无穷无尽。
如果您没有时间或专业知识来抓取网站,我们的网络抓取专家可以提供帮助。
你将掌握得很好。 我们是Scrapy的创建者和主要维护者,Scrapy是用Python编写的最流行的Web抓取框架。