mac 默认的环境是 python 2.X
后来安装了 python3.X 所有的命令使用 python3
来执行。
但是还是有一个问题,pip 默认还是 2.x,这里就需要安装 pip3。
pip3 安装
下载
curl -o get-pip.py https://bootstrap.pypa.io/get-pip.py
mac 默认的环境是 python 2.X
后来安装了 python3.X 所有的命令使用 python3
来执行。
但是还是有一个问题,pip 默认还是 2.x,这里就需要安装 pip3。
curl -o get-pip.py https://bootstrap.pypa.io/get-pip.py
你一定用过很多 linux 的命令行工具,并且觉得这些工具很酷。
Python 能编写这些工具吗?
答案是肯定的。今天我们就来看看如何用 python 编写命令行工具。
如何接受cmd中输入的参数,需要用到的就是命令行解析工具。
python中有很多命令行解析库,主要有如下几种
sys.argv
argparse 库
click 库
fire 库(这是一个神器)
Python Fire is a library for automatically generating command line interfaces (CLIs) from absolutely any Python object.
Python Fire is a simple way to create a CLI in Python.
Python Fire is a helpful tool for developing and debugging Python code.
Python Tutor 是由 Philip Guo 开发的一个免费教育工具,可帮助学生攻克编程学习中的基础障碍,理解每一行源代码在程序执行时在计算机中的过程。
通过这个工具,教师或学生可以直接在 Web 浏览器中编写 Python 代码,并逐步可视化地运行程序。
如果你不知道代码在内存中是如何运行的,不妨把它拷贝到Tutor里可视化执行一遍,加深理解。
遵守 Robots 协议,但有没有 Robots 都不代表可以随便爬,可见下面的大众点评百度案;
限制你的爬虫行为,禁止近乎 DDOS 的请求频率,一旦造成服务器瘫痪,约等于网络攻击;
对于明显反爬,或者正常情况不能到达的页面不能强行突破,否则是 Hacker 行为;
BeautifulSoup is a Python library designed for quick turnaround projects like screen-scraping.
Three features make it powerful:
Beautiful Soup provides a few simple methods and Pythonic idioms for navigating, searching, and modifying a parse tree: a toolkit for dissecting a document and extracting what you need. It doesn't take much code to write an application
Requests is the only Non-GMO HTTP library for Python, safe for human consumption.
请求允许您发送有机草草HTTP / 1.1请求,而无需手工劳动。
无需手动将查询字符串添加到您的URL,也无需对POST数据进行表单编码。
由于urllib3,保持活动和HTTP连接池是100%自动的。
Scrapy is an and collaborative framework for extracting the data you need from websites.
In a fast, simple, yet extensible way.
$ pip install scrapy
scrapinghub 是一款爬虫托管平台。
更好的数据可带来更好的决策。
关注行业趋势,深入了解客户(和竞争对手),保护您的业务 - 可能性无穷无尽。
如果您没有时间或专业知识来抓取网站,我们的网络抓取专家可以提供帮助。
你将掌握得很好。 我们是Scrapy的创建者和主要维护者,Scrapy是用Python编写的最流行的Web抓取框架。
Fiddler是强大的抓包工具,它的原理是以web代理服务器的形式进行工作的,使用的代理地址是:127.0.0.1,端口默认为8888,我们也可以通过设置进行修改。
代理就是在客户端和服务器之间设置一道关卡,客户端先将请求数据发送出去后,代理服务器会将数据包进行拦截,代理服务器再冒充客户端发送数据到服务器;同理,服务器将响应数据返回,代理服务器也会将数据拦截,再返回给客户端。
Fiddler可以抓取支持http代理的任意程序的数据包,如果要抓取https会话,要先安装证书。
有时候想抓取网站,各种 http 跳转会把自己搞的晕头转向,云里雾里。