Python爬取静态网页

参考书籍：唐松《Python网络爬虫从入门到实践》

简介

静态网页一般指纯粹的HTML格式的网页，对于爬虫来说，静态网页的数据都比较容易获取，利用好Requests库就能轻松发送HTTP请求，获取到网页的数据。

Requests库可以帮助我们获取到响应内容，再通过一些参数来满足我们的需求，它的安装也十分简单，对于Windows用户来说，在已经装好Python环境之后，可以通过Win+R快捷键打开cmd命令行，输入：

pip install requests

就可以等待安装了

Requests常用于获取某个网页的内容。使用代码

r = request.get(url)

可以返回一个名为r的response对象，url可以替换为爬取网页的详细网址。存储了响应的内容，利用不同的参数获取需要的信息，响应内容包括如下：

运行代码如下所示：

print("文本编码：",r.encoding)
print("响应状态码：",r.status_code)
print("字符串方式的响应体：",r.text)
print("字节方式的响应体",r.content)

运行结果如下所示：

这个时候，已经成功获取到信息并且输出了。