Python爬虫实例(1)

2019-06-04  本文已影响0人  fairy小倩
1.网络爬虫爬什么?

从网站某一个页面开始,读取网页的内容,找到在网页中的其它链接地址,然后通过这些链接地址寻找下一个网页,直到把这个网站所有的网页都抓取完为止。
其实就是抓取网页。
比如我们想找Python教程,以runoob.com为例
想抓取Python3的所有教程
URL为:https://www.runoob.com/python3/python3-tutorial.html

2.利用urllib抓取网页内容

image.png

返回200说明连接成功

但是,有一些站点不喜欢被程序(非人为访问)访问,浏览器确认自己身份是通过User-Agent头,我们可以模拟User-Agent头访问页面
获取User-Agent头信息如下图:


image.png

代码如下:


image.png

连接成功,我们再打印网页内容看一下:


image.png

这样我们成功抓取了网页的内容。

上一篇下一篇

猜你喜欢

热点阅读