爬虫篇(一)

2017-12-01 本文已影响20人红炉点雪hi

爬虫篇只会对简单的爬虫进行介绍，只是为了学习数据分析时方便采集数据。
所以下面关于爬虫的内容将只会围绕urllib2、re这两个库开展

首先我们要对爬虫有一个大体的概念，爬虫是什么呢？
其实就是一个简单的网页下载(这里的说法存在一定的问题但是利于初学者理解)
我们打开百度的首页。

image.png

这是它首页的样子，我们可以，之后我们可以在当前这个页面右击，选择——查看网页源代码。在打开的新页面中我们可以看到这样的界面。

image.png
它最开始可能会有很多的空行。
在这个页面上显示的内容将会是我们的爬虫爬取下来的内容。

接下来我们开始着手爬虫的编写。

import urllib2
html = urllib2.urlopen('http://www.baidu.com')

这样我们就得到了这个页面，输出html的结果是这样的。

image.png

这输出的是一个对象，我们需要将这个对象转换成我们能够读的懂得内容，我们只需要用html.read()即可。
这是完整的代码截图。

image.png
这就是最基本的一个爬虫是不是很简单？
那么我们现在来具体的解释一下这个代码。

urllib2是python自带的一个访问网页及本地文件的库。
现阶段我们不需要去理会它的访问本地文件的功能，我们着重关心的是它访问网页的功能。
我们在上面的代码中使用的urlopen方法就是直接打开某个网页，这个过程就好像是我们在浏览器的地址栏中直接输入百度的地址，这个时候它会返回一个对象，这个对象我们在上面已经输出过给大家看了，它并不是我们右击选择查看网页源代码看到的代码，这个时候我们只需要在这串代码后面加上.read()，就可以把这个对象转换成字符串，大家可以自己写写代码看看。

爬虫篇(一)

猜你喜欢

热点阅读