Python大数据学习日记大数据 爬虫Python AI Sql爬虫专题

爬虫篇(一)

2017-12-01  本文已影响20人  红炉点雪hi

爬虫篇只会对简单的爬虫进行介绍,只是为了学习数据分析时方便采集数据。
所以下面关于爬虫的内容将只会围绕urllib2、re这两个库开展

首先我们要对爬虫有一个大体的概念,爬虫是什么呢?
其实就是一个简单的网页下载(这里的说法存在一定的问题但是利于初学者理解)
我们打开百度的首页。


image.png

这是它首页的样子,我们可以,之后我们可以在当前这个页面右击,选择——查看网页源代码。在打开的新页面中我们可以看到这样的界面。


image.png
它最开始可能会有很多的空行。
在这个页面上显示的内容将会是我们的爬虫爬取下来的内容。

接下来我们开始着手爬虫的编写。

import urllib2
html = urllib2.urlopen('http://www.baidu.com')

这样我们就得到了这个页面,输出html的结果是这样的。


image.png

这输出的是一个对象,我们需要将这个对象转换成我们能够读的懂得内容,我们只需要用html.read()即可。
这是完整的代码截图。


image.png
这就是最基本的一个爬虫是不是很简单?
那么我们现在来具体的解释一下这个代码。

urllib2是python自带的一个访问网页及本地文件的库。
现阶段我们不需要去理会它的访问本地文件的功能,我们着重关心的是它访问网页的功能。
我们在上面的代码中使用的urlopen方法就是直接打开某个网页,这个过程就好像是我们在浏览器的地址栏中直接输入百度的地址,这个时候它会返回一个对象,这个对象我们在上面已经输出过给大家看了,它并不是我们右击选择查看网页源代码看到的代码,这个时候我们只需要在这串代码后面加上.read(),就可以把这个对象转换成字符串,大家可以自己写写代码看看。

上一篇下一篇

猜你喜欢

热点阅读