零基础三天学会Python爬虫 -- 龙头

2017-06-05 本文已影响2601人 Pusswzy

教我女朋友学习爬虫

最近iOS方面没有开发任务, 老板给了我两周的时间学习爬虫. 期间踩了无数的坑. 终于算是可以在爬虫方面有所小成, 在学习阶段很感谢各种大神的技术文章对我的帮助. 可是如果你是小白的话, 这些技术文章的阅读难度会比较大. 可能会导致在学习阶段在环境配置, IDE选择, 初始爬虫上浪费很多时间.
所以这系列文章会在细节上特别重视. 我的主旨就是我踩过的坑, 就不会让你们再踩了.☺

学习目标

三天时间学会对任一网页的爬虫, 熟练应对反爬虫机制. 并对数据匹配, 数据保存, 数据可视化有充分的了解. 熟悉爬虫基本原理, 熟悉爬虫框架的运行.我会在文章中用很多的小项目来帮助你们.

学习大纲

熟悉Python基本语法
数据流行的框架使用:requests/scrapy等等 框架只是工具
熟悉IDE的使用 sublime text/ pycharm
数据匹配:正则匹配与XPath语法在爬虫中的使用
数据保存: 将爬取数据保存到Excel或者保存为json字符串
反爬虫机制: delay函数随机请求头, 注入cookie, IP代理池
...

闲言碎语

Python2与Python3的选择:Python2在2020年会过期,现在Python3已经很稳定了.
如果你是Python的新手,我建议你从Python3开始学习.如果你想通过学习Python, 来找到工作, 我建议你从Python2学起, 因为现在有很多公司的项目还是Python2.X的版本.
其实我认为学习一门语言对于版本这种东西真的是无所谓了, 学东西就应该融会贯通, 本文的代码环境皆为Python3
而且我认为p2与p3最大的区别就是print函数带不带小括号,哈哈
知乎上面有一些很好的文章, 推荐大家在学习本文前可以看看.
如何入门爬虫
 爬虫入门文章汇总
 利用爬虫技术能做到哪些很酷很有趣很有用的事情？

1.基本语法

学习任何一门语言, 必须先学会它的基本语法, 这里我推荐廖雪峰的Python教程
廖雪峰Python教程
进入网站你会发现目录那么长, 该怎么看. 其实你只需要看这么多即可开始爬虫, 是不是很开心~

只需要看这么多即可进行爬虫, 红色箭头重点看

2.开发环境

现在你已经学会Python的基本语法了, 也已经在shell里面练习了, 工欲善其事, 必先利其器. 有一个高效顺手的开发环境是很重要的.

2.1 下载python3

mac自带的Python版本为2.x, 在终端输入python --version即可查看当前python的版本.

更新至Python3很简单, 首先下载Homebrew, 在终端输入

/usr/bin/ruby -e "$(curl -fsSL https://raw.githubusercontent.com/Homebrew/install/master/install)"

来安装Homebrew, 安装后直接通过命令brew install python3即可.现在你可以输入python3 --version来查看你的python3版本.

2.2 下载sublime text

通过sublime的官方网址进行下载,

2.3 使用与配置sublime text

首先在右下角选择语言环境Python

选择语言环境
接下来就可以打出第一行代码print('hi python'), 接下来按住command+B编译. 你会发现console区报错如下/usr/local/bin/python3: can't find '__main__' module in '', 原因是没有保存就直接运行了. 所以我们要先command+S进行保存, 然后在运行就可以了.

在sublime text运行Python, 记得要先保存

在sublime中输入汉字:

在编译器中输入print('心有猛虎'), 编译后会发现报错

UnicodeEncodeError: 'ascii' codec can't encode characters in position 0-3: ordinal not in range(128)

原因是Python采用ASCII处理字符流, 当字符流不属于ASCII范围内时就会抛出该异常.解决方法是添加一个适用于Python3+适配中文环境的build system.
点击上方菜单栏中的Tools -> Build System -> New Build System, 就会打开一个untitled.sublime-build文件,

添加build system

将以下代码拷贝进去

{
    "cmd": ["/usr/local/bin/python3", "-u", "$file"],
    "file_regex": "^[ ]*File \"(...*?)\", line ([0-9]*)",
    "selector": "source.python",
    "env": {"LANG": "en_US.UTF-8"}
}

并保存[最后赋予一个有意思的名字, 例如我的是python-CN], 再次点开Build System就能看见刚刚保存的build system了. 选中后再次运行刚才的文件, 就可以print出中文了.

细嗅蔷薇

如何修改已经保存的Build System:

顶部菜单栏点击Sublime Text -> Preferences -> Browse Packages -> Packages ->User 双击打开想要修改的Build System即可

修改已保存的Build System
在学两个小技术点, 就可以开始我们的第一个爬虫了, 挺住

2.4 正则表达式RegEx

这里我只讲最浅显的部分, 我之前对正则表达式特别陌生, 可是我只学了两分钟就可以用re来进行数据匹配了, 我讲的知识足够支持我们到学XPath语法之前了.
先简单的看一下这篇文章来了解下正则表达式, 看一下这篇文章来了解一下贪婪模式与非贪婪模式.
简单的说一下贪婪与非贪婪模式, 贪婪模式就是尽可能多的匹配到满足条件的内容, 非贪婪模式模式与之相反. 在爬虫中, 我们一般使用非贪婪模式.
接下来举个例子, 下面是一段HTML, 该如何使用re来得到里面的段子呢?

<div class="content">
<span>哥们结婚彩礼拿了十几万。女方买彩礼花了几万。剩下的几万。老丈人买了十几条大狗，当初哥们特别不解，现在知道了，只要敢惹媳妇生气。媳妇就回娘家牵回来几条，追着哥们满村跑。</span>
</div>

首先引用re的模块, import re
使用re的匹配函数, re.findall(pattern, string[, flags]), 此函数有三个参数, 第一个参数为匹配规则pattern, 第二个匹配参数string为匹配的内容, 第三个函数可以对正则匹配规则有一定影响,一般我们会使用re.S, 好让'.'可以匹配换行符. 这个函数会返回一个list, 包含所有符合规则的匹配内容.

re.L(re.LOCALE)
让\w、\W、\b、\B、\s和\S依赖当前的locale。
re.M(re.MULTILINE)
影响'^{'和'$'的行为，指定了以后，'}'会增加匹配每行的开始（也就是换行符后的位置）；'$'会增加匹配每行的结束（也就是换行符前的位置）。
re.S(re.DOTALL)
影响'.'的行为，平时'.'匹配除换行符以外的所有字符，指定了本标志以后，也可以匹配换行符。
re.U(re.UNICODE)
让\w、\W、\b、\B、\d、\D、\s和\S依赖Unicode库。

如何写匹配规则: 其实就是三个符号.*?, 这三个符号代表的是以非贪婪模式匹配抛去换行符的所有字符串. 比如我想拿到"零基础学习爬虫"123456双引号中的内容, 就可以写"(.*?)".*?来匹配到所需内容.
上面的pattern中有两个.*?, 他们的区别为一个带括号和一个不带括号, 你可以这么理解, 带括号包含的就是我们所需的内容, 会通过re.findall返回到list中, 因为我们只需要双引号中的内容(零基础学习爬虫), 双引号后面的数字(123456)对我们来说是无效内容, 所以第二个.*?无需带括号.

现在懂得如何获取例子中的笑话了么? 代码如下:

import re

HTML = '<div class="content"><span>哥们结婚彩礼拿了十几万。女方买彩礼花了几万。剩下的几万。老丈人买了十几条大狗，当初哥们特别不解，现在知道了，只要敢惹媳妇生气。媳妇就回娘家牵回来几条，追着哥们满村跑。</span></div>'
pattern = '<div.*?><span>(.*?)</.*?></div>'
# resutl是一个list
result = re.findall(pattern, HTML, re.S)
print(result[0])

2.5 requests

爬虫可以大致分为三步:爬取源数据, 过滤数据, 保存数据.
requests就是实现第一步的神器, requests可以像url发送请求, 并将相应数据呈现给你.
requests主页
 >>>必看:一篇介绍requests的博客, 写的很好

安装requests######

首先安装pip, 一会我们安装框架基本都会通过pip. Mac下自带easy install, 在终端输入sudo easy_install pip�, 输入你的电脑密码(在终端中输入密码不会显示)即可安装成功.
使用pip来安装requests, 在终端中输入sudo pip3 install requests, 如果为Python2.X版本安装, 则输入sudo pip install requests

使用requests######

首先在sublime text中导入import requests
然后尝试获取某个网页的源码, 这里我们使用简书首页为例子r = requests.get('http://www.jianshu.com')
现在我们有一个response对象, 我们可以从这个对象中获取我们所需的所有内容.[详细语法看上面的那篇博客]
print(r.text)就可以打印出简书首页的HTML源码. Requests会自动解码来自服务器的内容. 大多数unicode字符集都能被无缝地解码.
请求发出后，Requests会基于HTTP头部对响应的编码作出有根据的推测. 当你访问r.text 之时，Requests会使用其推测的文本编码. 你可以找出Requests使用了什么编码，并且能够使用 r.encoding 属性来改变它:

>>> r.encoding
'utf-8'
>>> r.encoding = 'ISO-8859-1'

如果你改变了编码，每当你访问 r.text ，Request都将会使用 r.encoding 的新值.
所以我们获取网页的源码很简单, 就是一行代码

r = requests.get(URL)

接下来就开始我们的第一个项目了

3.项目实战

我们项目实战为爬取糗事百科热门段子中的前10页, 为什么很多教程都会选择糗事百科来作为爬虫教程呢? 因为糗事百科无需登录, 源码结构性强, 学习曲线平缓, 很适合作为我们第一个爬虫练习项目.

获取糗事百科网页源码######

导入re与requests模块, 使用requests发送get请求获取网页源码

import requests
import re

def start_spider():
    r = requests.get('https://www.qiushibaike.com/8hr/page/1')
    print(r.text)

start_spider()
# def是python中定义函数的.如果这里看不懂def的含义, 请往上翻到1.基本语法那里好好学习.

这样我们就可以获取到糗事百科热门第一页的源码了.

糗百第一页HTML

根据网页源码匹配出我们所需的段子######

使用Safari或者Chrome打开糗事百科, 按command+option+I打开web检查器, 点击元素/elements即可查看网页源代码.
爬取这种网页时, 相似的数据会有相同的属性来包裹. 例如我们想爬取第一页的段子, 那么我们先找到所有段子的相同点. 鼠标悬停在一个段子上, 右键检查元素.在下方的检查器中会发现所有的段子都被包裹在class='article block untagged mb15'的div标签中了.

找出爬取数据的相同点

展开标签, 发现段子在class="content"的标签中.

段子

我们现在就可以使用正则来匹配本页所有的段子了

import requests
import re

def start_spider():
    # 获取糗事百科源代码
    r = requests.get('https://www.qiushibaike.com/8hr/page/1')
    
    # 使用正则获取热门中的所有段子
    pattern = '<div.*?class="article block untagged mb15".*?>.*?<.*?class="content">.*?<span>(.*?)</span>.*?</div>' 
    duanzi_list = re.findall(pattern, r.text, re.S)
    print(duanzi_list)

start_spider()

duanzi_list保存着本页所有的段子
现在段子黏连的太紧而且还有一些
标签和&quot, 需要对段子进行过滤.

# 对段子进行过滤
    num = 1
    for duanzi in duanzi_list:
        filter_duanzi = re.sub('<br/>|&quot', '', duanzi)
        print(str(num) + '.' + filter_duanzi + '\n')
        num += 1

输出过滤后的段子

这样是不是就看着好多了?

对获取到的段子进行保存######

对段子的保存暂时用不到数据库或者Excel, 只需要将段子保存为一个txt文件即可, 我现在介绍一下在Python中对文件操作的open函数.

open(name[,mode[,buffering]])
name表示文件名, mode表示读写模式, buffering是一个可选参数.
读写模式:r只读, r+读写, w新建(会覆盖原有文件), a追加.

    # 对段子进行过滤
    num = 1
    for duanzi in duanzi_list:
        filter_duanzi = re.sub('<br/>|&quot', '', duanzi)
        print(str(num) + '.' + filter_duanzi + '\n')

        # 保存数据
        with open('糗事.txt', 'a', encoding ='utf-8') as f:
                f.write(str(num) + '.' + filter_duanzi + '\n\n\n')

        num += 1

只需要添加两行代码, 即可将数据保存到txt文件中. txt文件会保存在与代码同级的根目录中, 打开看一看你的成果把~

成果

这样子你的第一个爬虫就已经成功了, 虽然还有很多不足的地方, 例如只能爬取第一页, 没有交互等等. 这些优化我都会在下个文章中交给大家的~ 下课!

所有代码:

import requests
import re

def start_spider():
    # 获取糗事百科源代码
    r = requests.get('https://www.qiushibaike.com/8hr/page/1')
    
    # 使用正则获取热门中的所有段子
    pattern = '<div.*?class="article block untagged mb15".*?>.*?<.*?class="content">.*?<span>(.*?)</span>.*?</div>' 
    duanzi_list = re.findall(pattern, r.text, re.S)

    # 对段子进行过滤
    num = 1
    for duanzi in duanzi_list:
        filter_duanzi = re.sub('<br/>|&quot', '', duanzi)
        print(str(num) + '.' + filter_duanzi + '\n')

        # 保存数据
        with open('糗事.txt', 'a', encoding ='utf-8') as f:
                f.write(str(num) + '.' + filter_duanzi + '\n\n\n')

        num += 1

start_spider()

预告
在猪肚篇我会教给大家:

使用面向对象模式书写爬虫
使用XPath语法进行数据过滤
对网站反爬虫的一些应对方法
cookie的使用
scrapy神器的使用
如何将数据保存到excel中
新IDE-pycharm的使用
...

如果大家在爬取数据中有任何不懂的地方, 欢迎给我留言, 我会尽力解决的. 因为我深知在新手阶段碰见问题的迷茫感, 我会陪各位一起度过的.