Python初学者笔记（一）：最短的抓取网页图片代码，只有10行

2018-01-10 本文已影响28人万能的老J

这几天闲来无事，又研究了一下Python的基础内容，首先研究的是如何抓取网页数据。为什么把这篇作为初学者笔记呢？只是想让大家感受一下Python的强大的功能和简便的用法。

发现大神们通常在初级教程里就要写很多代码，真让我们这些初学者无所适从。

加上Python的各种版本不同，也会让初学者头脑，在此提醒初学者，看资料一定要注意软件版本号。

还是按照我的原则，凡事要把复杂的说简单，再由简入繁的学习，才是比较科学的方法。

先上代码，再进行分析，以下程序在Python3.6中调试通过。

import urllib.request

import re

link = urllib.request.urlopen("http://dzh.mop.com/")

html_doc = link.read().decode("utf8")

jpg_list = re.findall('http.+?.jpg', html_doc)

n = 1

while n < len(jpg_list) + 1:

urllib.request.urlretrieve(jpg_list[n - 1], str(n) + '.jpg')

print("获取第" + str(n) + "张图片，网址是" + jpg_list[n - 1])

n = n + 1

看吧，我没骗大家，真的只有10行（不包括空行）。

运行完，在项目的目录里，就多出了图片。

运行结果图片

接下来再解释一下：

import urllib.request

import re

首先，导入urllib.request库和re库，如果看到资料上有urllib2库，请无视这种资料，因为已经过时了，在Python3以后的版本中，urllib2库被合并到了urllib中，所以urllib整个模块包括urllib.request, urllib.parse, urllib.error三个功能，下面在引用的时候，也可写成urllib.request如何如何。

在接下来的代码中，有四个自定义的变量名称，分别是link、html_doc、jpg_list、n，大概意思是连接、得到html文本内容、jpg的列表、还有一个记数的n，总结你喜欢叫它们什么都行，就是别搞混了。

link = urllib.request.urlopen("http://dzh.mop.com/")

link变量等于请求打开http://dzh.mop.com/网址。

html_doc = link.read().decode("utf8")

html_doc 等于link里的内容，并指定为utf8编码的文档（utf8是一种可变长度字符编码，可以在一个网页上显示多种语言）。

jpg_list = re.findall('http.+?.jpg', html_doc)

得到一个jpg_list列表，内容是用re.findall命令查找html_doc里所有符合开头和结尾是'http.+?.jpg'的字段，就是网址了。

这个里涉及一个术语叫“正则表达式”，需要另外学习一下，它能从字符串中获取我们想要的指定部分，其实类似DOS系统的“通配符”。

接下来，要统计一下符合我们需要的网址有多少个，用len(jpg_list)就可以得到，但是list是从0开始的，所以要加上1。

用urllib.request.urlretrieve功能下载jpg_list中的图片，并用数字转字符的n加'.jpg'来命名。

下一句print是废话，是怕在下载的过程中我们太寂寞。

n = n + 1就是第一张下载完了，再去下载第二张，直到len(jpg_list) 统计的个数的图片都下载完。

n = 1

while n< len(jpg_list) + 1:

    urllib.request.urlretrieve(jpg_list[n - 1], str(n) + '.jpg')

    print("获取第" + str(n) + "张图片，网址是" + jpg_list[n - 1])

n = n + 1

当然，这段代码还解决不了比如下载图片太多，主机会断开连接等问题。

但是初学者先从基本的学习，再慢慢扩展，这个是学习的必经之路。

当然，为了追求行数少，这段代码只用7行加2个变量就能搞定，不过初学者更容易看晕：

import urllib.request

import re

jpg_list = re.findall('http.+?.jpg', urllib.request.urlopen("http://dzh.mop.com/").read().decode("utf8"))

n =1

while n < len(jpg_list) + 1:

urllib.request.urlretrieve(jpg_list[n -1], str(n) + '.jpg')

n = n +1

Python初学者笔记（一）：最短的抓取网页图片代码，只有10行

猜你喜欢

热点阅读