（学习笔记）爬虫入门（3）

2018-12-21 本文已影响0人半颗卷心菜

本次内容学自莫烦Python2.3

这次要爬的是这个网站https://morvanzhou.github.io/static/scraping/table.html

这一次的目的主要是简单的使用正则表达式（廖雪峰老师的官网（正则表达式），或者莫烦python官网（莫烦Python正则表达式））

网站首页

图1 网站首页

源码太长，截图截不下，就算了

读取网页

图2 读取网页

BeautifulSoup解析，用正则表达式筛选图片链接

图3 图片链接

正则表达式筛选非图片链接

图4 非图片链接

这次例子中的网址不是太好,不用正则表达式，直接find_all（‘tag')结果是一样的，不好观测。不过知道这一点就好了。

然后附上一张正则表达式的使用方法的图（来自莫烦Python正则表达式）：

图5 正则表达式使用方法

上一篇下一篇

猜你喜欢

热点阅读