(学习笔记) 爬虫入门(3)

2018-12-21  本文已影响0人  半颗卷心菜

本次内容学自莫烦Python2.3

        这次要爬的是这个网站https://morvanzhou.github.io/static/scraping/table.html

        这一次的目的主要是简单的使用正则表达式(廖雪峰老师的官网(正则表达式),或者莫烦python官网(莫烦Python正则表达式))

网站首页

图1 网站首页

源码太长,截图截不下,就算了

读取网页

图2 读取网页

BeautifulSoup解析,用正则表达式筛选图片链接

图3 图片链接

正则表达式筛选非图片链接

图4 非图片链接

        这次例子中的网址不是太好,不用正则表达式,直接find_all(‘tag')结果是一样的,不好观测。不过知道这一点就好了。

然后附上一张正则表达式的使用方法的图(来自莫烦Python正则表达式):

图5 正则表达式使用方法
上一篇 下一篇

猜你喜欢

热点阅读