(学习笔记) 爬虫入门(3)
2018-12-21 本文已影响0人
半颗卷心菜
本次内容学自莫烦Python2.3
这次要爬的是这个网站https://morvanzhou.github.io/static/scraping/table.html
这一次的目的主要是简单的使用正则表达式(廖雪峰老师的官网(正则表达式),或者莫烦python官网(莫烦Python正则表达式))
网站首页

源码太长,截图截不下,就算了
读取网页

BeautifulSoup解析,用正则表达式筛选图片链接

正则表达式筛选非图片链接

这次例子中的网址不是太好,不用正则表达式,直接find_all(‘tag')结果是一样的,不好观测。不过知道这一点就好了。
然后附上一张正则表达式的使用方法的图(来自莫烦Python正则表达式):
