爬取图片和文字链接并保存

2017-01-01 本文已影响0人 up_shang

1正则表达式

贪婪与非贪婪

例如r'src="(.+?/.jpg)”就是图片

而r'src="(.+/.jpg)”jpg会到最后一个，不会出

urllib.urlretrieve（url，local，callback）存图片

注意有些网站会对cookie进行检测。要弄一下。‘

有些有登录名的可以把string转为url的格式再加载url后，加request就行了

结合网络域名收集并与这个方法用连用就可以了

1.先下载个目标中的任意页面到本地。进行抓取测试

2.过滤的时候要宏观一点。不要太体到一条。否则可能会漏掉

3.好用一点findall（tag类，合适字典对），可以一点点缩小范围。结合正则好用。

4.attr：标签属性一般有class name

5.抓取时除了注意头信息和cookie。最好再多使用几个代理

6.最后要想着怎么把数据存进数据库