爬取图片和文字链接并保存

2017-01-01  本文已影响0人  up_shang

1正则表达式

贪婪与非贪婪

例如r'src="(.+?/.jpg)”就是图片

而r'src="(.+/.jpg)”jpg会到最后一个,不会出

urllib.urlretrieve(url,local,callback)存图片

注意有些网站会对cookie进行检测。要弄一下。‘

有些有登录名的可以把string转为url的格式再加载url后,加request就行了

结合网络域名收集并与这个方法用连用就可以了

2实践经验

1.先下载个目标中的任意页面到本地。进行抓取测试

2.过滤的时候要宏观一点。不要太体到一条。否则可能会漏掉

3.好用一点findall(tag类,合适字典对),可以一点点缩小范围。结合正则好用。

4.attr:标签属性 一般有class  name

5.抓取时除了注意头信息和cookie。最好再多使用几个代理

6.最后要想着怎么把数据存进数据库

上一篇 下一篇

猜你喜欢

热点阅读