人肉python脚本爬虫
2015-05-30 本文已影响1373人
可可leaf
看了几天的python,发现python的语法确实简单。今天了解了一下python写爬虫,在这里记录一下。

首先 我们要下载pycharm
然后新建工程

第一种办法
目录如上 rexx.py 是使用正则表达式的方法 meizi.py是使用BeautifulSoup 三方库来实现解析jpg图片链接(早就听说python的第三库多且牛)
正则表达式我在这就不多描述代码如下

首先里面用到了requests 这个库 。同理我们用时pip install requests安装
source.txt 是我们把网页源码复制到txt里面解析的(人肉就是 手动操作哈哈!后面会介绍不用自己复制粘贴源码的操作)
解析完txt文件 使用正则表达式匹配出我们的图片 最终把他写入文件就可以了
第二种办法
在meizi.py文件里面 代码如下

这里用到了自带的类库 urllib2 以及BeautifulSoup
当然我们可以把代码复制到txt解析然后处理 但是现在我们现在直接urlopen一个链接
然后使用BeautifulSoup 处理拿到soup
使用soup.findall 就可以解析到想到的数据
BeautifulSoup 的功能比较多大家可以自己百度一下

这是我随便爬的图片 好玩弄的 我这只是做个备注 可能有点乱 有时间会整理下思路,大家随便看看就好。