人肉python脚本爬虫

2015-05-30 本文已影响1373人可可leaf

看了几天的python,发现python的语法确实简单。今天了解了一下python写爬虫，在这里记录一下。

首先我们要下载pycharm

然后新建工程

第一种办法

目录如上 rexx.py 是使用正则表达式的方法 meizi.py是使用BeautifulSoup 三方库来实现解析jpg图片链接(早就听说python的第三库多且牛)

正则表达式我在这就不多描述代码如下

首先里面用到了requests 这个库。同理我们用时pip install requests安装

source.txt 是我们把网页源码复制到txt里面解析的（人肉就是手动操作哈哈！后面会介绍不用自己复制粘贴源码的操作）

解析完txt文件使用正则表达式匹配出我们的图片最终把他写入文件就可以了

在meizi.py文件里面代码如下

这里用到了自带的类库 urllib2 以及BeautifulSoup

当然我们可以把代码复制到txt解析然后处理但是现在我们现在直接urlopen一个链接

然后使用BeautifulSoup 处理拿到soup

使用soup.findall 就可以解析到想到的数据

BeautifulSoup 的功能比较多大家可以自己百度一下