租房?Scrapy给你安排的明明白白

2018-09-10  本文已影响8人  实训邦小姐姐

Scrapy是Python开发的一个快速、高层次的屏幕抓取和web抓取框架,用于抓取web站点并从页面中提取结构化的数据。

Scrapy用途广泛,可以用于数据挖掘、监测和自动化测试。

Scrapy吸引人的地方在于它是一个框架,任何人都可以根据需求去修改。

Scrapy Engine(引擎): 负责Spider、Item Pipeline、Downloader、Scheduler中间的通讯,信号、数据传递等。

Scheduler(调度器): 它负责接受引擎发送过来的Request请求,并按照一定的方式进行整理排列,入队,当引擎需要时,交还给引擎。

Downloader(下载器):负责下载Scrapy Engine(引擎)发送的所有Requests请求,并将其获取到的Responses交还给Scrapy Engine(引擎),由引擎交给Spider来处理

Spider(爬虫):它负责处理所有Responses,从中分析提取数据,获取Item字段需要的数据,并将需要跟进的URL提交给引擎,再次进入Scheduler(调度器)

Item Pipeline(管道)它负责处理Spider中获取到的Item,并进行进行后期处理(详细分析、过滤、存储等)的地方

Downloader Middlewares(下载中间件):你可以当作是一个可以自定义扩展下载功能的组件

Spider Middlewares(Spider中间件):你可以理解为是一个可以自定扩展和操作引擎和Spider中间通信的功能组件(比如进入Spider的Responses;和从Spider出去的Requests)

新建项目 (scrapy startproject xxx):新建一个新的爬虫项目

明确目标 (编写items.py):明确你想要抓取的目标

制作爬虫 (spiders/xxspider.py):制作爬虫开始爬取网页

存储内容 (pipelines.py):设计管道存储爬取内

Scrapy shell的使用

1.安装Pycharm专业版,ipython

2、打开windows命令提示符,输入scrapy,列出用法

3、安装环境

4、我们需爬取租房信息,输入scrapy shell http://tj.ganji.com/fang1/chaoyang/

输入后会返回状态和参数,200表示成功

二、浏览器和xpath学习

1、使用xpath获取要抓取的内容,选取xpath可以用火狐浏览器器的firebug和firepath,两个配合使用。

2、选取合适的xpath获取页面所有价钱

然后在命令提示符中输入:

response.xpath(".//*[@id=’puid-2475025075’/dl/dd[5]/div[1]/span[1]/text()").extract()

text()是xpath的一个方法,获取文本内容

extract():序列化该节点为unicode字符串并返回list

这样就用scrapy shell 获取了所有价钱,同样的,也可以通过改变xpath获取其他内容

三、Scrapy项目的创建

1、在前面输入 scrapy 的时候有个选项是 startproject,这个选项是创建scrapy项目,我们在命令提示符中输入:scrapy startproject zufang (zufang是项目名称)

2、打开pycharm-->file-->open 找到建好的项目,显示项目结构

_init_.py 保持默认,不修改

items.py 保存爬取到的数据的容器

middlewares.py 中间件配置文件

settings.py 项目的设置文件,延迟等。

pipelines.py 项目管道文件,对传入的项目类中的数据进行一个清理和入库

spiders目录 该目录下只有一个init.py 文件,在该目录下定义爬虫类并集成scrapy.Spider

3.输入

在Terminal显示数据

四、创建数据库

1、在Terminal输入

2完成创建数据库

3、按住这个文件拖动到右侧的Database中

Tips:Database默认是在右侧,如果没有的话可能pycharm不是专业版或者没调出来

创建完成效果

 五、爬取数据

在Spiders目录下创建Python文件

1、Ganji.py:

2、items.py

3、pipelines.py

4、setting.py

 六、最后运行

运行命令为scrapy crawl XXX

scrapy crawl zufang

再查看数据库

通过数据爬取,不难发现朝阳区哪些房价为最高与最低等一些基本信息,最重要的还是房屋介绍这个深坑,希望小伙伴以后租房多加一个心眼。实训邦新上线的《Scraoy租房项目》课程帮你解决租房问题~

一、本项目介绍

二、课程大纲

三、你将获得

四、适合人群

                                                    录播课程,购买后可反复回看

                                             现在添加小姐姐价值¥69的Scrapy课程

                                                可享免费学习,记得来找小姐姐

上一篇 下一篇

猜你喜欢

热点阅读