python数据获取

scarpy初识

2017-08-09  本文已影响21人  听城

Scrapy是一个为了爬取网站数据,提取结构性数据而编写的应用框架。 可以应用在包括数据挖掘,信息处理或存储历史数据等一系列的程序中。Scrapy的一个最主要的优势: 请求(request)是被异步调度和处理的。 这意味着,Scrapy并不需要等待一个请求(request)完成及处理,在此同时, 也发送其他请求或者做些其他事情。 这也意味着,当有些请求失败或者处理过程中出现错误时,其他的请求也能继续处理。在允许您可以以非常快的速度进行爬取时(以容忍错误的方式同时发送多个request), Scrapy也通过 一些设置来允许您控制其爬取的方式。 例如,您可以为两个request之间设置下载延迟, 限制单域名(domain)或单个IP的并发请求量,甚至可以 使用自动限制插件 来自动处理这些问题。

scrapy项目创建及目录结构

在开始爬取之前,您必须创建一个新的Scrapy项目。 进入您打算存储代码的目录中,运行下列命令:scrapy startproject projectname

创建项目

在文件夹内可以看到该项目的目录结构

目录结构

我们可以看到这里生成了一个与项目名称同名的文件夹,该文件夹下有一个同名文件夹和一个scrapy.cfg文件。

使用项目命令genspider创建Spider

根据创建项目时命令行提示进入项目文件夹内,运行scrapy genspider example example.com
这里要提到scrapy的命令,它分为全局命令和项目命令,使用scrapy <command> -h可以查看详细的命令信息

上一篇 下一篇

猜你喜欢

热点阅读