python-Scrapy程序员

Win32 Python3.6爬虫-Scrapy简介与安装

2017-09-03  本文已影响50人  杏月阿六

一、Scrapy介绍

Scrapy是Python开发的一个快速、高层次的屏幕抓取和web抓取框架,用于抓取web站点并从页面中提取结构化的数据。Scrapy用途广泛,可以用于数据挖掘、监测和自动化测试。

​ ——来源于百度百科

使用Scrapy爬取一个网页需四步骤:

  1. 创建一个Scrapy项目;
  2. 定义Item容器;
  3. 编写爬虫;
  4. 储存内容。

下图展现的是Scrapy的架构,包括组件及在系统中发生的数据流(图中绿色箭头)。

运行Scrapy

若不能一次性成功安装,则需安装对应版本的以下模块:

pip install wheel
pip install lxml
# 安装lxml3.8.0后,提示etree找不到;改安装3.7.3版才解决这个问题
pip install pyOpenSSL

然后,http://www.lfd.uci.edu/~gohlke/pythonlibs/#twisted 下载相应版本的Twisted-17.5.0。命令窗口切换到该文件所在目录,pip安装,代码如下:

pip install Twisted‑17.5.0‑cp36‑cp36m‑win32.whl # 包含后缀的文件全名

这样,Scrapy应该就能正常安装了。

但是,有的电脑还是Scrapy不能成功运行,提示没有win32api,则需安装win32py,下载地址:https://sourceforge.net/projects/pywin32/files/ ,下载相应版本的exe文件,运行,安装成功后,Scrapy就能成功运行了。


以上是我在安装过程中遇到的问题,如果有其他错误,欢迎交流探讨!

安装只是第一步,后续将用Scrapy创建项目,以便熟悉。

上一篇 下一篇

猜你喜欢

热点阅读