Spbeen——Python技术栈程序员

Scrapy介绍和环境安装

2017-04-11  本文已影响89人  布拉豆

训练营简介

本训练营从一个简单的Scrapy项目入手,先看到结果数据,然后对爬虫的结构以及Scrapy的运行规则进行剖析。再到网页的爬取规则编写和价值数据入库保存的讲解。最后针对几种不同类型的数据网站,进行爬取训练,巩固和强化自身的爬虫技能。

一、实验说明

1.1 实验内容

主要讲解如何使用系统自带的Python安装Scrapy框架。

1.2 实验环境

1.3 实验知识点

二、Scrapy介绍

Scrapy,Python开发的一个快速,高层次的屏幕抓取和web抓取框架,用于抓取web站点并从页面中提取结构化的数据。Scrapy用途广泛,可以用于数据挖掘、监测和自动化测试。

Scrapy吸引人的地方在于它是一个框架,任何人都可以根据需求方便的修改。它也提供了多种类型爬虫的基类,如BaseSpider、sitemap爬虫等,最新版本又提供了web2.0爬虫的支持。

Scratch,是抓取的意思,这个Python的爬虫框架叫Scrapy,大概也是这个意思吧,就叫它小刮刮吧如果你查看英文页面,用工具翻译成中文,就可以看到小刮刮这个词。

三、环境的配置

实验楼的在线环境不包含Scrapy库的,我们需要自行安装Scrapy库。请先安装环境在继续后续课程学习,学习过程中请不要忘记保存环境。

sudo apt-get update  # 首先更新一下Ubuntu中的源
sudo apt-get install python3-lxml python3-dev libffi-dev libxml2-dev  #安装必备python的拓展库
安装必备的python扩展库安装必备的python扩展库
sudo pip3 install --upgrade pip #课程使用Python3,虚拟机自带的Python3的pip版本较低,先升级!
安装pip安装pip
sudo pip3 install --upgrade six
安装six安装six
sudo pip3 install scrapy #安装scrapy并更新

安装完成后查看scrapy版本号,输入命令scrapy version查看版本,本训练营课程使用的是1.3.2版本

此处输入图片的描述此处输入图片的描述

到目前为止,Scrapy已经安装成功了,使用命令cd进入到桌面cd Desktop,使用scrapy命令新建一个scrapy爬虫项目,命令行:scrapy startproject first_spider

创建scrapy文件流程创建scrapy文件流程

此时桌面上就多有一个名为first_spider的文件夹

新建Scrapy项目新建Scrapy项目

四、Scrapy项目文件介绍

初始化Scrapy项目中,各文件和文件夹的作用

此处输入图片的描述此处输入图片的描述

first_spider文件夹内,有一个scrapy.cfg配置文件和first_spider的文件夹

Scrapy环境的安装和Scrapy初始化项目的文件介绍就到这里,下一个实验会给出一个可以直接运行的爬虫项目,对目标网站进行数据抓取和保存,并带着大家详细的剖析。

实验楼项目--传送门

Python教程、教程--传送门

上一篇 下一篇

猜你喜欢

热点阅读