Scrapy(python爬虫框架)入门笔记

2018-05-14  本文已影响99人  草丛里的黄盖

本文章仅作为个人笔记

Scrpy官网

Scrpy官方文档

Scrpy中文文档

个人ScrapyDemo项目地址

python环境安装
scrapy 安装
pip install Scrapy
创建项目
scrapy startproject <project_name>
创建爬虫
scrapy genspider <spider_name> <host_name>
在文件夹根目录创建 requirements.txt文件并加入需要的组件,例如:
Scrapy==1.5.0
beautifulsoup4==4.6.0
requests==2.18.4
项目环境搭建
pip install -r requirements.txt
运行单个爬虫
scrapy crawl <spider_name>
运行多个爬虫(Scrapy本身并不支持命令行直接运行多个Spiders,创建一个新的python文件加入如下内容运行此python文件便可)(需按需更改)
# -*- coding: utf-8 -*-
import sys
    from scrapy.crawler import CrawlerProcess
from scrapy.utils.project import get_project_settings
from ScrapyDemo.spiders.news_estadao import EstadaoSpider
from ScrapyDemo.spiders.news_gazetaesportiva import DemoSpider
from ScrapyDemo.spiders.news_megacurioso import MegacuriosoSpider

if sys.getdefaultencoding != 'utf-8':
    reload(sys)
    sys.setdefaultencoding('utf-8')

process = CrawlerProcess(get_project_settings())
process.crawl(EstadaoSpider)
process.crawl(DemoSpider)
process.crawl(MegacuriosoSpider)
process.start()
启用pipelines用于处理结果
输出单个spider运行结果到文件
scrapy crawl demo -o /path/to/demo.json
多个spider的结果混合处理:
解决结果爬虫信息乱码问题:
爬虫示例,也可以使用文顶给出的github链接
上一篇下一篇

猜你喜欢

热点阅读