python scrapy爬虫入门

2020-01-08 本文已影响0人木木_FL

在Mac OS 系统进行：
1、首先按照scrapy模块：pip install scrapy
2、创建项目：scrapy_accumulus
3、进入项目路径, 并初始化
cd ~/scrapy_accumulus
并初始化一个项目douban:
scrapy startproject accumulus

image.png

4、生成初始化文件
scrapy genspider scrapy_accoumulus *****

image.png

5 : 根据需要抓取的对象编辑数据模型文件 items.py ,创建对象(序号,名称,描述,评价等等).

image.png
6 : 编辑爬虫文件scrapy_accumulus.py

# -*- coding: utf-8 -*-
import scrapy

class ScrapyAccoumulusSpider(scrapy.Spider):
    # 爬虫的名称
    name = 'scrapy_accoumulus'
    # 爬虫允许抓取的域名    
    allowed_domains = ['movie.douban.com']
    # 爬虫抓取数据地址,给调度器
    start_urls = ['http://movie.douban.com']
    def parse(self, response):
        # 打印返回结果
        print(response.text)

      
if __name__ == '__main__':
    from scrapy import cmdline
    cmdline.execute("scrapy crawl scrapy_accoumulus".split())

7、执行并查看结果

python scrapy爬虫入门

猜你喜欢

热点阅读