我爱编程

Scrapy使用Pipeline写入MongoDB

2018-03-24  本文已影响0人  MR_ChanHwang
  1. pipelines.py中写入MongoDBPipeline,代码如下:
from scrapy import Item
import pymongo
class MongoDBPipeline(object):
    """
    将item写入MongoDB
    """

    @classmethod
    def from_crawler(cls, crawler):
        cls.DB_URL = crawler.settings.get('MONGO_DB_URI', 'mongodb://localhost:27017')
        cls.DB_NAME = crawler.settings.get('MONGO_DB_NAME', 'scrapy_data')
        return cls()

    def open_spider(self, spider):
        self.client = pymongo.MongoClient(self.DB_URL)
        self.db = self.client[self.DB_NAME]

    def close_spider(self, spider):
        self.client.close()

    def process_item(self, item, spider):
        collection = self.db[spider.name]
        post = dict(item) if isinstance(item, Item) else item
        collection.insert_one(post)
        return item
  1. 在配置文件settings.py中对所要使用的数据库进行设置:
MONGO_DB_URI = 'mongodb://localhost:27017'
MONGO_DB_NAME = 'scrapy_data'
  1. 运行爬虫查看。

若没有MongoDB,可查看此文章:https://www.jianshu.com/p/1ab7f03f4e5a
运行Docker命令进入MongoDB:

docker exec -it mongo_db mongo
>use scrapy_data
>db.books.count()
1000
>db.books.find()
...

即可查看数据库中的结果

上一篇 下一篇

猜你喜欢

热点阅读