学会这几个命令,你也会scrapy爬虫爬小说
2022-07-10 本文已影响0人
新潮看世界
Scrapy 是一个开源 Python 框架,专为大规模 Web 抓取而设计。它为我们提供了从任何网站提取、处理和存储数据所需的所有工具。
这个框架的美妙之处在于它可以轻松地大规模构建自定义蜘蛛并使用 CSS 或 XPath 选择器收集特定元素、管理文件(JSON、CSV 等)以及维护我们的项目。
接下来我们只要执行几个命令就可以爬到一个小说的简介:
前提是已经安装了python3,并且已经加入了系统环境变量,我用的是python3.9
1.打开powershell,执行python -m venv scrapy_test(名字自己取就行)
2.执行scrapy_test\scripts\activate.bat
3.执行pip3 install scrapy
4.在scrapy_test目录位置下,执行scrapy startproject scrapytest新建一个项目
5.执行scrapy shell,进入另一个shell环境
scrapy shell6.然后fetch网页,执行:
fetch('http://www.gebiqu.com')
fetch到网页之后,内容会保存在response变量中。
7.执行view(response),打开浏览器,保存的网页文件会自动被打开
我们打开开发者工具,找到对应简介的标签
8.执行获取标签内容response.css('div.item').get(),
可以看到,文本和图片轻松得到。