目前最快的Python爬虫速成法！两步即可学会

2018-12-12 本文已影响4人璃沫仙人

这个信息传递非常快的时代，学会信息和数据快速采集和爬取都是非常必要的。

爬虫

python web scraper可以说是这个时代的火箭头了，设置简单，非常高效，采集咪蒙文章标题仅需2分钟，采集58同城5000条租房信息也就5分钟而已。
Web scraper是google强大插件库中非常强大的一款数据采集插件，有强大的反爬虫能力，只需要在插件上简单地设置好，可以快速抓取知乎、简书、豆瓣、大众、58等大型、中型、小型的90%以上的网站，包括文字、图片、表格等内容，最后快速导出csv格式文件。Google官方对webscraper给出的说明是：使用我们的扩展，您可以创建一个计划(sitemap)，一个web站点应该如何遍历，以及应该提取什么。使用这些sitemaps,Web刮刀将相应地导航站点并提取所有数据。稍后可以将剪贴数据导出为CSV。Webscraperk课程将会完整介绍流程介绍，用知乎、简书等网站为例介绍如何采集文字、表格、多元素抓取、不规律分页抓取、二级页抓取、动态网站抓取，以及一些反爬虫技术等全部内容。我也将在近期开始web scraper课程，web scraper的安装Web scraper是google浏览器的拓展插件，它的安装和其他插件的安装是一样的。
如果无法下载webscraper或其他python资料，可以联系小编。
1、准备工作： Python、scrapy、一个IDE编译器
随便建一个工作目录，然后用命令行建立一个工程，工程名为miao，可以替换为你喜欢的名字。
scrapy startproject miao
随后你会得到如下的一个由scrapy创建的目录结构

资料群827502865

在spiders文件夹中创建一个python文件，比如miao.py，来作为爬虫的脚本。
内容如下：
import scrapy
class NgaSpider(scrapy.Spider):
name = "NgaSpider"
host = "http://bbs.ngacn.cc/"

start_urls是我们准备爬的初始页

start_urls = [
"http://bbs.ngacn.cc/thread.php?fid=406",
]

这个是解析函数，如果不特别指明的话，scrapy抓回来的页面会由这个函数进行解析。

对页面的处理和分析工作都在此进行，这个示例里我们只是简单地把页面内容打印出来。

def parse(self, response):
print response.body
2、跑一个试试？
如果用命令行的话就这样：
cd miao
scrapy crawl NgaSpider
你可以看到爬虫君已经把你坛星际区第一页打印出来了，当然由于没有任何处理，所以混杂着html标签和js脚本都一并打印出来了。

资料群827502865

以下是几个比较重要的地方：
scrapy的架构:
http://scrapy-chs.readthedocs.io/zh_CN/0.24/topics/architecture.html
xpath语法：
http://www.w3school.com.cn/xpath/xpath_syntax.asp
Pipeline管道配置：
http://scrapy-chs.readthedocs.io/zh_CN/0.24/topics/item-pipeline.html
Middleware中间件的配置：
http://scrapy-chs.readthedocs.io/zh_CN/0.24/topics/downloader-middleware.html
settings.py的配置：
http://scrapy-chs.readthedocs.io/zh_CN/0.24/topics/settings.html

python是一个世界的大门，我相信在这里面，你一定能找到你喜欢的，人生程序。

目前最快的Python爬虫速成法！两步即可学会

start_urls是我们准备爬的初始页

这个是解析函数，如果不特别指明的话，scrapy抓回来的页面会由这个函数进行解析。

对页面的处理和分析工作都在此进行，这个示例里我们只是简单地把页面内容打印出来。

猜你喜欢

热点阅读