爬虫专题网络爬虫Python数据采集与爬虫

Web Scraper官方文档中文版(第4部分)

2018-01-31  本文已影响51人  风巢

Web Scraper 是谷歌 Chrome 浏览器插件,可自动化提取网页数据,实现不敲代码,指哪爬哪的目标,属于居家出行杀人越货之必备神器。以下是官方文档中文翻译:

译文第 1 部分

译文第 2 部分

译文第 3 部分

译文第 4 部分如下:

4.4 Image(图像)选择器

Image 选择器可提取图像的 src 属性。

4.4.1 配置选项

1)selector - CSS 选择器,用于提取图像元素

2)multiple - 提取多项记录。对于图像选择器,通常不勾选。

3)download image - 已移除。之前用来下载图像,如今用 script (脚本)代替。

4.4.2 应用案例

参照 Text 选择器案例。

4.4.3 图像下载脚本

使用 Image 选择器抓取到的图像网址导出 csv 文件,图像下载脚本会利用此文件进行图像下载。 图像按照 -.ext 命名。

Windows 环境

1)从随后网址下载并安装 python 3.x:

https://www.python.org/downloads/

2)从随后网址下载图像下载脚本:

https://github.com/webscraperio/image-downloader

3)抓取目标站点并导出为 CSV 格式

4)将 CSV 文件拖拽到 image-downloader.py 上方

Mac OS,Linux 环境

1、如有必要,通过包管理程序安装 python。绝大多数情况下电脑已预装 python。

2、随后网址下载图像下载脚本:

https://github.com/webscraperio/image-downloader

3、把 image-downloader.py 移动到 Downloads 目录

4、抓取目标站点并导出为 CSV 格式

5、将 CSV 文件保存至 Downloads 目录

6、打开 Terminal(终端)应用。此程序电脑上应该有预装。

7、通过输入 bash cd Downloads 将工作目录切换至 Downloads 文件夹。

8、通过输入 bash python image-downloader scraped_data.csv 运行下载脚本。

注意:此公众号的历史发文会与时俱进,如发现文中有疏漏或方案失效,请至本公众号回复发文日期(格式:yyyymmdd,eg:20180106),获取文章最新版本及更新记录,你,不关注体验下吗?

上一篇 下一篇

猜你喜欢

热点阅读