Web Scraper

2.2 链接选择器(Link seclector)--websc

2019-12-02  本文已影响0人  niujw

例子:B站新番榜单

今天抓取新番榜单的动画名称和动画名称后的链接url


B站新番榜单

通用步骤

1. 打开插件
2. 创建sitemap
3. 选择合适的选择器(selector)
4. 爬取数据
5. 下载CSV数据

详解

这里上面5个步骤和前面一小节的步骤相同,只有第3步选择选择器不同,我们只选关键的第3步来讲解一下,抓取不同的网站或内容时 选择合适的选择器为关键点,具体网站具体分析。

1 打开软件

略过

2 创建sitemap

略过

3 选择合适的选择器(selector)

这里我们仍选择的是 B站新番榜单

1:填写selector的名称
2:因为要抓取的是名称和url 所以type选择Link选择器
3: 点击select然后选中 4,5, 6的文本,然后你发现下面的文本也被自动选中了 点击 7 Done selecting! 我们就选中了我们所需要的数据区域
8: 选中Muliple 因为我们需要是多条数据,如果不选仅仅只有一行数据
9: 选中我们的父级selector,_root 是sitemap建立后初始化的根selector,我们创建的选择器都是在_root下的子选择器
10: 保存

11

4 爬取数据

略过

5 下载数据查看数据格式

以下就是我们抓取的数据了 后面title_link-href 就是标题的链接了


5
上一篇下一篇

猜你喜欢

热点阅读