我的工作室黑科技网络技术收集

不用写代码的爬虫:采集知乎数据之抓取知乎大V的文章标题

2019-08-20  本文已影响0人  不用写代码的爬虫

我们的教程直接点,不来虚的,先给个实战案例大家,过过瘾吧。

不用写代码的爬虫实战案例:采集知乎数据之抓取知乎大V的文章标题。

这位大V是:https://www.zhihu.com/people/a-hun/posts

用QQ浏览器打开上面的网址

​​

在页面上点击鼠标右键,会出现一个菜单选项,然后点击“检查”

​​

点击“检查”后

​​

如果Web Scraper不在底部显示,就设置一下

​​

按下图操作,很简单就设置成功了

​​

成功了

​​

按下图操作,进入Web Scraper的页面

​​

进入后,按下图点击“Create new sitemap”

​​

会弹出菜单,接着,点击"Create Sitemap",会出现下图的输入框

​​

“Sitemap name” 这个就是让你给这次采集数据的任务随便起个名字,当然起个有含义的名字好点,方便一看就知道是干什么的,是采集哪个网站的。名字,只能输入拼音或英文啊,不接受中文的。

这里我输入的名字是:zhihu-da-v

“Start URL” 这个就是我们要采集的网址,直接复制上面的网址进来就可以了。

​​

最后,点击那个按钮“Create Sitemap” ,就会保存好,设置成功了。

​​

点击“Add new selector”后

​​

接着就是按照下图,点击"Select"

​​

点击后,进入了选择状态了。在网页上移动鼠标,你会有惊奇的发现。

按下图操作吧

​​

接着,就是按照上面的操作,点击其他文章标题,当你点击第二个、第三个之后,你会发现所有的文章标题都自动选中了。

​​

最后,就是按照下图操作,保存了。

​​

保存好,如下图所示:

​​

继续按照下图操作,点击“Scrape”

​​

最后,按下图操作,点击“Start scraping”

​​

采集过程中,会弹出一个浏览器窗口,打开的网址正是上面知乎大V的网址。

等窗口自动关闭后,就是采集完数据了。

​​

点击“refresh”按钮后:

​​

可以导出采集到的数据,直接导出到excel表格中:

​​

将excel表格保持到电脑里:

​​

这里打开看看excel表格,看看效果吧:

​​

好了,都学会了吧。

是不是很简单呢?完全不用写一句代码哦。

这次只是抓了一页的数据而已,下次我教大家可以一次抓多页的方法。

就是一次性将所有的文章标题都抓下来。

我们先从简单的来吧,慢慢来!

边操作,边学,效果最好了!

更多教程,请关注公众号:不用写代码的爬虫

上一篇下一篇

猜你喜欢

热点阅读