不用写代码的爬虫:采集知乎数据之抓取知乎大V的文章标题
我们的教程直接点,不来虚的,先给个实战案例大家,过过瘾吧。
不用写代码的爬虫实战案例:采集知乎数据之抓取知乎大V的文章标题。
这位大V是:https://www.zhihu.com/people/a-hun/posts
用QQ浏览器打开上面的网址
在页面上点击鼠标右键,会出现一个菜单选项,然后点击“检查”
点击“检查”后
如果Web Scraper不在底部显示,就设置一下
按下图操作,很简单就设置成功了
成功了
按下图操作,进入Web Scraper的页面
进入后,按下图点击“Create new sitemap”
会弹出菜单,接着,点击"Create Sitemap",会出现下图的输入框
“Sitemap name” 这个就是让你给这次采集数据的任务随便起个名字,当然起个有含义的名字好点,方便一看就知道是干什么的,是采集哪个网站的。名字,只能输入拼音或英文啊,不接受中文的。
这里我输入的名字是:zhihu-da-v
“Start URL” 这个就是我们要采集的网址,直接复制上面的网址进来就可以了。
最后,点击那个按钮“Create Sitemap” ,就会保存好,设置成功了。
点击“Add new selector”后
接着就是按照下图,点击"Select"
点击后,进入了选择状态了。在网页上移动鼠标,你会有惊奇的发现。
按下图操作吧
接着,就是按照上面的操作,点击其他文章标题,当你点击第二个、第三个之后,你会发现所有的文章标题都自动选中了。
最后,就是按照下图操作,保存了。
保存好,如下图所示:
继续按照下图操作,点击“Scrape”
最后,按下图操作,点击“Start scraping”
采集过程中,会弹出一个浏览器窗口,打开的网址正是上面知乎大V的网址。
等窗口自动关闭后,就是采集完数据了。
点击“refresh”按钮后:
可以导出采集到的数据,直接导出到excel表格中:
将excel表格保持到电脑里:
这里打开看看excel表格,看看效果吧:
好了,都学会了吧。
是不是很简单呢?完全不用写一句代码哦。
这次只是抓了一页的数据而已,下次我教大家可以一次抓多页的方法。
就是一次性将所有的文章标题都抓下来。
我们先从简单的来吧,慢慢来!
边操作,边学,效果最好了!
更多教程,请关注公众号:不用写代码的爬虫