不写代码，你也可以抓取任意公众号

2018-08-11 本文已影响163人明白1

如题目所言，本文介绍一个小技能，可以让大家自己动手，统计到公众号所有历史标题，和发布时间。

这个技能也叫做爬虫，不过爬虫需要写代码，门槛比较高，明白给大家分享一个谷歌插件 webscraper，不仅可以实现爬虫的功能，而且一行代码都不用写。

这里就拿公众号抛砖引玉，举个例子。

这个过程很简单，大家只需要点点鼠标就行。

一、下载安装软件

webscraper 是运行在谷歌浏览器之中，所以我们需要实际需要安装两个软件

谷歌浏览器
webscraper

这两个软件如果大家之前用过，就可以直接跳到第二步。

如果没有，可以看下面这个视频，里面详细介绍了安装步骤。

https://v.qq.com/x/page/j0753l7ki12.html

二、抓取数据

我因为手头只有 mac 系统，所有我介绍一下 mac 的抓取方式。

1、从浏览器打开公众号历史列表

打开 mac 版微信，进入某个公众号，点开历史文章页面，如下图——

image.png

点击历史文章页面图标（上图标注2）后，会弹出一个窗口，可以看到下面的图片——

image.png

这块如果你看到的是其他浏览器图标，则需要将系统默认浏览器设置为谷歌浏览器。这块自己百度一下

点击上图标注的浏览器logo，即可在浏览器查看公众号历史文章列表，这个页面，记为 A，不要关闭。

这个网页URL，也就是浏览器地址栏的信息，复制到某个地方保存下来，记为 B，这个很重要。
如下图

image.png

如果你点开出现下面的情况——

image.png

说明你的微信版本太高，最新版的微信内置浏览器，所以无法通过浏览器查看。需要退回到上一个版本的微信，公众号「多元思维Hack」后台回复“微信”，即可下载重新安装

2、开始抓取数据

（1）在上面的 A 网页，点击鼠 右键 ——> 审查元素（检查）

可以看到下方界面，如果和图片不一致，可以翻看上面的视频演示。

图片下方的一大列信息请忽略，能看到红框标注的 web scraper即可。

（2）点击 Create new sitemap ——> Import Sitemap，如下图。

image.png

点击 Import Sitemap 后，可以看到下面界面——

在 Sitemap JSON 右侧输入下面信息：

{"_id":"testwechat","startUrl":["https://mp.weixin.qq.com/mp/profile_ext?action=home&__biz=MzI3ODU2MTUwOA==&scene=124&#wechat_redirect"],"selectors":[{"id":"total","type":"SelectorElementScroll","parentSelectors":["_root"],"selector":"div.weui_media_box","multiple":true,"delay":"3000"},{"id":"title","type":"SelectorText","parentSelectors":["total"],"selector":"h4.weui_media_title","multiple":false,"regex":"","delay":0},{"id":"date","type":"SelectorText","parentSelectors":["total"],"selector":"p.weui_media_extra_info","multiple":false,"regex":"","delay":0}]}

注意！！上面加粗的链接，大家需要换成自己想要抓取的公众号历史文章界面的网址，这个网址，上面让大家复制保存记为 B了。（忘了的可以上拉看下）

Rename Sitemap，就是重新起个名字，你抓的哪个公众号，就取什么最好，做到顾名思义。（也可以不写，默认为 testwechat）

填完点击最下面的 Import Sitemap即可。

（3）开始抓取，点击中间栏 “Sitemap 你起的名字” ——> Scrape。

如下图——

image.png

出现下方界面，需要填两个信息，默认即可。

image.png

点击“Start scraping”，就是见证奇迹的时刻。

浏览器会弹出一个新窗口，这个窗口会自动下拉，直到将公众号的文章全部抓取完毕才会停止，这个过程，你可以去做其他任何事情，但是不要关闭这个弹出窗口。

如果你出现下面这个界面，提示“验证”，卡住不动，说明你没有做上面的修改链接步骤，请回到上面第（2）步。

image.png

等到数据抓取完毕，可以看到下面这个界面，点击 “refresh”
一定等抓完再点 refresh

image.png

（4）导出excel到电脑上：点击中间栏 “Sitemap 你起的名字” ——> Export data as CSV

如下图——

点击 Download now! ，如下图

image.png

至此，我们已经将一个公众号的所有标题，以及发文日期抓取完毕。下载的 CSV 文件可以用excel打开。

excel里面的内容，大家关注自己需要的即可，无关的列，可以删掉。

如果大家想看某篇文章的内容，可以复制标题，到搜狗微信搜索（http://weixin.sogou.com/）即可看到原生内容。

不足之处

1、使用webscraper，无法抓取点赞数、评论。但是可以采用第三方插件——西瓜插件（http://chajian.xiguaji.com/），效果如下图

2、由于公众号网页端的限制，使用webscraper 无法抓取文章对应的链接。
所以，如果对于抓取好的公众号，如果想要查看某篇文章内容，可以复制标题到搜狗微信搜索（http://weixin.sogou.com/）。

如果你是每篇都需要看内容，那我建议你使用 p大叔（http://pdfuncle.com/），可以将公众号文章批量导出为 PDF，这样阅读起来体验更好。

3、由于抓取格式设置，只抓取了文章，没有抓取文字和图片。如果某天公众号发的是纯文字或图片，则会出现内容是null。
（完）

如果觉得文章不错，可以转发给需要的朋友。

不写代码，你也可以抓取任意公众号

一、下载安装软件

二、抓取数据

1、从浏览器打开公众号历史列表

2、开始抓取数据

不足之处

猜你喜欢

热点阅读

不写代码，你也可以抓取任意公众号

一、 下载安装软件

二、 抓取数据

1、从浏览器打开公众号历史列表

2、开始抓取数据

不足之处

猜你喜欢

热点阅读

一、下载安装软件

二、抓取数据