基于AnyProxy自动爬取微信公众号数据(详细部署、bug说明
最近搜狗微信更改新的反爬策略,增加ua判断和多一层列表页跳转,很难找到或拼凑出列表页。(之前使用的是wechatsogou包,虽然很方便。但是逃不过验证码问题,得手动输入,并且爬到20个公众号左右就被封了,除非你换代理IP)不得不采取其它办法。AnyProxy抓包工具,亲测好用,完美绕过验证码,可以采集所有历史数据、文章永久链接、发布时间、封面图、阅读数和点赞数。
爬取过程
一、下载和安装node.js(v8.1.2版本,记得按版本下载,在这个坑爬了好久)
简单的说 Node.js 就是运行在服务端的 JavaScript。Node.js 是一个基于Chrome V8引擎的 JavaScript 运行环境。Node.js 使用了一个事件驱动、非阻塞式 I/O 的模型,使其轻量又高效。Node.js 的包管理器npm,是全球最大的开源库生态系统。
官网下载(根据自己的版本) : https://nodejs.org/dist/v8.1.2/
1、下载完成后,双击“node-v8.1.2-x64.msii”,开始安装Node.js
image.png image.pngimage.png image.png
image.png
2、node.js安装完测试
至此Node.js已经安装完成,可以先进行下简单的测试安装是否成功了,后面还要进行环境配置
在键盘按下【win+R】键,输入cmd,然后回车,打开cmd窗口
image.png二、安装AnyProxy代理服务器
1、cmd命令行或终端输入以下命令,表示全局安装AnyProxy 程序包:
npm install -g anyproxy@3.10.4
输入以上命令后,电脑会自动从网络下载程序包并安装。
参考网址:https://github.com/alibaba/anyproxy
①安装成功后会有下面两个文件
②打开cmd命令窗口,输入你的文件存放路径
npm config set prefix"D:\Develop\nodejs\node_global"
npm config set cache"D:\Develop\nodejs\node_cache"
接下来设置环境变量,关闭cmd窗口,“我的电脑”-右键-“属性”-“高级系统设置”-“高级”-“环境变量”
image.png
进入环境变量对话框,在【系统变量】下新建【NODE_PATH】,输入【D:\Develop\nodejs\node_global\node_modules】,将【用户变量】下的【Path】修改为【D:\Develop\nodejs\node_global】
image.png
image.png
image.png
image.png
2、启动AnyProxy
如出现下面提示,则表明安装并部署成功(192.168.32.187处是你的本地ip):
image.png
命令行启动AnyProxy,默认端口号8001
访问http://127.0.0.1:8002 ,web界面上能看到所有的请求信息
这个时候我们就可以打开http://127.0.0.1:8002或http://192.168.32.187:8002,如图
3、安装HTTPS 网络传输所需的证书
电脑安装
微信采用加密的HTTPS 网络传输,所以需要安装证书。
anyproxy --root
此时会在文件夹生成rootCA.crt 证书与对应的密钥rootCA.key,根据提示打开对应文件夹,双击安装rootCA.crt 证书。
手机安装
前提是手机必须与你的主机连着同一个wife,并配置代理IP(我这里以苹果手机为例)
image.png
配置代理服务器为你的IP,端口为8001
电脑命令行或终端输入下面命令启动代理程序:
anyproxy
然后打开手机浏览器输入http://192.168.32.187:8002/fetchCrtFile(192.168.32.187换成你的IP),根据提示一步步安装
打开设置>通用>关于本机>证书信任设置>把刚安装好证书开启即可
打开cmd命令行,anyproxy -i 的 参数-i 表示开启HTTPS 。
anyproxy -i
打开浏览器 输入http://192.168.32.140:8002,如图带锁的,表示访问https网址
image.png
三、安装mysql 模块部分
默认你的电脑上已经安装了mysql 数据库(我这里使用的本地127,未安装可参考https://www.jianshu.com/p/d16fb1679a87),现在node 连接mysql 数据库,也需要安装一个程序包来实现:
npm install -g mysql
程序下载:https://gitee.com/zsyoung01/AnyProxy,这里有sql文件,把库和表执行创建到自己的数据库里。
myRule.js文件开头会有数据库连接,对应修改成自己的数据库配置。
// 创建数据库连接,需根据自己数据库账号密码修改
var connection = mysql.createConnection({
host: 'localhost',
user: 'root',
password: '0000',
database: 'phone_weixin'
});
四、程序部分
windows 程序AnyProxy 默认的安装目录在:
C:\Users\你的用户名\AppData\Roaming\npm\node_modules\anyproxy
本程序为修改和增加AnyProxy 中lib 文件中对应的代码部分。
1、代码部分
文章末尾获取下面5个文件,你只需覆盖掉lib 目录中对应的文件即可。(建议先备份)
./anyproxy
./lib
myRule.js
rule_default.js
1.png
requestHandler.js
httpsServerMgr.js
getPort.js
其中逻辑部分主要写在myRule.js文件中,此文件已做了详细的注释
rule_default.js是判断各种网络请求数据然后调用对应的方法
1.png为很小的一个图片,替换手机所有图片请求,加快网络传输速度
getPort.js是得到端口号的js
其余两个文件是注释掉了之前在终端打印的一些提示性的字符,不重要
2、运行程序部分
anyproxy -i
终端输入以上命令即可运行。
可能会报错(可忽略):Error: ER_NOT_SUPPORTED_AUTH_MODE: Client does not support authentication protocol requested by serv
起因:mysql8.0加密方式的原因报错。
解决办法:
执行指令
mysql -u root -p 123456 # 改成你的用户名、密码
use mysql;
alter user 'root'@'localhost' identified with mysql_native_password by '123456';
flush privileges;
可操作myRule.js 文件,选择对应的功能。修改文件后,需重启程序。
之后选择查看公众号>全部文章>任意点开一篇文章浏览到底部,即可自动抓取所有历史数据至数据库中。(想要抓取某个公众号最近文章,直接在微信添加朋友输入公众号,进入点击下面全部消息,不用关注,程序会自动采集)
myRule.js 代码主要部分
三个主要函数:
getProfile - 对历史页的操作,获取文章其他数据;插入自动翻页代码 getReadAndLikeNum - 获取文章点赞、阅读、打赏等数据 insertJsForRefresh - 对文章页的操作,主要是插入自动翻页代码
代码原理
此程序为事件驱动。即一开始要给定一个触发事件,例如打开微信公众号查看历史消息或打开公众号某篇文章。
微信打开历史消息页之后会触发事件,运行getProfile函数,跳至下一个历史消息页后又会触发打开历史消息页此事件。
同理,微信打开文章页会触发事件运行insertJsForRefresh 函数,此函数会向网页中插入一段脚本自动翻页,当翻页后,又会触发此事件,然后一直运行下去。
同理,打开文章页时,微信会请求另一个链接,然后会自动触发getReadAndLikeNum 函数,获取阅读量和点赞数。
历史消息页有4种插入js 代码的方式,已在代码中注释。
Js 注入详解
文章页自动翻页原理为在网页head 部分插入类似以下形式代码,表示隔5s 跳转至下一个文章页
<meta http-equiv="refresh" content="5;url=https://..." />
历史消息页注入Js 脚本示例,将以下脚本插入至返回给微信客户端的数据中,可以使网页自动下拉至最低端,到最早一篇文章之后再跳转至下一个历史消息详情页:
<script type="text/javascript">
var end = document.createElement("p");
document.body.appendChild(end);
(function scrollDown(){
// 下拉至页面最低端后,微信会自动向服务器请求数据
end.scrollIntoView();
var loadMore = document.getElementsByClassName("loadmore with_line")[0];
// 判断是否到达最早一篇文章
if (!loadMore.style.display) {
document.body.scrollIntoView();
// 插入meta,使10秒后自动翻页
var meta = document.createElement("meta");
meta.httpEquiv = "refresh";meta.content = "10;url=' + nextProLink + '";
document.head.appendChild(meta);
} else {
// 每个随机时间段下拉网页
setTimeout(scrollDown,Math.floor(Math.random()*2000+1000));
}
})();
</script>
在代码部分中有4个这样类似的脚本,用于实现不同情况下特定的功能。你可在运行时作出选择。 ####数据库部分
数据库中有4张表,分别对应文章信息,历史消息抓取记录和公众号信息。
msg
history
mpaccout
表的结构也在文章末尾文件中。在mysql 数据库中新建好即可。
msg.sql
id - 文章id,自动递增
msg_title - 文章标题
msg_link - 文章永久链接
publish_time - 文章发布时间,13位时间戳形式
modi_time - 数据抓取时间,13位时间戳形式
read_num - 阅读量
like_num - 点赞量
reward_total_count - 安卓手机赞赏量
msg_idx - 文章发布位置,首条、二条等等
msg_biz - 公众号唯一标识,重要
msg_source_url - 文章阅读原文链接,若无则空
msg_cover - 文章封面图片链接
msg_digest - 文章摘要
is_fail - 文章是否删除,如果删除改为1,下次就不在抓取
copyright_stat - 文章是否原创标识 11为原创 100为无原创 101为转发
author - 文章作者
mpaccount.sql
id - 公众号id,自动递增
biz - 公众号唯一标识
nickname - 公众号名称
metavalue - 公众号id
history.sql
id - 公众号id,自动递增
biz - 公众号唯一标识
url - 上次抓取的链接
moditime - 上次抓取时间
如有不足的地方,还请多多指教。
参考链接:https://gitee.com/zsyoung01/AnyProxy