基于AnyProxy自动爬取微信公众号数据（详细部署、bug说明

2019-03-26 本文已影响310人 python与数据分析

最近搜狗微信更改新的反爬策略，增加ua判断和多一层列表页跳转，很难找到或拼凑出列表页。（之前使用的是wechatsogou包，虽然很方便。但是逃不过验证码问题，得手动输入，并且爬到20个公众号左右就被封了，除非你换代理IP）不得不采取其它办法。AnyProxy抓包工具，亲测好用，完美绕过验证码，可以采集所有历史数据、文章永久链接、发布时间、封面图、阅读数和点赞数。

爬取过程

一、下载和安装node.js(v8.1.2版本，记得按版本下载，在这个坑爬了好久)

简单的说 Node.js 就是运行在服务端的 JavaScript。Node.js 是一个基于Chrome V8引擎的 JavaScript 运行环境。Node.js 使用了一个事件驱动、非阻塞式 I/O 的模型，使其轻量又高效。Node.js 的包管理器npm，是全球最大的开源库生态系统。

官网下载（根据自己的版本） : https://nodejs.org/dist/v8.1.2/

image.png

1、下载完成后，双击“node-v8.1.2-x64.msii”，开始安装Node.js

image.png

2、node.js安装完测试

至此Node.js已经安装完成，可以先进行下简单的测试安装是否成功了，后面还要进行环境配置

在键盘按下【win+R】键，输入cmd，然后回车，打开cmd窗口

image.png

二、安装AnyProxy代理服务器

1、cmd命令行或终端输入以下命令，表示全局安装AnyProxy 程序包：

npm install -g anyproxy@3.10.4

输入以上命令后，电脑会自动从网络下载程序包并安装。
参考网址：https://github.com/alibaba/anyproxy
①安装成功后会有下面两个文件

image.png
②打开cmd命令窗口，输入你的文件存放路径

npm config set prefix"D:\Develop\nodejs\node_global"
npm config set cache"D:\Develop\nodejs\node_cache"

接下来设置环境变量，关闭cmd窗口，“我的电脑”-右键-“属性”-“高级系统设置”-“高级”-“环境变量”

image.png

进入环境变量对话框，在【系统变量】下新建【NODE_PATH】，输入【D:\Develop\nodejs\node_global\node_modules】，将【用户变量】下的【Path】修改为【D:\Develop\nodejs\node_global】

image.png

2、启动AnyProxy

如出现下面提示，则表明安装并部署成功（192.168.32.187处是你的本地ip）：

image.png

命令行启动AnyProxy，默认端口号8001

访问http://127.0.0.1:8002 ，web界面上能看到所有的请求信息

这个时候我们就可以打开http://127.0.0.1:8002或http://192.168.32.187:8002，如图

image.png

3、安装HTTPS 网络传输所需的证书

`电脑安装`

微信采用加密的HTTPS 网络传输，所以需要安装证书。

anyproxy --root

此时会在文件夹生成rootCA.crt 证书与对应的密钥rootCA.key，根据提示打开对应文件夹，双击安装rootCA.crt 证书。

`手机安装`

前提是手机必须与你的主机连着同一个wife，并配置代理IP（我这里以苹果手机为例）

image.png

配置代理服务器为你的IP，端口为8001

电脑命令行或终端输入下面命令启动代理程序：

anyproxy

然后打开手机浏览器输入http://192.168.32.187:8002/fetchCrtFile（192.168.32.187换成你的IP），根据提示一步步安装

结果
打开设置>通用>关于本机>证书信任设置>把刚安装好证书开启即可
打开cmd命令行,anyproxy -i 的参数-i 表示开启HTTPS 。

anyproxy -i

打开浏览器输入http://192.168.32.140:8002，如图带锁的，表示访问https网址

image.png

三、安装mysql 模块部分

默认你的电脑上已经安装了mysql 数据库（我这里使用的本地127，未安装可参考https://www.jianshu.com/p/d16fb1679a87），现在node 连接mysql 数据库，也需要安装一个程序包来实现：

npm install -g mysql

程序下载：https://gitee.com/zsyoung01/AnyProxy，这里有sql文件，把库和表执行创建到自己的数据库里。

myRule.js文件开头会有数据库连接，对应修改成自己的数据库配置。

// 创建数据库连接，需根据自己数据库账号密码修改

var connection = mysql.createConnection({
    host: 'localhost',
    user: 'root',
    password: '0000',
    database: 'phone_weixin'
});

四、程序部分

windows 程序AnyProxy 默认的安装目录在：
C:\Users\你的用户名\AppData\Roaming\npm\node_modules\anyproxy

本程序为修改和增加AnyProxy 中lib 文件中对应的代码部分。

1、代码部分

文章末尾获取下面5个文件，你只需覆盖掉lib 目录中对应的文件即可。（建议先备份）

./anyproxy
  ./lib
     myRule.js
     rule_default.js
     1.png
     requestHandler.js
     httpsServerMgr.js
     getPort.js

其中逻辑部分主要写在myRule.js文件中，此文件已做了详细的注释

rule_default.js是判断各种网络请求数据然后调用对应的方法

1.png为很小的一个图片，替换手机所有图片请求，加快网络传输速度

getPort.js是得到端口号的js

其余两个文件是注释掉了之前在终端打印的一些提示性的字符，不重要

2、运行程序部分

anyproxy -i

终端输入以上命令即可运行。
可能会报错(可忽略)：Error: ER_NOT_SUPPORTED_AUTH_MODE: Client does not support authentication protocol requested by serv

起因：mysql8.0加密方式的原因报错。
解决办法：
执行指令

mysql -u root -p 123456 # 改成你的用户名、密码

use mysql;

alter user 'root'@'localhost' identified with mysql_native_password by '123456';

flush privileges;

可操作myRule.js 文件，选择对应的功能。修改文件后，需重启程序。
之后选择查看公众号>全部文章>任意点开一篇文章浏览到底部，即可自动抓取所有历史数据至数据库中。（想要抓取某个公众号最近文章，直接在微信添加朋友输入公众号，进入点击下面全部消息，不用关注，程序会自动采集）

采集结果存入mysql

myRule.js 代码主要部分

三个主要函数：

getProfile - 对历史页的操作，获取文章其他数据；插入自动翻页代码 getReadAndLikeNum - 获取文章点赞、阅读、打赏等数据 insertJsForRefresh - 对文章页的操作，主要是插入自动翻页代码

代码原理

此程序为事件驱动。即一开始要给定一个触发事件，例如打开微信公众号查看历史消息或打开公众号某篇文章。

微信打开历史消息页之后会触发事件，运行getProfile函数，跳至下一个历史消息页后又会触发打开历史消息页此事件。

同理，微信打开文章页会触发事件运行insertJsForRefresh 函数，此函数会向网页中插入一段脚本自动翻页，当翻页后，又会触发此事件，然后一直运行下去。

同理，打开文章页时，微信会请求另一个链接，然后会自动触发getReadAndLikeNum 函数,获取阅读量和点赞数。

历史消息页有4种插入js 代码的方式，已在代码中注释。

Js 注入详解

文章页自动翻页原理为在网页head 部分插入类似以下形式代码，表示隔5s 跳转至下一个文章页

<meta http-equiv="refresh" content="5;url=https://..." />

历史消息页注入Js 脚本示例，将以下脚本插入至返回给微信客户端的数据中，可以使网页自动下拉至最低端，到最早一篇文章之后再跳转至下一个历史消息详情页：

<script type="text/javascript">
    var end = document.createElement("p");
    document.body.appendChild(end);
    (function scrollDown(){
        // 下拉至页面最低端后，微信会自动向服务器请求数据
        end.scrollIntoView();
        var loadMore = document.getElementsByClassName("loadmore with_line")[0];
        // 判断是否到达最早一篇文章
        if (!loadMore.style.display) {
            document.body.scrollIntoView();
            // 插入meta，使10秒后自动翻页
            var meta = document.createElement("meta");
            meta.httpEquiv = "refresh";meta.content = "10;url=' + nextProLink + '";
            document.head.appendChild(meta);
        } else {
            // 每个随机时间段下拉网页
            setTimeout(scrollDown,Math.floor(Math.random()*2000+1000));
        }
    })();
</script>

在代码部分中有4个这样类似的脚本，用于实现不同情况下特定的功能。你可在运行时作出选择。 ####数据库部分

数据库中有4张表，分别对应文章信息，历史消息抓取记录和公众号信息。

msg
history
mpaccout

表的结构也在文章末尾文件中。在mysql 数据库中新建好即可。

msg.sql
    id  -  文章id，自动递增
    msg_title  -  文章标题
    msg_link  -  文章永久链接
    publish_time  -  文章发布时间，13位时间戳形式
    modi_time  -  数据抓取时间，13位时间戳形式
    read_num  -  阅读量
    like_num  -  点赞量
    reward_total_count  -  安卓手机赞赏量
    msg_idx  -  文章发布位置，首条、二条等等
    msg_biz  -  公众号唯一标识，重要
    msg_source_url  -  文章阅读原文链接，若无则空
    msg_cover  -  文章封面图片链接
    msg_digest  -  文章摘要
    is_fail  -  文章是否删除，如果删除改为1，下次就不在抓取
    copyright_stat  -  文章是否原创标识 11为原创 100为无原创 101为转发
    author  -  文章作者

mpaccount.sql
    id  -  公众号id，自动递增
    biz  -  公众号唯一标识
    nickname  -  公众号名称
    metavalue  -  公众号id

history.sql
    id  -  公众号id，自动递增
    biz  -  公众号唯一标识
    url  -  上次抓取的链接
    moditime  -  上次抓取时间

如有不足的地方，还请多多指教。
参考链接：https://gitee.com/zsyoung01/AnyProxy

基于AnyProxy自动爬取微信公众号数据（详细部署、bug说明

一、下载和安装node.js(v8.1.2版本，记得按版本下载，在这个坑爬了好久)

1、下载完成后，双击“node-v8.1.2-x64.msii”，开始安装Node.js

2、node.js安装完测试

二、安装AnyProxy代理服务器

1、cmd命令行或终端输入以下命令，表示全局安装AnyProxy 程序包：

2、启动AnyProxy

3、安装HTTPS 网络传输所需的证书

`电脑安装`

`手机安装`

三、安装mysql 模块部分

四、程序部分

1、代码部分

2、运行程序部分

myRule.js 代码主要部分

代码原理

Js 注入详解

猜你喜欢

热点阅读