爬虫应用示例--puppeteer数据抓取的实现方法
一、背景
软件机器人自动化(RPA)技术近两年来应用越来越广泛,市面上也有比较多成熟的RPA产品。
利用puppeteer实现的RPA,可以实现远程数据自动抓取的爬虫应用功能。
二、需求描述
在一个指定的远程网站上,通过RPA输入查询条件执行查询后显示出结果清单,获取这个清单中的数据后执行翻页,直至取到全部数据为止。
三、实现思路
Puppeteer 是一个node库,内含了一个chrome浏览器(正是因为包含了这个导致安装非常麻烦),以及一组用来操纵Chrome的API。因此基于Puppeteer实现RPA就非常简单了,有了RPA我们就可以模拟手工操作进行远程数据的自动抓取,而这恰恰就是网络爬虫要实现的功能。
实现以上思路的基本流程为:
1、打开内含的chrome浏览器
2、进入指定的网站
3、找到条件输入框,输入查询条件(查询条件包括input、select,所以识别和处理方式并不相同)
4、点击查询按钮,执行查询,结果以分页方式显示
5、取到第一页的全部数据
6、检测是否有下一页数据,如果有则点击下一页的按钮
7、重复5、6两步直至结果的所有页面都获取完毕
8、多获取到的数据进行后续加工处理
四、代码示例
import puppeteer from 'puppeteer' //引入puppeteer组件
。。。。。。
puppeteer.launch({启动参数}).then(async browser => {
let page = await browser.newPage(); //在chrome中打开一个标签页
await page.setJavaScriptEnabled(true);
await page.goto("远程网络地址"); //在该标签页上打开指定网址,如www.baidu.com
let companyName = await page.$("#aa"); //输入条件是一个input,id="aa"
await companyName.focus();
await page.keyboard.type("华为"); //在该input中输入查询条件,如"华为"
await page.waitFor('#bb'); //输入条件是一个select,id="bb"
await page.select('#bb','11'); //select的列表中有一个选择项value=11,自动选择value=11的选择项作为该输入条件的值
let btnSearch = await page.$("#cc"); //执行查询的按钮是一个button,id="cc"
await btnSearch.click(); //自动点击该按钮,触发该按钮的click事件
let btnNext = {} ; //下面开始处理结果集合
do{
await page.waitFor('#table1'); //结果结合显示在一个table中,其id="table1"
let data1 = await page.$$eval('# table1 tr', tds => tds.map((tr) => {
return tr.innerText.split('\t');
})); //当前页得所有数据都保存在data1中, data1是一个二维数组,data1[i]存储每一行数据,data1[i][j]存放第1行得第j列数据。
btnNext = await page.$eval("#btnNext",obj => obj.href); //下一页放在一个id=btnNext的a中,这个功能是获取下一页这个超链的跳转地址,如果还有下一页则结果就是跳转地址,如果没有下一页,则返回空
if(btnNext){ //有下一页的处理
btnNext = await page.$("#btnNext");
await btnNext.click(); // 自动点击下一页的a,触发该a的click事件
};
} while(btnNext) ;
。。。。。处理采集的数据
await browser.close(); //关闭浏览器
});
五、后续
以上实现思路好理解,具体实现代码是个难点,不过通过上面的代码示例就可以轻松解决这个难点。
遗留的另外一个难点就是puppeteer组件的安装问题,具体另文再详细讲解。