爬虫应用示例--puppeteer数据抓取的实现方法

2021-08-08 本文已影响0人工程师54

一、背景

软件机器人自动化(RPA)技术近两年来应用越来越广泛，市面上也有比较多成熟的RPA产品。

利用puppeteer实现的RPA，可以实现远程数据自动抓取的爬虫应用功能。

二、需求描述

在一个指定的远程网站上，通过RPA输入查询条件执行查询后显示出结果清单，获取这个清单中的数据后执行翻页，直至取到全部数据为止。

三、实现思路

Puppeteer 是一个node库，内含了一个chrome浏览器（正是因为包含了这个导致安装非常麻烦），以及一组用来操纵Chrome的API。因此基于Puppeteer实现RPA就非常简单了，有了RPA我们就可以模拟手工操作进行远程数据的自动抓取，而这恰恰就是网络爬虫要实现的功能。

实现以上思路的基本流程为：
1、打开内含的chrome浏览器
2、进入指定的网站
3、找到条件输入框，输入查询条件（查询条件包括input、select，所以识别和处理方式并不相同）
4、点击查询按钮，执行查询，结果以分页方式显示
5、取到第一页的全部数据
6、检测是否有下一页数据，如果有则点击下一页的按钮
7、重复5、6两步直至结果的所有页面都获取完毕
8、多获取到的数据进行后续加工处理

四、代码示例

import puppeteer from 'puppeteer' //引入puppeteer组件
。。。。。。
puppeteer.launch({启动参数}).then(async browser => {
let page = await browser.newPage(); //在chrome中打开一个标签页
await page.setJavaScriptEnabled(true);
await page.goto("远程网络地址"); //在该标签页上打开指定网址，如www.baidu.com
let companyName = await page.$("#aa"); //输入条件是一个input，id="aa"
await companyName.focus();
  await page.keyboard.type("华为"); //在该input中输入查询条件，如"华为"
  await page.waitFor('#bb'); //输入条件是一个select，id="bb"
await page.select('#bb','11'); //select的列表中有一个选择项value=11，自动选择value=11的选择项作为该输入条件的值
  let btnSearch = await page.$("#cc"); //执行查询的按钮是一个button，id="cc"
await btnSearch.click(); //自动点击该按钮，触发该按钮的click事件
let btnNext = {} ; //下面开始处理结果集合
do{
await page.waitFor('#table1'); //结果结合显示在一个table中，其id="table1"
let data1 = await page.$$eval('# table1 tr', tds => tds.map((tr) => {
return tr.innerText.split('\t');
})); //当前页得所有数据都保存在data1中， data1是一个二维数组，data1[i]存储每一行数据，data1[i][j]存放第1行得第j列数据。
btnNext = await page.$eval("#btnNext",obj => obj.href); //下一页放在一个id=btnNext的a中，这个功能是获取下一页这个超链的跳转地址，如果还有下一页则结果就是跳转地址，如果没有下一页，则返回空
  if(btnNext){ //有下一页的处理
btnNext = await page.$("#btnNext");
await btnNext.click(); // 自动点击下一页的a，触发该a的click事件
};
} while(btnNext) ;
。。。。。处理采集的数据
await browser.close(); //关闭浏览器
});

五、后续

以上实现思路好理解，具体实现代码是个难点，不过通过上面的代码示例就可以轻松解决这个难点。

遗留的另外一个难点就是puppeteer组件的安装问题，具体另文再详细讲解。