NodeJS 爬虫

2019-08-13  本文已影响0人  infoyou

技术栈
cheerio: 将抓取的html直接转化为jquery对象,可以直接对获取信息进行DOM操作。
puppeteer: Puppeteer是谷歌官方出品的一个通过DevTools协议控制headless Chrome的Node库。可以通过Puppeteer的提供的api直接控制Chrome模拟大部分用户操作来进行UI Test或者作为爬虫访问页面来收集数据。

https://nodejs.org/dist/v10.16.2/node-v10.16.2.pkg
https://github.com/GoogleChrome/puppeteer
npm i puppeteer
default.js

const path = require('path')

module.exports = {
screenshot: path.resolve(__dirname, '../screenshot')
}

crawler.js

const puppeteer = require('puppeteer');
const {screenshot} = require('./config/default');

(async () => {
const browser = await puppeteer.launch();
const page = await browser.newPage();
await page.goto('http://news.baidu.com/');

console.log('Date:', Date.now()); //Date

await page.screenshot({
path: ${screenshot}/${Date.now()}.png
});

await page.pdf({
path: ${screenshot}/${Date.now()}.pdf, format: 'A4'
});

await browser.close();
})();

上一篇 下一篇

猜你喜欢

热点阅读