node+express+mongodb

爬虫

2017-11-12  本文已影响23人  猪猪9527

爬虫

按照一定规则自动抓取网络信息的程序

反爬虫

node爬虫

一般用superAgent 和 Cheerio
superAgent发送请求,得到html
Cheerio把html的内容转换成像 jquery的对象,但是反爬虫规则它绕不过去

使用插件puppeteer

显示目录不存在的时候要在本地建相应的目录
page.evaluate相当于eval可以使用原生js的api
page.$(selector) 返回一个promise的eventHandle
page.$$(selector) 返回一群promise的eventHandle
page.$eval(selector,el=>{...})返回的也是单个元素
page.$$eval(selector,el=>{...})返回的是一群

需求分析

打开百度,点击图片tab,输入狗,点击搜索
看图片特征,base64和普通地址

nodejs关键技术

需要深入学习

上一篇 下一篇

猜你喜欢

热点阅读