node抓取网页

2019-01-29  本文已影响0人  带带带前端
// 引入模块
var https = require('https');
var fs = require('fs');
var path = require('path');

// 爬虫的 URL 信息
var opt = {
    hostname: 'www.jianshu.com',
    path: '/p/ce4425e48011',
    port: 443
};

// 创建 http get 请求
var times = 0;
setInterval(()=>{
        https.get(opt, function(res) {
        var html = ''; // 保存抓取到的 HTML 源码
      


        // 设置编码
        res.setEncoding('utf-8');

        // 抓取页面内容
        res.on('data', function(chunk) {
            html += chunk;
        });

        res.on('end', function() {
            console.log(`访问完毕,已访问${++times}次`)
        });
    }).on('error', function(err) {
        console.log(err);
    });
},3000)
上一篇 下一篇

猜你喜欢

热点阅读