用Nodejs爬取Matrix67的博客

2018-09-19  本文已影响0人  一个灰

Matrix67 有大量好玩的内容,可惜作者一直使用这个奇怪的博客,没有索引分类什么的,只有一页页看,我一气之下写了一个爬虫,把所有文章链接和标题打印了出来。供大家方便查看。

const got = require('got')
const { JSDOM } = require("jsdom");
var i = 1
function startCatch(){
    i++
    got('http://www.matrix67.com/blog/page/'+i).then(v=>{
        const dom = new JSDOM(v.body)
        const nodeList = dom.window.document.querySelectorAll('.entry-title')
    for(let el of nodeList){
        console.log(el.innerHTML)
    }
        startCatch()
    })
}
startCatch()

有人看出这个程序是个无限递归程序。其实

这个小小的爬虫程序如果换成其他语言写,就很难这么简洁而优雅了。
简书有字数限制,故无法把爬取的内容发布出来。可以点击这里看

上一篇下一篇

猜你喜欢

热点阅读