nodejs cheerio实现爬虫

2018-03-19 本文已影响12人恰皮

呐，参考这篇文章：https://segmentfault.com/a/1190000008745531 写了一个爬虫爬了自己简书里的两篇文章。

主页代码：

<!DOCTYPE html>
<html>
<head>
<link rel="stylesheet" type="text/css" href="">
<meta charset="utf-8" />
<title></title>
</head>
<body>
    <ul>
        <li data="https://www.jianshu.com/p/573d50f15deb">mysql入门</li>
        <li data="https://www.jianshu.com/p/1a4d05ae4d9b">旅行青蛙和黏黏猪</li>
    </ul>
    <!--存放文章内容-->
    <div id="content"></div>
    <script>
        var list = document.getElementsByTagName("li");
        for(let i = 0; i < list.length; i++){
            list[i].onclick = function(){
                getArticle(list[i].getAttribute("data"));
            }
        }
        /*getArticle函数封装了根据用户请求文章的url获取文章内容的请求
        参数url是文章的url，是从li列表的data属性得到的
        函数的执行的结果是将div content修改
        */
        function getArticle(url) {
            var xhr = new XMLHttpRequest();
            xhr.open("POST","http://localhost:3000",true);
            xhr.onreadystatechange = function(){
                if(xhr.readyState == 4 && xhr.status == 200){
                document.getElementById("content").innerHTML = xhr.responseText;
                }
            }
            xhr.send(url);
        }
    </script>
</body>
</html>

服务端代码：

var cheerio = require('cheerio');
var https = require('https');
var http = require('http');
var iconv = require('iconv-lite');

http.createServer(function(req, res){
    var url = '';
    //获取post请求的内容
    req.on('data',function(chunk){
        url += chunk;
    });
    req.on('end',function(){
        getContent(url,function(result){
            //设置响应头，允许跨域和字符集
            res.writeHead(200,{
                'Content-Type': 'text/html;charset=utf-8',
                'Access-Control-Allow-Origin': '*',
                'Access-Control-Allow-Headers': 'Content-Type,Content-Length, Authorization, Accept, X-Requested-With , yourHeaderFeild'
            });
            res.end(result);
        })
    })
}).listen(3000);


/*爬虫函数
参数url是待爬取文章的url，
writeFunc是一个函数，在爬取文章结束后将爬取结果作为参数传给该函数，用于对爬取结果的处理，本例中用于传递给res.end()
*/
function getContent(url,writeFunc){
    https.get(url, function(sres) {
        var chunks = [];
        sres.on('data', function(chunk) {
            chunks.push(chunk);
        });
    
        sres.on('end', function(){
            var article = [];
            var html = iconv.decode(Buffer.concat(chunks),'utf-8');
            var $ = cheerio.load(html, {decodeEntites: false});
            $('.article').each(function(idx,element){
                var $element = $(element);
                //这一步是对简书中图片出现的空白element的处理
                $element.find('.image-container-fill').remove();
                //这一步是提取图片的data-original-src属性，再设置为图片的src
                $element.find('.image-view img').each(function(index,ele){
                    $(ele).attr('src','http:'+$(ele).attr('data-original-src'));
                });
                //这一步对图片的小字名字的处理
                $element.find('.image-caption').each(function(index,ele){
                    $(ele).text('('+$(ele).text()+')');
                });
                //移除作者头像
                $element.find('.author .avatar').remove();
                //将结果传入article，这里用html()的原因是为了保留文章的结构和排版
                article.push($element.html());
            });
            //将爬取结果传给res.end
            writeFunc(article[0]);
        })
    });
}

效果图：
点击列表中文章的名字就可以实现文章的切换，可以用这个爬虫将自己的文章爬取下来，用于制作个人网站。

image.png

nodejs cheerio实现爬虫

猜你喜欢

热点阅读