MongoDB第六讲聚合

2017-12-16  本文已影响0人  孔浩

下面将会讨论MongoDB中的聚合查询,聚合查询是以管道的方式来完成的,这和Java8中的Stream非常类似,首先聚合查询好比下图流程所示

聚合查询流程

)

管道概念

具体的思路是把Collection加载到聚合框架中,之后经过第一个条件限制(如:math)之后会把筛选出来的数据传给第二个条件,这其实就和管道的概念一样。常用的聚合管道有如下一些部分:

聚合管理 说明
$project 输出文档的内容,其实就等于sql中的投影操作,也类似find查询中的第二个条件
$match 查询条件
$limit 取多少条数据传递给下一个管道
$skip 跳过一定数量的文档
$unwind 扩展数组
$group 分组,和sql中的group类似
$sort 文档排序
$out 把管道的结果写到一个集合中

聚合管道的写法如下所示

db.collection.aggregate([{$project},{$match},....{$sort}])

注意写法,首先aggregate是聚合函数,和find一样使用()来调用,第一个参数就是管道,以数组的方式来定义多个管道所以要使用中括号[ ]来定义,数组中的每一个{}就表示一个管道,下面我们会根据上一讲的例子来详细分析管道的各个操作。由于原来的数据库被不小心删除了,下图是最新版本的数据对象模型图,数据结构没有任何的改变,无非一些名称有些改变而已,org变成了dep之类

聚合查询数据模型

)

先来查询一个可以使用find就完成的操作,我们查询年龄大于23的所有User并且仅仅显示name和age,此时需要通过两个管道来完成,match和project,match用来进行条件匹配,project用来确定查询出来的文档

db.user.aggregate([
        {$match:{age:{$gt:23}}},
        {$project:{_id:0,name:1,age:1}}
])

第一个管道完成了条件的查询,第二个管道确定了输出内容。很明显这个操作使用find更为直观一些,接下来将会介绍一些常用了聚合操作,通过聚合操作大家会感受到MongoDB的强大之处。

project和match管道

match用来进行条件筛选,但是注意,该管道放置的位置不一样,筛选所面对的集合是不一样的,我们先来看下面一种查询需求,在设计时,在dep中加入了用户的信息,如果我们希望查询所有的用户数量,使用find就有些力不从心了,需要使用到javascript的shell

var d = db.dep.findOne()
d.users.length

这个还没有办法把所有的信息列表出来,但是使用聚合查询可以很容易实现这个需求

db.dep.aggregate([{$project:{name:1,usize:{$size:"$users"}}}])
{
    "_id" : ObjectId("5a2947c367732445e8adfff0"),
    "name" : "教务处",
    "usize" : 3
}
{
    "_id" : ObjectId("5a2947c367732445e8adfff1"),
    "name" : "财务处",
    "usize" : 3
}
{
    "_id" : ObjectId("5a2947c367732445e8adfff2"),
    "name" : "计算机学院",
    "usize" : 5
}

改查询使用了一个管道,$project,用来投影具体需要的值,这里仅仅显示了name,usize这个可以自己定义,通过 $size 来统计,统计的地方,如果是文档中的key,需要使用$ 符号来引用。

下面加入match,首先通过第一个管道来筛选部门类型为行政部门的信息,看看查询代码

db.dep.aggregate([
    {$match:{type:"行政部门"}},
    {$project:{name:1,unum:{$size:"$users"}}}
])
{
    "_id" : ObjectId("5a2947c367732445e8adfff0"),
    "name" : "教务处",
    "unum" : 3
}
{
    "_id" : ObjectId("5a2947c367732445e8adfff1"),
    "name" : "财务处",
    "unum" : 3
}

第一个管道是基于原来的dep文档来进行筛选的,筛选了type为行政部门的所有信息,接下来我们在project管道之后再使用match来进行筛选,此时就是针对以上文档的,我们需要根据上面文档的值进行查询

db.dep.aggregate([
    {$match:{type:"行政部门"}},
    {$project:{name:1,unum:{$size:"$users"}}},
    {$match:{unum:{$gt:3}}}
])##查询人数大于3的用户
Fetched 0 record(s) in 0ms ##由于没有这个数据,所以显示没有查询到元素

这种查询方式对于关系数据库而言,还是不太容易实现的,需要用到子查询,对于project而言,还可以对文档进行重塑,先来看一个基本的重塑。

db.dep.aggregate([
    {$project:{_id:0,dep:{name:"$name",type:"$type"},unum:{$size:"$users"}}}
])
{
    "dep" : {
        "name" : "教务处",
        "type" : "行政部门"
    },
    "unum" : 3
}

我们把dep中的id去掉,并且把name和type加入了一个子文档dep中,在这个例子中,这种方法似乎比较多余,但是随着我们应用的深入,你会喜欢上这样的操作的,另外MongoDB提供了一组函数来帮助我们做各种重塑,会在后面专门讲解。

group管道

group对于关系型数据库而言,是非常重要的,是统计查询中的基础,MongoDB和关系数据库类似,都是通过group来进行分组查询,group的写法是固定的,{$group:{_id:'分组的对象',多个自定义投影}} 。_id这个是必须填写的,就等于sql中group by 后的这个值,而要统计哪些值,在后面通过写出来,这其实就等于select的投影

下面我们来使用一下group管道,虽然我们设计了在dep下添加users的array,但是我们也在user中添加了dep的映射,我们通过dep来分组统计一下部门下面来看使用group进行统计,这个需要在user这个document中查询

db.user.aggregate([{$group:{_id:'$dep.name',count:{$sum:1}}}])
{  "_id" : "教务处","count" : 3.0}
{"_id" : "财务处","count" : 3.0}
{"_id" : "计算机学院","count" : 5.0}

查询出来的结果是id和数量,使用$group,必须第一个值是_id,说明根据dep的 name进行分组,第二个参数的投影名称是count然后使用$sum ,sum表示求和,等于sql的count(*)。

下面我们希望查询人数大于3的学院,此时在sql中需要使用having来查询,但是对于MongoDB而言,只要在后面增加一个match的管道即可。

db.user.aggregate([
    {$group:{_id:'$dep.name',count:{$sum:1}}},
    {$match:{count:{$gt:3}}}
])
{
    "_id" : "计算机学院",
    "count" : 5.0
}

同样如果希望筛选group前的数据,只用在group管道前增加match即可

db.user.aggregate([
    {$match:{"dep.name":"财务处"}},
    {$group:{_id:'$dep.name',count:{$sum:1}}}
])
{
    "_id" : "财务处",
    "count" : 3.0
}

对于group而言,处理$sum 函数外还有如下几个函数:

group函数 说明
$addToSet 添加组里的一个元素到数组,数组里的元素唯一
$first 组里的第一个值。
$last 组里的最后一个值。
$max 组里某个字段的最大值
$min 组里某个字段的最小值
$avg 组里某个字段平均值
$push 添加组里的一个元素到数组,数组里的元素不唯一
$sum 组里某个字段的和

以上这些操作很多从字面意思就能知道怎么使用,但是first,last,push和addToSet稍微有些不好理解,我们先通过一个实例把几个统计函数学会,为了方便统计,首先对user加入salary这个数据,并且随机生成薪水的数量,薪水的数量随机4000-10000

Random.setRandomSeed()
db.user.find({}).forEach(function(u){
    db.user.updateOne({_id:u._id},{$set:{salary:(Random.randInt(6000)+4000)}})
})

首先统计每个部门的薪水之和平均薪水,最高薪水和最低薪水

db.user.aggregate([
    {$group:{_id:"$dep.id",
        salays:{$sum:"$salary"},
        avgs:{$avg:"$salary"},
        max:{$max:"$salary"},
        min:{$min:"$salary"}}}
])
{
    "_id" : ObjectId("5a2947c367732445e8adfff0"),
    "salays" : 19394.0,
    "avgs" : 6464.66666666667,
    "max" : 8926.0,
    "min" : 4927.0
}
{
    "_id" : ObjectId("5a2947c367732445e8adfff1"),
    "salays" : 27166.0,
    "avgs" : 9055.33333333333,
    "max" : 9664.0,
    "min" : 8591.0
}

上面这个例子中,根据部门统计了薪水的信息,此时我们由于使用了dep.id进行统计,所以仅仅显示了dep的id,但是我们已经冗余了dep.name,所以可以通过$first 或者$last 函数,由于dep的name是唯一的,所以使用first或者last都一样

db.user.aggregate([
    {$group:{_id:"$dep.id",
        depname:{$first:"$dep.name"},
        salays:{$sum:"$salary"},
        avgs:{$avg:"$salary"},
        max:{$max:"$salary"},
        min:{$min:"$salary"}}}
])
{
    "_id" : ObjectId("5a2947c367732445e8adfff0"),
    "depname" : "教务处",
    "salays" : 19394.0,
    "avgs" : 6464.66666666667,
    "max" : 8926.0,
    "min" : 4927.0
}

最后就是addToSet和push了,这个可以把用户的基本信息添加到一个数组中,使用addToSet添加的信息不会有重复,而使用push的信息会存在重复,看如下的例子

db.user.aggregate([
    {$group:{_id:"$dep.name",
        count:{$sum:1},
        usernames:{$push:'$name'}, #把用户名添加进行
        users:{$addToSet:{phone:'$phone',age:'$age'}}##使用重塑设置两个值
    }}
])

以上这个查询由于没有重复的用户,所以push和addToSet基本一致,但是addToSet中进行了重塑,看看下面的结果

{
    "_id" : "教务处",
    "count" : 3.0,
    "usernames" : [ 
        "b1", 
        "b2", 
        "b3"
    ],
    "users" : [ 
        {
            "phone" : "119",
            "age" : 26
        }, 
        {
            "phone" : "119",
            "age" : 24
        }, 
        {
            "phone" : "119",
            "age" : 23
        }
    ]
}

有了两个数组,一个是usernames,所有用户的名称,users里面是一个对象数组集合。这个数据是非常有必要的,因为可以通过这个信息再次进行二次查询,到此为止group的知识就算讲完了,group是聚合中最为重要的一部分内容,务必掌握。

unwind和out管道

第一个查询需求是获取用户对私人信息的统计,统计每个用户该查询的私人信息数量,看过的数量和没有看过的数量,这使用project就可以解决,先看看结果

db.user.aggregate({$project:
    {
        username:1,
        msgs:{$size:'$msgs.all'},
        noVisited:{$size:'$msgs.noVisited'},
        visited:{$size:'$msgs.visited'}
     }})

但是执行之后会发现报错了,错误提示The argument to $size must be an array, but was of type: missing 提示$size 应该是针对所有的数组,我们的noVisited或者visited可能会存在不存在的情况,这个时候需要通过$ifNull来解决

db.user.aggregate({$project:
   {
       username:1,
       msgs:{$size:'$msgs.all'},
       noVisited:{$size:{$ifNull:['$msgs.noVisited',[]]}},
       visited:{$size:{$ifNull:['$msgs.visited',[]]}}
    }})

注意$ifNull,有两个值,使用的[]而不是{},第一个是条件,第二个是如果不存在的替换值。

看看结果

/* 1 */
{
    "_id" : ObjectId("5a29467b67732445e8adffe5"),
    "username" : "foo1",
    "msgs" : 2,
    "noVisited" : 1,
    "visited" : 1
}

/* 2 */
{
    "_id" : ObjectId("5a2946a567732445e8adffe6"),
    "username" : "bar1",
    "msgs" : 2,
    "noVisited" : 2,
    "visited" : 0
}

下面我们要更进一步,我们希望统计每条私人信息中没有访问的数量,由于访问的信息是存储在user中,并且是以数组的方式来存储,这样很难进行统计,但是MongoDB提供了unwind来解决此类数组查询的问题,使用unwind会把数组中的每个文档都提出来作为一个单独的文档,注意unwind一般和project配合使用,否则会比较占用内存。先看unwind的结果

db.user.aggregate([
    {$project:{name:1,"msgs.noVisited":1}},
    {$unwind:"$msgs.noVisited"}
])
{
    "_id" : ObjectId("5a29467b67732445e8adffe5"),
    "name" : "foo",
    "msgs" : {
        "noVisited" : ObjectId("5a294ee567732445e8adfff6")
    }
}
{
    "_id" : ObjectId("5a2946a567732445e8adffe6"),
    "name" : "bar",
    "msgs" : {
        "noVisited" : ObjectId("5a294ee567732445e8adfff3")
    }
}

大家发现没有,通过unwind,数组中的每一个元素都变成了一个独立的文档,之后通过_id进行一个group即可获取数量

db.user.aggregate([
    {$project:{name:1,"msgs.noVisited":1}},
    {$unwind:"$msgs.noVisited"},
    {$group:{_id:"$msgs.noVisited",count:{$sum:1}}}
])
{
    "_id" : ObjectId("5a29470667732445e8adffef"),
    "count" : 4.0
}
{
    "_id" : ObjectId("5a2946fc67732445e8adffed"),
    "count" : 4.0
}

此时如果希望把标题查询出来,对于MongoDB而言,由于没有join,所以需要对这个数组进行二次查询,使用out可以将查询出来的结果添加到一个文档中

db.user.aggregate([
    {$project:{name:1,"msgs.noVisited":1}},
    {$unwind:"$msgs.noVisited"},
    {$group:{_id:"$msgs.noVisited",count:{$sum:1}}},
    {$out:"msgsNoVisited"}
])

此时可以通过msgsNoVisited来获取message的title,由于MongoDB没有join,所以第一种方法使用游标,利用forEach处理

db.noVisitedMsgs.remove({})
db.msgsNoVisited.find().forEach(function(e) {
    var m = db.message.findOne({_id:e._id})
    if(m!=null) {
        e.title = m.title
    } else {
        e.title = "not found"
    }
    db.noVisitedMsgs.insertOne(e)
})
db.noVisitedMsgs.find()

通过以上shell将查询的结果存储到一个noVisitedMsgs的集合中,第一条remove是先把这个临时数据删除,看一下结果

{
    "_id" : ObjectId("5a294ee567732445e8adfff5"),
    "count" : 9.0,
    "title" : "msg3"
}
{
    "_id" : ObjectId("5a294ee567732445e8adfff4"),
    "count" : 10.0,
    "title" : "msg2"
}

这种方案是基于伪查询的方式,由于每个游标都是通过findOne来进行二次查询的,所以如果数据量非常大的话,效率会很低,在MongoDB3.2版本之后提供了新的函数lookup来完成两个集合的连接

db.message.aggregate([
    {$lookup:{
         from:"msgsNoVisited",
         localField:"_id",
         foreignField:"_id",
         as:"noVisited"
    }}
])

此时会内嵌一个文档noVisited到message中,如下所示

{
    "_id" : ObjectId("5a294ee567732445e8adfff3"),
    "title" : "msg1",
    "content" : "msg ...",
    "createDate" : ISODate("2017-12-15T05:22:20.103Z"),
    "user" : {
        "id" : ObjectId("5a29467b67732445e8adffe5"),
        "name" : "foo"
    },
    "attach" : {
        "name" : "world.txt",
        "type" : "txt",
        "createDate" : "Thu Dec 07 2017 23:34:54 GMT+0800",
        "size" : 23
    },
    "noVisited" : [ 
        {
            "_id" : ObjectId("5a294ee567732445e8adfff3"),
            "count" : 10.0
        }
    ]
}

如果感觉里面的数据太多了,可以首先通过project来进行投影,最后把生成的信息拷贝到一个文档中

db.message.aggregate([
    {$project:{
        title:1
     }},
    {$lookup:{
         from:"msgsNoVisited",
         localField:"_id",
         foreignField:"_id",
         as:"noVisited"
    }},
    {$out:"msgsNoVisited"}
])
db.msgsNoVisited.find()
---------------------------------------
{
    "_id" : ObjectId("5a294ee567732445e8adfff3"),
    "title" : "msg1",
    "noVisited" : [ 
        {
            "_id" : ObjectId("5a294ee567732445e8adfff3"),
            "count" : 10.0
        }
    ]
}

以上就是unwind和out的各种用法,希望对大家有所帮助

sort、skip和limit管道

这三个管道,sort用来排序,skip和limit用来进行分页,这个操作和查询操作非常类似,其实是互通的,看一个实例即可学会。

var pageNum = 1
var pageSize = 10
db.user.aggregate([
    {$project:{name:1,age:1}},
    {$skip:(pageNum-1)*pageSize},
    {$limit:pageSize},
    {$sort:{age:-1}}
])

以上实例通过分页的方式来查询,并且以age倒序排序。

重塑文档

在第一小部分已经看了如何重塑文档,MongoDB还提供了很多好用的函数来重塑文档,重塑文档都是基于project的,这种函数分成很多类,这里只能简单演示一些,首先字符串相关的函数有

字符串相关函数
$concat   连接两个字符串
$strcasecmp 区分大小写比较数字
$substr 取子串
$toLower 转化为小写
$toUpper 转换为大写

看看如下实例,获取用户姓名的信息

db.user.aggregate([
    {$project:{
        fullname:{$concat:['$username','-','$name']},
        fname:{$substr:['$username',0,1]}
     }}
])

{
    "_id" : ObjectId("5a29467b67732445e8adffe5"),
    "fullname" : "foo1-foo",
    "fname" : "f"
}

接下来看看算术运算函数和日期函数

算术运算函数
    $add   求和
    $divide 除法
    $mod 求余数
    $multiply 乘法
    $subtract 减法
日期函数
    $year 取年份
    $month 取月份
    $week 取一年中的某一周(0-53)
    $hour 取小时
    $minute 取分钟
    $second 取秒钟
    $millisecond 取毫秒
    $dayOfYear 一年中的某一天
    $dayOfMonth 一月中的某一天
    $dayOfWeek 一周中的某一天,1表示周日

算数运算符比较简单,我们使用以下日期函数

db.message.aggregate([
    {$match:{createDate:{$gte:new Date("2017-01-01"),$lte:new Date("2017-12-31")}}},
    {$project:{title:1,year:{$year:"$createDate"},month:{$month:"$createDate"}}},
    {$group:{_id:{year:'$year',month:'$month'},count:{$sum:1}}}
])

以上操作完成了根据year和month进行分组查询,最后可以得到2017年每个月发送的message的数量,这是非常好用的一种聚合查询。

集合操作函数也非常实用

集合操作符
    $setEquals  查看两个集合时候相同,相同返回true
    $setInterseciont 返回两个集合的公共元素
    $setDifference 返回两个集合中的不同的元素
    $setUnion 合并集合
    $setIsSubset 判断第二个集合是否是第一个的子集,如果是返回true
    $anyElementTrue 如果某个集合元素为true,就为true
    $allElementTrue 集合中所有元素为true就为true

看一下下一个实例

db.user.aggregate([
    {$project:{nov:{$setDifference:['$msgs.all',{$ifNull:['$msgs.visited',[]]}]}}}
])

会得到没有参观过的message信息,下面看一下其他的重塑函数

逻辑函数
    $and true   与操作
    $cmp 比两个值是否相等
    $cond  if ... then ... else 条件逻辑,类似三元运算符
    $eq 等于
    $gt,$gte,$lt,$lte  大于和小于
    $ifNull 是否为空
    $ne 不等于
    $not. 取反
    $ir 或运算
其他函数
    $meta  文本搜索
    $size 取数组大小
    $map 对数组的每个成员应用表达式
    $let 定义表达式内的变量
    $literal 返回表达式的值

以上函数就不举例了,只是让大家对这个有所了解,以后具体使用到的时候再去查询

Map-Reduce

对于一些复杂的查询可以转换为javascript的处理方式,这就是map reduce,但是map reduce的效率非常低,所以能够使用聚合框架实现的就不要使用Map-Reduce,下面看看Map-Reduce如何实现一个应用。

首先要定义map函数,map指的是遍历文档中的所有键值对,来做处理,我们现在对user这个collection来做map

map = function() {
    var did = this.dep.id+"-"+this.dep.name;
    var ageGt = 0;
    if(this.age>40) ageGt=1;
    emit(did,{ageGt:ageGt});
}

以上操作定义了一个map,该操作会去遍历整个collection的文档,首先确定了key是部门id+部门名称,接着完成下面一种存储如果年龄大于40存储ageGt为1否则为0,emit表示返回值,此时的map文档中有一组数据,存储了部门id+部门名称为key并且存储了年龄的文档(年龄的文档中一些是0,一些是1),之后把这个值交给reduce来返回一个结果集

reduce=function(key,values) {
    var result = {nums:0};
    values.forEach(function(v){
        result.nums+=v.ageGt;
    })
    return result;
}

reduce中就会根据key的值把返回的数据定义成为一个数组,这个数组就是reduce的第二个参数values,此时定义了一个结果为nums,并且遍历整个数组,将nums的值增加,这意味着只要发现ageGt是1表示有一个40岁以上的人,这样累加之后,就可以根据情况统计出每个部门大于40岁的人员。

定义好map和reduce之后,下一步就需要通过collection来调用

db.user.mapReduce(map,reduce,{query:{},out:"test"})

此时使用user调用刚才定义的map和reduce,第三个参数中的query是查询条件,可以过滤一组数据,第二个参数out表示要输出的文档,输出之后我们可以通过test文档查询

/* 1 */
{
    "_id" : "5a2947c367732445e8adfff0-教务处",
    "value" : {
        "nums" : 0.0
    }
}

/* 2 */
{
    "_id" : "5a2947c367732445e8adfff1-财务处",
    "value" : {
        "nums" : 1.0
    }
}

/* 3 */
{
    "_id" : "5a2947c367732445e8adfff2-计算机学院",
    "value" : {
        "nums" : 0.0
    }
}

这个map-reduce完成了部门大于40岁人的统计操作,Map-Reduce基本可以实现你想要的所有功能,但是由于效率低下,依然建议大家如果能使用聚合框架就不要用MapReduce。

总结

这部分讲解了聚合框架,这是MongoDB的核心,它可以提供非常出色的查询操作,这是必须要熟悉的一块内容,当然聚合框架的效率问题将会在索引之后详细探讨。

上一篇 下一篇

猜你喜欢

热点阅读