mongoDB聚合和管道, 2022-09-02

2022-09-02  本文已影响0人  Mc杰夫

(2022.09.02 Fri)
MongoDB提供了三种聚合(aggregation)方法:

MongoDB的聚合架构建立在数据处理流程基础之上(data processing pipeline)。文档可通过多步流程转换为聚合结果。

聚合操作可用于:

聚合流程 aggregation pipeline

Aggregation pipeline包含了处理文档的一个或多个阶段:

从MongoDB 4.2版本开始,可通过agg pipeline修改文档的内容

注意,

db.<coll_name>.aggregate()形式执行的aggregation pipeline并不会修改colleciton中的文档,除非pipeline包含了$merge$out

案例

下面给出若干案例,基于如下文档,该文档名testmongo,保存披萨饼店订单数据的一部分

db.testmongo.insertMany( [
   { _id: 0, name: "Pepperoni", size: "small", price: 19,
     quantity: 10, date: ISODate( "2021-03-13T08:14:30Z" ) },
   { _id: 1, name: "Pepperoni", size: "medium", price: 20,
     quantity: 20, date : ISODate( "2021-03-13T09:13:24Z" ) },
   { _id: 2, name: "Pepperoni", size: "large", price: 21,
     quantity: 30, date : ISODate( "2021-03-17T09:22:12Z" ) },
   { _id: 3, name: "Cheese", size: "small", price: 12,
     quantity: 15, date : ISODate( "2021-03-13T11:21:39.736Z" ) },
   { _id: 4, name: "Cheese", size: "medium", price: 13,
     quantity:50, date : ISODate( "2022-01-12T21:23:13.331Z" ) },
   { _id: 5, name: "Cheese", size: "large", price: 14,
     quantity: 10, date : ISODate( "2022-01-12T05:08:13Z" ) },
   { _id: 6, name: "Vegan", size: "small", price: 17,
     quantity: 10, date : ISODate( "2021-01-13T05:08:13Z" ) },
   { _id: 7, name: "Vegan", size: "medium", price: 18,
     quantity: 10, date : ISODate( "2021-01-13T05:10:13Z" ) }
] )

案例1建立另一个agg pipeline,其中含有两个阶段,返回了medium尺寸披萨的订购量,并按披萨名字分组。

db.orders.aggregate( [
   // Stage 1: 用$match方法找出所有medium尺寸披萨订单
   {
      $match: { size: "medium" }
   },
   // Stage 2: 对前一个阶段的输出结果按名字分组,并计算订单量
  {
      $group: { _id: "$name", totalQuantity: { $sum: "$quantity" } }
   }
] )

返回

{ "_id" : "Pepperoni", "totalQuantity" : 20 }
{ "_id" : "Cheese", "totalQuantity" : 50 }
{ "_id" : "Vegan", "totalQuantity" : 10 }

在该pipeline中,aggregate方法的参数是一个列表[ ],不同步骤按从左到右的顺序依次排列。

$match阶段,找出所有size=medium的订单。$group阶段,按披萨名字对前一步的输出结果分组,按组计算quantity之和,并赋名为totalQuantity

案例2指定了两个日期,计算在这两个日期之间的订单价值和平均单量。

db.testmongo.aggregate( [
   // 阶段1,指定日期间隔
   {
      $match:
      {
         "date": { $gte: new ISODate( "2020-01-30" ), $lt: new ISODate( "2022-01-30" ) }
      }
   },
   // 阶段2,对选定日期的文档计算所求值
   {
      $group:
      {
         _id: { $dateToString: { format: "%Y-%m-%d", date: "$date" } },
         totalOrderValue: { $sum: { $multiply: [ "$price", "$quantity" ] } },
         averageOrderQuantity: { $avg: "$quantity" }
      }
   },
   // 阶段3,对文档中的totalOrderValue按降序排列
   {
      $sort: { totalOrderValue: -1 }
   }
 ] )

返回

{ "_id" : "2022-01-12", "totalOrderValue" : 790, "averageOrderQuantity" : 30 }
{ "_id" : "2021-03-13", "totalOrderValue" : 770, "averageOrderQuantity" : 15 }
{ "_id" : "2021-03-17", "totalOrderValue" : 630, "averageOrderQuantity" : 30 }
{ "_id" : "2021-01-13", "totalOrderValue" : 350, "averageOrderQuantity" : 10 }

限制

agg pipeline如三方面限制

pipeline可操作的步骤和表达式列表

1 2 3
$sum 计算总和 db.<coll_name>.aggregate([{$group : {_id : "$by_user", num_tutorial : {$sum : "$likes"}}}])
$avg 计算平均值 db.<coll_name>.aggregate([{$group : {_id : "$by_user", num_tutorial : {$avg : "$likes"}}}])
$min 获取集合中所有文档对应值得最小值 db.<coll_name>.aggregate([{$group : {_id : "$by_user", num_tutorial : {$min : "$likes"}}}])
$max 获取集合中所有文档对应值得最大值 db.<coll_name>.aggregate([{$group : {_id : "$by_user", num_tutorial : {$max : "$likes"}}}])
$push 将值加入一个数组中,不会判断是否有重复的值 db.<coll_name>.aggregate([{$group : {_id : "$by_user", url : {$push: "$url"}}}])
$addToSet 将值加入一个数组中,会判断是否有重复的值,若相同的值在数组中已经存在了,则不加入 db.<coll_name>.aggregate([{$group : {_id : "$by_user", url : {$addToSet : "$url"}}}])
$first 根据资源文档的排序获取第一个文档数据 db.<coll_name>.aggregate([{$group : {_id : "$by_user", first_url : {$first : "$url"}}}])
$last 根据资源文档的排序获取最后一个文档数据 db.<coll_name>.aggregate([{$group : {_id : "$by_user", last_url : {$last : "$url"}}}])

单目标聚合 single purpose aggregation

单目标聚合对单独一个collection的文档做聚合。方法简单,但无法实现聚合pipeline。

方法 描述
db.<coll_name>.estimatedDocumentCount() collection或view中文档的大致数目
db.<coll_name>.count() collection或view中文档的数目
db.<coll_name>.distinct(<field_name>) 文档中特定字段的独特值列表

map-reduce函数

skip
从MongoDB 5.0开始,map-reduce函数下线(deprecated),相应的功能可由aggregation pipeline完成。

Reference

1 MongoDB manual, official website
2 runoob教程

上一篇 下一篇

猜你喜欢

热点阅读