MongoDB-aggregate流式计算：带条件的关联查询使用案例分析

🕗 发布于 2024-10-05 07:17 mongodb 数据库

在数据库的查询中，是一定会遇到表关联查询的。当两张大表关联时，时常会遇到性能和资源问题。这篇文章就是用一个例子来分享MongoDB带条件的关联查询发挥的作用。

假设工作环境中有两张MongoDB集合：SC_DATA（学生基本信息集合）、DICT_DATA（值域字典集合），集合结构如下：

SC_DATA
uniqueid	学生唯一号
sfzid	学生身份证
xsxm	学生姓名
mz	民族
xb	性别

DICT_DATA
clss	字典类别
value	字典值域
map	字典值域映射值
version	字典版本

现在分别给这两张表插入一些测试数据，给SC_DATA插入10条数据，给DICT_DATA插入6条数据

db.SC_DATA.insertMany([
   { "uniqueid" : "10001", "sfzid" : "3715xxxx0813", "xsxm" :"张一","mz":"1","xb":"1" },
   { "uniqueid" : "10002", "sfzid" : "3715xxxx0814", "xsxm" :"张二","mz":"1","xb":"1" },
   { "uniqueid" : "10003", "sfzid" : "3715xxxx0815", "xsxm" :"张三","mz":"1","xb":"1" },
   { "uniqueid" : "10004", "sfzid" : "3715xxxx0816", "xsxm" :"张四","mz":"1","xb":"b" },
   { "uniqueid" : "10005", "sfzid" : "3715xxxx0817", "xsxm" :"张五","mz":"a","xb":"1" },
   { "uniqueid" : "10006", "sfzid" : "3715xxxx0819", "xsxm" :"张六","mz":"1","xb":"b" },
   { "uniqueid" : "10007", "sfzid" : "3715xxxx0823", "xsxm" :"张七","mz":"1","xb":"1" },
   { "uniqueid" : "10008", "sfzid" : "3715xxxx0833", "xsxm" :"张八","mz":"1","xb":"1" },
   { "uniqueid" : "10009", "sfzid" : "3715xxxx0843", "xsxm" :"张九","mz":"1","xb":"1" },
   { "uniqueid" : "100010", "sfzid" : "3715xxxx0853", "xsxm" :"张十","mz":"1","xb":"1" },
])

db.DICT_DATA.insertMany([
   { "clss" : "民族", "value" : "汉族", "map" :"1","version":"v1.0"},
   { "clss" : "民族", "value" : "壮族", "map" :"2","version":"v1.0"},
   { "clss" : "民族", "value" : "满族", "map" :"3","version":"v1.0"},
   { "clss" : "民族", "value" : "回族", "map" :"4","version":"v1.0"},
   { "clss" : "性别", "value" : "男",   "map" :"1","version":"v1.0"},
   { "clss" : "性别", "value" : "女",   "map" :"2","version":"v1.0"}

])

此时，有个需求是 “统计出SC_DATA集合中民族、性别字段在字典值域内的数据”！

一般呢，思路是利用两集合关联，过滤出能关联上的数据。MongoDB的$lookup操作符类似于关系数据库的左连接，根据当前实际情况，用大表（SC_DATA.mz、SC_DATA.xb）左连接小表（DICT_DATA.map），能关联上的数据就是SC_DATA集合中民族、性别字段在字典值域内的数据！

一般呢，就直接用了$lookup进行关联了，但是，观察下DICT_DATA字典数据，承担关联任务的字段——map，有多个相同值，必须加上clss条件过滤才能得出准确数据，代码如下。

db.SC_DATA.aggregate([
  {
    $lookup: {
      from: "DICT_DATA",
      localField: "mz",
      foreignField: "map",
      as: "DICT_DATA"
    }
  },
  {
    $unwind: {
      path: "$DICT_DATA",
      preserveNullAndEmptyArrays: true
    }
  },
  {
    $match: {
    "DICT_DATA.clss": "民族"
    }
  },
  {
    $group: {
      _id: null,
      count: {
        $sum: 1
      }
    }
  }
  ])

但是，诸位请看，上面的代码是先关联，再过滤。通过compass工具分阶段查看，可以更清晰的看到关联后，因为DICT_DATA.map存在重复值，所以如果SC_DATA能和DICT_DATA关联上的话，数据会翻倍。

对于我们上面的测试数据，SC_DATA有10条测试数据，和DICT_DATA关联后数据量是19条，过滤clss后是9条。大家可能觉得这种还好，但是如果SC_DATA有上千万条数据，DICT_DATA的数据更多，重复值更多，这样关联出来的数据是非常惊人的，效率也会变得奇慢无比，甚至会造成数据库卡死。

如果能够在关联出结果前，就进行过滤，就会让更少量的数据进入到下一个MongoDB聚合管道，就会消耗更少量的资源。

这里也就引出了这篇文章的主角：带条件的$lookup，语法格式如下：

{
   $lookup:
      {
         from: <joined collection>,
         let: { <var_1>: <expression>, …, <var_n>: <expression> },
         pipeline: [ <pipeline to run on joined collection> ],
         as: <output array field>
      }
}

参数说明如下：

参数	说明
from	指定待执行连接操作的集合，是当前集合【可以看下面的例子理解】
let	指定各个管道阶段使用的变量，这里的变量可以放到pipeline中使用；这里指定的都是自身当前集合中的字段变量；这里指定变量的时候以 col_name:$col_name的形式，在pipeline中使用的时候以 $$col_name形式使用；
pipeline	1、pipeline中，可以使用let中指定的变量，也可以使用当前集合中的字段； 2、pipeline中，$match阶段需要使用$expr操作符来访问变量，$expr允许在$match中使用聚合表达式； 3、pipeline中，放置在$expr上的$eq、$lt、$lte、$gt、$gte比较操作符，可以使用$lookup阶段引用的 from集合上的索引； 3.1、使用索引的限制一：不使用多键索引； 3.2、使用索引的限制二：当操作的数量比较大，或者操作数据类型没有定义时，不使用索引； 3.3、使用索引的限制三：索引只能用于字段和常量之间的比较，变量和变量之间的比较不能使用索引； 4、pipeline中，非$match阶段，不需要使用$expr操作符来访问变量
as	指定要添加到已连接文档的新数量字段的名称。新的大量字段包含来自加入的收集的匹配文档。如果指定的名称已存在于所连接的文档中，则现有字段将被覆盖。

针对 “统计出SC_DATA集合中民族、性别字段在字典值域内的数据”！这个需求，我们就可以将其写为如下代码！

db.SC_DATA.aggregate([
  {
    $lookup: {
      from: "DICT_DATA",
      let: {
        mz: "$mz"
      },
      pipeline: [
        {
          $match: {
            $expr: {
              $and: [
                {
                  $eq: ["$map", "$$mz"]
                },
                {
                  $eq: ["$clss", "民族"]
                }
              ]
            }
          }
        }
      ],
      as: "DICT_DATA"
    }
  },
  {
    $unwind: {
      path: "$DICT_DATA",
      preserveNullAndEmptyArrays: true
    }
  },
  {
    $match: {
      "DICT_DATA.map": {
        $ne: null
      }
    }
  },
  {
    $group: {
      _id: null,
      count: {
        $sum: 1
      }
    }
  }
  ])

从compass工具中，可以更清晰的看到数据量变化。此时，因为在输出关联数据前，先进行了过滤。这种写法可以消耗更少的数据库及系统资源，但在索引使用上和正常关联略有区别需要注意。

原文地址：https://blog.csdn.net/m0_58872140/article/details/142624082

免责声明：本站文章内容转载自网络资源，如本站内容侵犯了原著者的合法权益，可联系本站删除。更多内容请关注自学内容网（zxcms.com）！

上一篇：安全教育培训小程序系统开发制作方案
下一篇：JVM内存回收机制

ssm基于JAVA的酒店管理系统的设计与实现
需要定制毕设请私聊，海量题目可选，你选题目我出功能
阅读更多2024-10-06
【算法】双指针
常见的双指针有两种形式，⼀种是对撞指针，⼀种是快慢指针。
阅读更多2024-10-06
C语言动态内存管理(26)
如果未来要想学好数据结构，那么你对指针、结构体还有本篇的动态内存的理解掌握能力是要很高的所以跟我一起开始本篇的学习吧！在C99中，结构体最后一个成员为未知大小的数组，这个被称为柔性数组的成员，帮助用户
阅读更多2024-10-06
人形机器人相关零件解释
螺旋执行器就是这样的原理，它可以把旋转的运动变成直线的上下或前后运动。比如，你可以用它来控制机器人的手臂上下移动。多维力传感器就像是机器人的“触觉”，它可以感受到不同方向的力量。比如，当机器人用手去捡
阅读更多2024-10-06
【智能算法应用】侏儒猫鼬优化算法求解二维路径规划问题
在复杂环境下的移动机器人路径规划问题中，最优路径的求解具有重要的应用价值。本文基于一种新型智能优化算法——侏儒猫鼬优化算法（DMOA），提出了一种二维路径规划的有效求解方法。该算法通过模拟侏儒猫鼬的觅
阅读更多2024-10-06
5G NR BWP 简介
5G NR 系统带宽比4G LTE 大了很多，4G LTE 最大支持带宽为20MHz，而5G NR 的FR1 最大支持带宽为100MH在， FR2 最大支持带宽为 400MH在。带宽越大，意味了终端
阅读更多2024-10-06
（Linux驱动学习 - 7）.阻塞IO和非阻塞IO
当应用程序对设备驱动进行操作的时候，如果不能获取到设备资源，那么就会将应用程序对应的，直到设备资源可以获取为止。在应用程序中，用户调用 open 函数打开设备文件的。
阅读更多2024-10-06
通过 Groovy 实现业务逻辑的动态变更
Groovy语言作为一种基于JVM的动态语言，它可以编译为与Java相同的字节码，然后将字节码文件交给JVM去执行，并且可以与Java类无缝地互操作。Groovy可以透明地与Java库和代码交互，可以
阅读更多2024-10-06
算法竞赛（Python）-万变中的不变“随机算法”
算法竞赛（Python）-万变中的不变“随机算法”
阅读更多2024-10-06
【2024】前端学习笔记14-JavaScript常用数据类型-变量常量
本文记录了JavaScript常用的数据类型和变量常量的使用
阅读更多2024-10-06

MongoDB-aggregate流式计算：带条件的关联查询使用案例分析

相关文章