Elasticsearch 检索优化：停用词的应用

🕗 发布于 2024-09-21 11:30 elasticsearch jenkins 大数据

Elasticsearch 检索优化：停用词的应用

场景描述

目前在 Elasticsearch 集群中存储约 1.5 亿篇文章数据，随着数据量的增加，检索性能问题逐渐显现。在列表检索和聚合操作中，CPU 消耗飙升至 100%，并且检索耗时较长：

列表检索耗时：5+ 秒
聚合检索耗时：12+ 秒
索引大小：623.40GB

实例

一个典型的检索词为：
Non-capital histories: book distribution in publishing houses of Siberia and the Far East

如果去除掉常见的无意义词（如 “the”、“in”、“of” 等），检索耗时从几秒缩短到毫秒级别。

优化前检索结果

优化后检索结果

问题分析

由于索引中没有设置停用词，导致检索词中的常见无意义词（如 “the”, “in”, “of”）被大量存储和匹配。这些词出现频率极高，却没有任何实质意义，导致大量不必要的 CPU 和内存消耗。通过启用停用词过滤，可以有效减少索引大小和检索时间。

测试停用词的使用

可以通过 /_analyze API 来测试停用词的效果，使用 stop 过滤器去除无意义词汇：

POST /_analyze
{
    "tokenizer": "standard",
    "filter": [
        "stop"
    ],
    "text": "in publishing houses of Siberia and the Far East"
}

返回结果（停用词被去除）：

{
    "tokens": [
        "publishing",
        "houses",
        "Siberia",
        "Far",
        "East"
    ]
}

停用词的配置

官方停用词列表

Elasticsearch 内置了多种语言的停用词列表，Lucene 项目提供了详细的停用词集合，如以下英文停用词：

static {
    final List<String> stopWords =
        Arrays.asList(
            "a", "an", "and", "are", "as", "at", "be", "but", "by", "for", "if", "in", "into", "is",
            "it", "no", "not", "of", "on", "or", "such", "that", "the", "their", "then", "there",
            "these", "they", "this", "to", "was", "will", "with");
    final CharArraySet stopSet = new CharArraySet(stopWords, false);
    ENGLISH_STOP_WORDS_SET = CharArraySet.unmodifiableSet(stopSet);
}

配置自定义分析器

在 Elasticsearch 中，可以通过修改索引的 settings 来定义自定义分析器，并为其添加停用词过滤器。

PUT /my-index-000001
{
  "settings": {
    "analysis": {
      "analyzer": {
        "my_analyzer": {
          "tokenizer": "whitespace",
          "filter": [ "stop" ]
        }
      }
    }
  }
}

可以通过 stopwords 参数指定停用词列表，支持内置语言值或自定义停用词文件。

自定义停用词过滤器

如果内置的停用词列表不满足需求，可以自定义停用词过滤器。例如，以下配置定义了一个区分大小写的停用词过滤器：

PUT /my-index-000001
{
  "settings": {
    "analysis": {
      "analyzer": {
        "default": {
          "tokenizer": "whitespace",
          "filter": [ "my_custom_stop_words_filter" ]
        }
      },
      "filter": {
        "my_custom_stop_words_filter": {
          "type": "stop",
          "ignore_case": true,
          "stopwords": [ "and", "is", "the" ]
        }
      }
    }
  }
}

索引配置优化

在实际使用中，可以结合停用词过滤器调整索引配置。例如，下面的索引配置应用了自定义停用词过滤器，并且将 analyzer 设置为 cx_analyzer：

{
  "settings": {
    "number_of_shards": 30,
    "number_of_replicas": 0,
    "analysis": {
      "filter": {
        "stop_filter": {
          "type": "stop",
          "ignore_case": true,
          "stopwords": "_english_"
        }
      },
      "analyzer": {
        "cx_analyzer": {
          "tokenizer": "standard",
          "filter": [ "stop_filter" ]
        }
      }
    }
  },
  "mappings": {
    "properties": {
       "digest": {
          "type": "text",
          "analyzer": "cx_analyzer"
      }
    }
  }
}

重建索引及数据迁移

由于 Elasticsearch 的索引是不可修改的（特别是分析器相关配置），因此需要通过以下步骤应用新配置：

创建新索引：使用新配置创建一个新索引。
迁移数据：使用 Reindex API 或编写脚本将数据从旧索引迁移到新索引。

使用 Reindex API 将旧索引的数据迁移至新索引：

POST _reindex?slices=20&refresh
{
  "source": {
    "index": "index_v1",
    "size": 5000
  },
  "dest": {
    "index": "index_v2"
  }
}

优化后的检索性能

经过停用词配置后，数据检索性能得到了显著提升：

索引	索引大小	列表检索时间	聚合检索时间
原始索引	623.40GB	5+ 秒	12+ 秒
停用词优化后的新索引	460.95GB	1.06 秒	1.23 秒

优化后的检索性能

停用词对性能的提升

停用词是指那些在文本中出现频率较高、但对搜索意义较小的词汇，例如 “the”、“is”、“a” 等。在建立索引时，通过忽略这些词可以减少索引体积，并加快查询速度。

减少索引体积：外文数据中包含大量无关的停用词，这些词汇如果被索引，会产生大量冗余信息。排除停用词后，索引体积显著缩小。
减少倒排索引的计算：每次查询时，Elasticsearch 都会通过倒排索引查找相关文档。停用词的高频率出现会增加计算量。排除停用词后，查询时可以跳过这些无意义的文档筛选和打分操作，从而提高效率。
提高查询相关性：去除停用词后，查询集中在有意义的词汇上，结果更加相关。
减少聚合计算量：在聚合操作中，停用词如果被索引，可能导致无意义的分组和计算。移除它们后，聚合性能大幅提升。

原文地址：https://blog.csdn.net/qq_29864051/article/details/142410878

免责声明：本站文章内容转载自网络资源，如本站内容侵犯了原著者的合法权益，可联系本站删除。更多内容请关注自学内容网（zxcms.com）！

上一篇：Adams与Matlab通过FMI联合仿真
下一篇：如何在Mac上查看剪贴板历史记录

【C++】list 类深度解析：探索双向链表的奇妙世界
本文深度解析了 C++ 标准库中的 list 类。首先阐述学习 list 类的原因，其具有高效插入删除操作优势，如双向链表结构使插入删除只需调指针，时间复杂度常数级；内存管理灵活，节点分散存储避免内存
阅读更多2024-11-16
常用List工具类（取交集、并集等等）
【代码】常用List工具类（取交集、并集等等）
阅读更多2024-11-16
宝塔面板从 Nginx 切换到 Caddy：详细教程
宝塔面板从 Nginx 切换到 Caddy
阅读更多2024-11-16
计算机网络中的数据包传输机制详解
数据包是网络通信的基本单位，它包含了控制信息（如源地址、目的地址等）和用户数据（即有效载荷）。根据不同的网络协议，数据包的结构会有所不同。数据包的传输机制是计算机网络的核心内容之一，它涉及到数据的封装
阅读更多2024-11-16
LinkedList 源码分析
仅仅在头尾插入或者删除元素的时候时间复杂度近似 O(1)，其他情况增删元素的平均时间复杂度都是 O(n)。底层数据结构是链表，内存地址不连续，只能通过指针来定位，不支持随机快速访问，所以不能实现。是一
阅读更多2024-11-16
【泛型 Plus】Kotlin 的加强版类型推断：@BuilderInference
视频先行下面是视频内容的脚本文案原稿分享。小剧场面试官：「既然协程和泛型你都熟悉，flow() 函数是怎么实现类型推断的有了解过吗？」求职者：「嗯……」求职者：「嗯……在Kotlin协程中，flow
阅读更多2024-11-16
20.UE5UI预构造，开始菜单
如果我们直接再画布上设计我们的按钮，我们需要为每一个按钮进行编辑，复用性太差，能不能在其他的UI蓝图中编辑好，随后就好像其他元素（文本，button）一样，直接放入到我们的画布中？为了在复用时，可以自
阅读更多2024-11-16
支持向量机SVM——基于分类问题的监督学习算法
支持向量机SVM是一种常用于分类问题的监督学习算法。文章主要从基础公式角度讲解它的基本原理，涉及线性和非线性情况。
阅读更多2024-11-16
鸿蒙生态下的安全隐私保护：打造用户信任的应用体验
作为开发者，在享受鸿蒙生态系统带来的广阔市场机遇的同时，也面临着保障用户数据安全和隐私保护的重要责任。同时，开发者需要向用户提供清晰的信息收集和使用的说明，让用户了解自己的数据如何被使用。总的来说，在
阅读更多2024-11-16
基本数据类型：Kotlin、Dart (Flutter)、Java 和 C++ 的比较
本文比较了 Kotlin、Dart (Flutter)、Java 和 C++ 中的基本数据类型，并探讨了有符号和无符号整数的区别。文章还详细解释了二进制补码的计算方式和其在计算机系统中的应用。理解这些
阅读更多2024-11-16

Elasticsearch 检索优化：停用词的应用