详细描述一下Elasticsearch搜索的过程？

🕗 发布于 2024-11-20 19:20 elasticsearch jenkins 大数据

大家好，我是锋哥。今天分享关于【详细描述一下Elasticsearch搜索的过程？】面试题。希望对大家有帮助；

详细描述一下Elasticsearch搜索的过程？

Elasticsearch 的搜索过程是其核心功能之一，允许用户对存储在 Elasticsearch 中的文档进行快速高效的查询。搜索过程涉及多个阶段，从接收查询请求到返回搜索结果，每个阶段都经过精细的设计，以实现高性能和高效的查询。下面将详细描述 Elasticsearch 搜索的各个步骤。

1. 接收查询请求

用户发起搜索请求，通常是通过 HTTP 协议发送的 RESTful 请求。查询请求可以是一个简单的匹配查询，也可以是复杂的多条件查询。
查询请求一般如下：
```
GET /my_index/_search
{
  "query": {
    "match": {
      "title": "Elasticsearch Basics"
    }
  }
}
```
上述请求表示在 my_index 索引中查找 title 字段中包含 "Elasticsearch Basics" 的文档。

2. 路由和分片选择

与索引文档时类似，Elasticsearch 需要确定查询请求将要作用的具体分片。这个过程由路由机制完成。
Elasticsearch 默认使用文档的 _id 字段通过哈希算法来路由查询到具体的分片。但在查询时，通常是基于索引和查询内容来选择分片。
如果查询是跨多个分片的，Elasticsearch 会决定哪些分片需要参与查询。例如，如果你查询一个索引中的所有文档，所有的分片都会参与查询。

3. 选择搜索的分片

如果请求没有指定特定的分片，Elasticsearch 会选择所有相关的分片。每个索引都有多个分片，分片分布在不同的节点上。
搜索请求会被发送到所有包含该索引的分片。每个分片会在本地执行搜索。

4. 分片级查询（Shard-Level Search）

每个参与查询的分片都会单独处理查询请求。Elasticsearch 中每个分片都是一个独立的 Lucene 索引，因此搜索过程在每个分片内部是独立进行的。
在分片级别，Elasticsearch 会执行以下操作：
- 解析查询：首先，Elasticsearch 会解析查询请求，决定使用何种查询类型，如 match、term、range 等。
- 分析查询：如果查询中包含文本字段（如 match 查询），则会使用与索引时相同的分析器对查询进行分析，将查询文本分解为一组词条。
- 倒排索引查询：然后，查询通过倒排索引（Inverted Index）来检索相关文档。倒排索引将每个词条映射到包含该词条的文档 ID 列表。
分片级查询的过程通常是高效的，因为每个分片的搜索操作都在本地进行，避免了跨节点的数据传输。

5. 聚合与排序（如果有的话）

如果查询中包含了聚合（如 aggregations）或者排序（sort）要求，那么 Elasticsearch 会在分片级别先对结果进行排序和聚合。
对于聚合，Elasticsearch 会计算分片内部的聚合结果。例如，如果你使用 terms 聚合，它会按词条分组统计每个分片内出现的频次。
排序通常在分片内进行，但如果查询跨多个分片且涉及排序，Elasticsearch 需要在所有分片的搜索结果返回后进行排序合并。

6. 从分片返回文档结果

每个分片完成查询后，都会返回一组相关文档的结果，以及相关的排序和聚合数据。
返回的数据通常包括文档的 _id、得分（score）、字段值、以及可能的聚合结果。
返回的文档中，可能还包含 _source 字段，它表示文档的原始 JSON 数据。

7. 跨分片聚合与合并

如果查询跨多个分片，Elasticsearch 会在所有分片完成查询后合并这些结果：
- 聚合合并：如果查询中包含聚合操作，Elasticsearch 会在各个分片级别计算局部聚合结果，然后将它们合并成全局聚合结果。
- 排序合并：对于带排序的查询，Elasticsearch 会对所有分片的查询结果进行合并，选择前 N 个相关的文档，然后返回给用户。
- 去重：在某些情况下，Elasticsearch 会去除重复的文档，确保每个文档只出现一次。

8. 计算相关性得分（Relevance Score）

Elasticsearch 会为每个文档计算一个得分，表示该文档与查询的相关性。得分是基于 TF-IDF（词频-逆文档频率）和 BM25 等算法计算的。
得分越高，文档与查询的相关性越强。
例如，在 match 查询中，文档的得分会根据其包含查询词的频率、查询词的权重、以及文档中其他词的频率来进行计算。
计算得分的过程会考虑词条在文档中的出现频率、文档的长度以及查询词在整个索引中的稀有程度。

9. 合并搜索结果并返回

Elasticsearch 收集所有分片的查询结果后，会根据查询要求对这些结果进行合并（如排序、去重、聚合等）。
最终，Elasticsearch 会将文档的 _id、得分、_source 数据等作为结果返回给用户，通常以 JSON 格式。

响应格式通常如下：

{
  "took": 1,
  "timed_out": false,
  "_shards": {
    "total": 5,
    "successful": 5,
    "failed": 0
  },
  "hits": {
    "total": {
      "value": 2,
      "relation": "eq"
    },
    "max_score": 1.0,
    "hits": [
      {
        "_index": "my_index",
        "_id": "1",
        "_score": 1.0,
        "_source": {
          "title": "Elasticsearch Basics",
          "content": "Elasticsearch is a distributed search engine."
        }
      },
      {
        "_index": "my_index",
        "_id": "2",
        "_score": 0.8,
        "_source": {
          "title": "Advanced Elasticsearch",
          "content": "Elasticsearch supports advanced search features."
        }
      }
    ]
  }
}

10. 缓存机制

为了加速后续的查询，Elasticsearch 会使用缓存机制，缓存一些常见的查询和过滤操作。特别是 查询缓存 和 字段数据缓存（fielddata）可以显著提高查询性能。
对于重复的查询，Elasticsearch 会直接从缓存中返回结果，而无需重新执行完整的搜索过程。

总结

Elasticsearch 搜索过程的步骤如下：

接收查询请求：解析查询请求，确定目标索引和查询条件。
路由和选择分片：根据查询条件决定哪些分片需要参与查询。
分片级查询：在每个分片上执行查询，分析查询并通过倒排索引检索相关文档。
聚合和排序：在分片级别处理聚合和排序操作。
合并分片结果：合并多个分片返回的结果，包括排序、聚合和去重等操作。
计算相关性得分：根据查询结果计算每个文档的相关性得分。
返回最终结果：返回查询结果，包括文档内容、得分和聚合数据。

通过这些步骤，Elasticsearch 能够在大规模数据集上快速进行分布式搜索，提供高效的查询性能。

原文地址：https://blog.csdn.net/caoli201314/article/details/143876716

免责声明：本站文章内容转载自网络资源，如本站内容侵犯了原著者的合法权益，可联系本站删除。更多内容请关注自学内容网（zxcms.com）！

论文阅读——Intrusion detection systems using longshort‑term memory (LSTM)
作者提出的 LSTM 模型能够有效区分正常网络流量和攻击流量。除此之外，模型结合主成分分析（PCA）和互信息作为降维方法。实验结果表明，基于 PCA 的模型（特别是使用2个主成分）在二分类和多分类任务
阅读更多2024-11-21
用源码编译虚幻引擎，并打包到安卓平台
本文详细介绍了如何用源码编译虚幻引擎，并将其打包到安卓平台。
阅读更多2024-11-21
Vue项目开发 element-UI 前端实现 1到10排列选择的按钮
在 Element UI 中，你可以通过来实现按钮的排列选择，例如让用户选择 1 到 10 之间的数字。为了实现这一功能，我们可以使用来动态生成 1 到 10 的按钮，并通过按钮点击事件来更新
阅读更多2024-11-21
Java EE 【知识改变命运】01计算机的一些知识点
计算机一些基础知识
阅读更多2024-11-21
04 —— Webpack打包CSS代码
加载器style-loader：把解析后的css代码插入到DOM。加载器css-loader ：解析css代码。直接引用，不用变量接收。
阅读更多2024-11-21
万能程序补丁工具 C# 源代码详解
万能程序补丁工具程序目的：搜索二进制可执行 EXE 或 DLL 文件分析的特征代码，替换特征代码，达到调试修正目标程序的功能。
阅读更多2024-11-21
【MySQL数据库】C#实现MySQL数据库最简单的查询和执行函数
C#和MySQL数据库是常见的数据交互，标准的查询和执行方法如下，做个记录。
阅读更多2024-11-21
单条推理转批量推理prompt
在每个线程中设置环境变量 CUDA_VISIBLE_DEVICES，以确保每个线程只使用指定的GPU。使用 concurrent.futures.ThreadPoolExecutor 来管理多线程任务
阅读更多2024-11-21
【AIGC】ChatGPT提示词Prompt解析：情感分析，分手后还可以做朋友吗？
【AIGC】在情感博弈中，最重要的是保持清醒的认知和优雅的态度。识别控制话术不是为了对抗，而是为了更好地保护自己的情感自由，实现真正的成长。
阅读更多2024-11-21
pycharm中配置pyqt5
PyQt和wxPython则提供了更多的控件和更强大的功能，适合于需要复杂用户界面的应用程序。pyQt生成的应用程序，引用图片通常是将资源文件装换为 python 文件，然后引用资源文件，而不能直接加
阅读更多2024-11-21

详细描述一下Elasticsearch搜索的过程？

详细描述一下Elasticsearch搜索的过程？

1. 接收查询请求

2. 路由和分片选择

3. 选择搜索的分片

4. 分片级查询（Shard-Level Search）

5. 聚合与排序（如果有的话）

6. 从分片返回文档结果

7. 跨分片聚合与合并

8. 计算相关性得分（Relevance Score）

9. 合并搜索结果并返回

10. 缓存机制

总结

相关文章