如何优化Elasticsearch查询以提高性能？

🕗 发布于 2024-11-09 06:19 elasticsearch 大数据 搜索引擎

为了优化Elasticsearch查询以提高性能，以下是一些实用的策略和技巧：

节点负载均衡：
- 通过调整副本数来实现负载均衡。确保分片和副本的总数与节点数量相匹配，以均匀分配查询请求。
慢查询处理：
- 开启慢查询日志，监控和识别慢查询，以便后续优化。可以通过API手动开启慢查询日志，并设置合适的阈值。
合理使用filter子句：
- 在bool查询中，使用filter子句来避免不必要的得分计算，提升查询性能。Filter查询结果会被自动缓存，加速后续查询的响应速度。

SearchRequest searchRequest = new SearchRequest();
            SearchSourceBuilder sourceBuilder = new SearchSourceBuilder();
            BoolQueryBuilder boolQuery = QueryBuilders.boolQuery();
            for (Map.Entry<String, Object> entry : map.entrySet()) {
                String key = entry.getKey();
                Object value = entry.getValue();
                if ("customerName".equals(key) || "customerCode".equals(key)) {
                    if (value instanceof Collection) {
                        TermsQueryBuilder termsQueryBuilder = QueryBuilders.termsQuery(key, (Collection<?>) value);
                        boolQuery.filter(termsQueryBuilder);
                    } else {
                        TermQueryBuilder termQueryBuilder = QueryBuilders.termQuery(key, value);
                        boolQuery.filter(termQueryBuilder);
                    }
                }
            }

查询性能分析：
- 在Kibana的Dev Tool中，使用search profile查看具体耗时分析，从而进行性能优化。
terms查询优化：
- 将terms查询替换为多个term查询以提高性能。对于精确匹配，使用term查询而不是match查询。
增加副本数量以平衡负载：
- 通过增加副本数量来提高搜索性能和系统容错能力。
避免在查询中使用默认值：
- 减少匹配记录，避免产生慢查询。
使用分页限制返回结果数量：
- 降低计算和传输负担，提高查询性能。注意深度分页可能导致性能问题，考虑使用search_after参数。

在这里插入图片描述

保持Elasticsearch版本更新：
- 定期更新以利用新功能和修复的错误，避免已知问题。
监控集群：
- 使用Elasticsearch Head、Kibana monitoring插件等工具监控集群的健康和性能。
使用批量请求：
- 批量API允许在单个API调用中执行多个索引/删除操作，提高索引速度。
设计合理的mapping配置：
- 选择合适的字段类型和分析器，优化映射以减少存储空间和提高查询性能。
避免深度分页：
- 深度分页会导致大量无用数据的检索，严重影响性能。建议使用scroll API或search_after参数来实现深度分页。
利用查询缓存：
- Elasticsearch会自动缓存频繁执行的查询结果，以减少查询延迟。可以通过调整indices.queries.cache.size参数来优化查询缓存的大小。
预索引聚合字段：
- 对于经常需要聚合的字段，可以在索引时预先计算聚合结果，并存储在专门的字段中，以加快查询速度。

通过实施上述策略，可以显著改善Elasticsearch的查询速度与资源利用效率。

🔍 在Elasticsearch中，哪些查询类型对性能影响最大？

在Elasticsearch中，以下几种查询类型对性能影响较大：

深度分页查询：
- 深度分页查询会导致性能问题，因为Elasticsearch需要查询并排序大量的文档，然后返回顶部的文档。这种查询会随着页数的增加而性能急剧下降。
前缀模糊匹配查询：
- 前缀模糊匹配查询，尤其是在一个数据量较大的索引上执行时，通常耗时会比较长，甚至可能导致内存溢出。
通配符查询：
- 通配符查询可能会很慢且耗资源，最好尽量避免使用它们。替代方案包括使用Ngram分词、设置wildcard数据类型。
嵌套(Nested)查询：
- 嵌套查询在某些场景下很有用，但它们也带来了一定的性能影响，因为查询嵌套字段速度较慢，需要执行额外的处理步骤，例如过滤器和关联。
大量terms查询：
- 在bool查询中，使用terms条件查询时，如果查询字段中出现大量值，会导致几乎全部记录被匹配，从而产生慢查询。
未使用filter上下文的查询：
- 在bool查询中，must和should子句使用query上下文，而filter和must_not使用filter上下文。query上下文需要计算匹配度得分，而filter上下文仅关注文档是否匹配，没有额外计算，并且结果可以被缓存，因此使用filter上下文可以提高性能。
未优化的聚合查询：
- 聚合查询如果没有得到适当的优化，尤其是在大数据集上，可能会导致性能问题。
未使用索引的查询：
- 如果查询没有利用到索引，比如全文搜索没有使用合适的分词器或者查询字段没有被索引，那么查询性能会受到显著影响。

针对这些查询类型，可以采取相应的优化措施，比如使用search_after进行深度分页、避免前缀模糊匹配、使用filter代替query子句、扁平化嵌套数据结构、优化terms查询条件、以及确保查询能够利用索引等，以提高Elasticsearch查询的性能。
在这里插入图片描述

🚀 对于大数据集，Elasticsearch有哪些高效的查询策略？

对于大数据集，Elasticsearch的高效查询策略包括以下几个方面：

查询调优：
- 避免单次召回大量数据，搜索引擎擅长从海量数据中查询少量相关文档，而非单次检索大量文档。如果有这样的需求，建议使用滚动查询。
- 避免单个文档过大，大型文档对网络、内存使用和磁盘造成更大的压力。
读写性能调优：
- 明确读写性能调优在很多场景下是只能二选一的，牺牲写入实时性以提高检索性能。
分页策略：
- 使用search_after进行深度分页，避免使用from + size方式，因为这种方式会导致越往后分页获取的代价越高。
- 使用scroll API进行大结果集查询，但需要注意维护scroll_id。
排序优化：
- 增加一个long字段，用于存储时间和ID的组合，以优化排序性能。
CPU资源分配：
- 如果检索时需要做排序，则需要字段对比，消耗CPU比较大，尽量分配16cores以上的CPU，具体看业务压力。
批量请求：
- 使用批量请求（Bulk requests）代替单文档索引请求，以提高索引性能。
- 通过测试确定批量请求的最优大小，避免过大的批量请求导致内存压力。
多线程/多进程发送数据：
- 使用多个线程或进程发送数据到Elasticsearch，以充分利用集群资源。
刷新间隔调整：
- 根据索引和搜索流量调整index.refresh_interval，以优化索引速度。
查询性能分析：
- 使用Search Profiler分析查询性能，找出查询和聚合中各个组件的性能瓶颈。
字段数据结构优化：
- 对于频繁用于桶聚合的字段，可以预热全局序数（global ordinals）以优化聚合性能。
文件系统缓存预热：
- 根据文件扩展名，明确告诉操作系统哪些文件应该被预先加载到内存中，以加速搜索操作。
索引排序：
- 使用索引排序来加速合取查询，但可能会稍微降低索引速度。
使用preference优化缓存利用：
- 通过preference参数优化缓存利用，提高查询性能。
查询优化：
- 使用index_phrases和index_prefixes选项来加速短语查询和前缀查询。
使用constant_keyword加速过滤：
- 对于常见的过滤条件，使用constant_keyword类型来加速过滤，减少匹配文档的数量。

通过实施上述策略，可以显著提高Elasticsearch在处理大数据集时的查询性能。

原文地址：https://blog.csdn.net/weixin_44372802/article/details/143620985

免责声明：本站文章内容转载自网络资源，如本站内容侵犯了原著者的合法权益，可联系本站删除。更多内容请关注自学内容网（zxcms.com）！

上一篇：营业执照OCR识别API接口如何用C#调用
下一篇：RocketMQ部署教程

Qt文件目录操作
QCoreApplication 是为无 GUI 应用程序提供事件循环的类，是所有应用程序类的基类，其子类 QGuiApplication 为有 GUI 界面的应用程序提供流控制和主要设定，QGuiA
阅读更多2024-11-16
从0开始深度学习（30）——语言模型和数据集
在上一节中，我们将文本数据映射为词元，并制作了词表。这一节我们将介绍语言模型和语言数据集。
阅读更多2024-11-16
git常用命令+搭vscode使用
4.或者基于分支git checkout origin/ 在本地master中重新拉取远程上的某个分支；然后从当前创建新的分支后推到远程（实现基于某个分支创建新分支）git fetch + git m
阅读更多2024-11-16
【阅读记录-章节2】Build a Large Language Model (From Scratch)
文本转换为数值向量（嵌入）嵌入是LLMs（大规模语言模型）处理文本数据的关键。因为LLMs不能直接处理原始文本数据，所以需要将文本转换为数值表示，这些数值表示就是嵌入。嵌入将离散数据（例如词语或图像）
阅读更多2024-11-16
Vue 3 条件渲染与列表渲染完整指南
本文详细介绍了 Vue 3 中的v-ifv-show和v-for指令的使用方法、适用场景、常见优化技巧和注意事项。在实际开发中，合理使用这些指令不仅可以提高代码的可读性，还能提升应用性能。掌握这些条件
阅读更多2024-11-16
接口文档的编写
（Application Programming Interface）即应用程序接口。可以认为 API 是一个软件组件或是一个 Web 服务与外界进行的交互的接口。目的是提供应用程序与开发人员基于某软
阅读更多2024-11-16
thinkphp增删查改例子
以上示例演示了如何使用ThinkPHP进行数据库的增删查改操作。您可以根据自己的需求对示例进行修改和扩展。
阅读更多2024-11-16
openai 论文Scaling Laws for Neural Language Models学习
最佳性能取决于作为幂律的总计算量 (参见等式(1.3)). 我们为方程提供了一些基本的理论动因(1.5)、对学习曲线拟合及其对训练时间的影响的分析，以及对每个 token 的结果的细分。传输性能随
阅读更多2024-11-16
0x00基础算法 -- 0x05 排序
离散化，中位数，第k大数，归排--逆序对
阅读更多2024-11-16
C#里实现日期比较
例如，刻度值为 3124137600000000L 表示星期五，0100 年 1 月 12 日 12：00：00 午夜。值 DateTime 类型表示日期和时间，其值范围从 00：00：00 （午夜）
阅读更多2024-11-16

如何优化Elasticsearch查询以提高性能？

🔍 在Elasticsearch中，哪些查询类型对性能影响最大？

🚀 对于大数据集，Elasticsearch有哪些高效的查询策略？

相关文章