elasticsearch是如何进行搜索的？

🕗 发布于 2024-12-08 20:24 elasticsearch 大数据 搜索引擎

请求与转发

协调节点确定参与搜索的目标索引，及其通过分片路由表确定分片
对索引所在分片中选择任意节点
并发请求多个分片的副本分片

副本选择策略

副本选择主要考虑

分片健康状态：选择状态为 green 或 yellow 的副本
节点负载情况：避免查询集中到少数节点
响应时间与性能指标：选择最快的副本以降低响应时间

本地文档查询

分词：将查询条件进行分词和标准化

例如，当查询条件是 “北京烤鸭很美味”，经过分词后可能会被分成 “北京”“烤鸭”“很”“美味” 等词项，这样便于后续依据这些词项去倒排索引中查找匹配的文档。
segment并发查询
1. 词项（term）查找：通过倒排索引快速定位匹配文档
  
  倒排索引保存了每个文档中字段的词项及其对应文档 ID 列表，比如要查找包含 “烤鸭” 这个词项的文档，就可以通过倒排索引迅速定位到有哪些文档 ID 对应的文档包含该词。
2. 计算文档评分：根据查询条件计算文档的相关性得分（如 TF-IDF、BM25）
  
  以 TF - IDF 为例，如果文档中某个词出现的频率高（词频高），但在整个语料库（索引中的所有文档集合）中该词比较少见（逆文档频率高），那么这个词所在的文档相关性得分就会相对较高。例如，在一个美食相关的索引中，如果 “全聚德烤鸭” 这个词在某篇介绍全聚德的文档中多次出现，而在其他文档中很少出现，那这篇文档在以 “烤鸭” 为查询词时相关性得分就会比较高。
分片级别结果收集与排序

分片会从它的所有 Segment 中收集匹配的文档，并按相关性排序
返回查询结果：返回
- 匹配文档的元信息（文档ID、分数等）
- 排序字段值
- 聚合中间结果

Segment

segment是底层储存的基本单元，每个分片就是由多个segment组成。是一个不变的、独立的倒排索引，储存了文档的字段、倒排表、储存字段以及其他索引元数据

倒排索引：保存每个文档中字段的词项及其对应文档ID列表，用于快速搜索
储存字段：包含文档实际数据，用于返回结果
词典：包含字段所有唯一的词和元数据（如词频、位置）
评分信息：保存每个词与文档的评分数据，用于计算相关性得分
删除标记：用于标记哪些文档已被删除等相关状态管理

文档内容获取

协调节点对所有分片返回的文档ID和分数进行合并、排序
根据文档ID再次请求分片获取文档完整内容
返回查询的文档内容给客户端

原文地址：https://blog.csdn.net/iUcool/article/details/144224998

免责声明：本站文章内容转载自网络资源，如本站内容侵犯了原著者的合法权益，可联系本站删除。更多内容请关注自学内容网（zxcms.com）！

上一篇：Canal 深入解析：从原理到实践的全面解读
下一篇：腾讯云流式湖仓统一存储实践

.NET(C#) 如何配置用户首选项及保存用户设置
.NET(C#) 如何配置用户首选项及保存用户设置
阅读更多2024-12-14
【最新】北大数字普惠金融指数数据集-省市县（2011-2023年）
郭峰,王靖一,王芳,孔涛,张勋,程志云.测度中国数字普惠金融发展:指数编制与空间特征[J].经济学(季刊),2020,19(04):1401-1418.时间跨度：省级和城市级指数时间跨度为2011-2
阅读更多2024-12-14
GESP202412 四级【Recamán】题解（AC）
a11ak−1−kkakak−1−kak−1k小杨想知道 Recamán 数列的前n项从小到大排序后的结果。手动计算非常困难，小杨希望你能帮他解决这个问题。
阅读更多2024-12-14
IDEA遇到EasyConnect中的网络资源无法访问的问题
版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。原文链接：https://blog.csdn.net/wanshanyu_/article/de
阅读更多2024-12-14
双目摄像头标定方法
此时已经完成标定，左下角为反投影误差，右边为外参可视化。将双目左右目拍的图像上传（左右目最好不少于20张）此时回到主页面，即可看到成功导出。把这些误差大的删除即可。
阅读更多2024-12-14
Servlet、omcat服务器架构与工作原理
Servlet是运行在服务器端的Java程序，它的主要职责之一是接收并处理来自客户端（如浏览器）的HTTP请求。当客户端发送一个请求到服务器时，Servlet可以解析请求中的信息，例如请求的URL路径
阅读更多2024-12-14
Vue生命周期钩子函数：深入解析与实践
作为高级Vue前端开发人员，对Vue组件的生命周期钩子函数有着深刻的理解是至关重要的。生命周期钩子函数是指在Vue组件的创建、更新、销毁等过程中，Vue自动调用的一系列方法。通过这些钩子函数，我们可以
阅读更多2024-12-14
安卓开发--使用android studio发布APP
app发布
阅读更多2024-12-14
数据结构与算法学习笔记----拓扑排序
@ author: 明月清了个风。
阅读更多2024-12-14
python 将数据保存到现有的Excel文件的新工作表
out_file = ‘query.xlsx’df1 = pd.DataFrame(out_data)若直接写入：df1.to_excel(out_file, index=False, sheet_n
阅读更多2024-12-14