Elasticsearch高级搜索技术-全文搜索

🕗 发布于 2024-10-19 17:37 elasticsearch

倒排索引 (Inverted Index)

示例

分词器 (Analyzer)

全文搜索是Elasticsearch的核心功能之一，它通过复杂的算法和数据结构来提供高效的搜索能力。为了深入理解其工作原理，我们需要探讨几个关键概念：倒排索引、分词器、评分机制以及查询的执行过程。

倒排索引 (Inverted Index)

倒排索引是全文搜索引擎的基础。与传统的正向索引（记录每个文档中包含哪些词）不同，倒排索引记录的是每个词出现在哪些文档中。这样当用户输入一个搜索请求时，系统可以快速定位到所有含有这些词的文档。

示例

假设有一个小型数据库，包含两篇新闻文章：

文章1: 人工智能正在改变世界。
文章2: 未来的世界将由智能机器主导。

倒排索引可能看起来像这样：

{
  "人工智能": [1],
  "正在": [1],
  "改变": [1],
  "世界": [1, 2],
  "未来": [2],
  "将": [2],
  "由": [2],
  "智能": [2],
  "机器": [2],
  "主导": [2]
}

分词器 (Analyzer)

在创建倒排索引之前，Elasticsearch会使用分词器对文本进行处理。分词器负责将文本分解成单个词语，并且可能会应用如小写转换、停用词移除等操作。不同的语言和地区通常需要不同的分词策略。

例如，在中文环境中，可能使用ik分词器或smartcn分词器来正确地分割中文句子。

评分机制 (Scoring)

Elasticsearch使用TF-IDF（Term Frequency - Inverse Document Frequency）和其他因素来计算每个文档的相关性得分。TF-IDF反映了某个词在特定文档中的重要程度及其在整个文集中的普遍性。此外，还可以考虑诸如短语匹配度、字段权重等因素。

查询执行

当你发起一个查询时，Elasticsearch会解析这个查询并生成一个内部表示形式，然后根据这个表示形式去查找倒排索引，最后返回结果。

`match` 查询

match查询会对输入的文本进行同样的分析过程，就像在索引过程中一样。这确保了查询条件能够准确对应到已有的词汇表上。

GET /news/_search
{
  "query": {
    "match": {
      "content": "人工智能"
    }
  }
}

`match_phrase` 查询

match_phrase查询用于精确匹配短语，同时允许通过slop参数控制短语内词之间的距离。

GET /news/_search
{
  "query": {
    "match_phrase": {
      "content": {
        "query": "人工智能",
        "slop": 2  // 允许最多两个其他单词插在这两个词之间
      }
    }
  }
}

这里的slop值为2意味着“人工智能”这两个词可以在文中相隔不超过两个其他词的情况下仍被视为匹配。

原文地址：https://blog.csdn.net/weixin_43298211/article/details/142789542

免责声明：本站文章内容转载自网络资源，如本站内容侵犯了原著者的合法权益，可联系本站删除。更多内容请关注自学内容网（zxcms.com）！

上一篇：首发Dell R730xd安装VMware Esxi 7.0U2A
下一篇：大数据-173 Elasticsearch 索引操作增删改查详细 JSON 操作

web前端网页用户注册页面
【代码】web前端网页用户注册页面。
阅读更多2024-10-20
Java IO 基础知识
IO 即，输入和输出。数据输入到计算机内存的过程即输入，反之输出到外部存储（比如数据库，文件，远程主机）的过程即输出。数据传输过程类似于水流，因此称为 IO 流。IO 流在 Java 中分为输入流和输
阅读更多2024-10-20
STM32传感器模块编程实践(七) MLX90614红外测温模块简介及驱动源码
本文介绍了MLX90614红外测温模块，通过探测物体红外辐射能量的大小和波长的分布来检测物体的表面温度。学会用STM32驱动MLX90614，可以广泛的用在额温枪、门禁等人体温度项目。
阅读更多2024-10-20
STM32学习笔记---SPI与W25Q64
SPI与W25Q24学习笔记，基于SPI底层通信协议使用W25Q24存储芯片
阅读更多2024-10-20
《计算机视觉》—— 基于dlib库的人检检测
使用dlib库的人脸检测器来检测人脸，并在检测到的人脸周围绘制矩形框。
阅读更多2024-10-20
RabbitMQ 发布确认模式
RabbitMQ 的发布确认模式（Publisher Confirms）是一种机制，用于确保消息在被 RabbitMQ 服务器成功接收后，发布者能够获得确认。这一机制在高可用性和可靠性场景下尤为重要，
阅读更多2024-10-20
在 Linux 系统中设置 Service 服务开机自启的详细指南
在 Linux 中，服务是后台运行的进程，它们在系统启动时开始运行，并且在系统关闭时停止。systemd：大多数现代 Linux 发行版（如 CentOS 7+、Ubuntu 16.04+、Debia
阅读更多2024-10-20
如何在word里面给文字加拼音？
第1步，这是一个专业的给汉字加拼音的软件，注音准确率在98%以上，并且效率也非常高，就算是几十万字的word文档也能轻松完成加拼音的操作。起始给word里的汉字加拼音的方法非常多，小编就找到了一些专门
阅读更多2024-10-20
CGAL专篇-CGAL概述
CGAL概述
阅读更多2024-10-20
【Linux 从基础到进阶】磁盘I/O性能调优
磁盘I/O性能是决定服务器整体性能的关键因素之一。磁盘I/O性能的瓶颈常常会影响数据库、文件系统以及虚拟化平台等关键应用的响应时间。因此，磁盘I/O调优是系统管理员不可忽视的任务。本文将介绍影响磁盘I
阅读更多2024-10-20

Elasticsearch高级搜索技术-全文搜索

倒排索引 (Inverted Index)

示例

分词器 (Analyzer)

评分机制 (Scoring)

查询执行

match 查询

match_phrase 查询

相关文章

`match` 查询

`match_phrase` 查询