Elasticsearch二次开发：实现实时定时同步同义词、近义词与停用词

🕗 发布于 2025-01-17 11:06 elasticsearch 中文分词

引言

Elasticsearch（ES）作为开源搜索引擎的典范，以其强大的全文搜索、结构化搜索以及分析能力，在各个领域得到了广泛应用。在复杂的搜索场景中，同义词、近义词和停用词的处理对于提升搜索的准确性和用户体验至关重要。为了满足动态变化的业务需求，实现同义词、近义词与停用词的定时同步成为了一项关键任务。本文将详细介绍如何在Elasticsearch中实现这一功能，并给出具体的操作方案和业务场景说明。

一、业务场景说明

在电商平台的搜索场景中，用户输入的搜索关键词往往具有多样性。例如，用户可能搜索“电脑”或“计算机”，实际上这两者指的是同一类产品。此外，一些无意义的停用词如“的”、“了”等，在搜索时应该被忽略，以提高搜索效率。同时，随着业务的不断发展，新的同义词和近义词不断涌现，停用词列表也可能需要更新。因此，实现同义词、近义词与停用词的定时同步，对于提升搜索体验至关重要。

二、定时同步同义词、近义词与停用词的实现方案

1. 准备工作

安装Elasticsearch：确保Elasticsearch已正确安装并运行。
配置分词器：选择合适的中文分词器，如IK分词器，以支持中文文本的分词处理。

2. 创建同义词、近义词与停用词词典

同义词词典：创建一个文本文件（如synonym.txt），每行包含一个词汇及其同义词，用逗号或制表符分隔。例如：
```
电脑,计算机,PC
高兴,快乐,愉悦
```
近义词词典（可选）：根据需要创建近义词词典，格式与同义词词典类似。
停用词词典：创建一个文本文件（如stopword.txt），每行包含一个需要忽略的停用词。例如：
```
的
了
是
```

3. 配置Elasticsearch索引

在Elasticsearch的索引设置中，定义同义词、近义词与停用词过滤器，并应用到相应的字段上。例如：

PUT /my_index
{
  "settings": {
    "analysis": {
      "filter": {
        "my_synonym_filter": {
          "type": "synonym",
          "synonyms_path": "analysis/synonym.txt"
        },
        "my_stop_filter": {
          "type": "stop",
          "stopwords_path": "analysis/stopword.txt"
        }
      },
      "analyzer": {
        "my_analyzer": {
          "tokenizer": "ik_smart",
          "filter": ["my_synonym_filter", "my_stop_filter", "lowercase"]
        }
      }
    }
  },
  "mappings": {
    "properties": {
      "product_name": {
        "type": "text",
        "analyzer": "my_analyzer"
      }
    }
  }
}

4. 实现定时同步

为了实现同义词、近义词与停用词的定时同步，可以采用以下几种方案：

使用脚本或定时任务：编写脚本（如Shell脚本、Python脚本等），定期从远程服务器或数据库下载最新的词典文件，并替换Elasticsearch节点上的相应文件。然后，通过Elasticsearch的API触发索引的刷新操作，使新的词典生效。

例如，使用Python脚本实现定时同步：

import requests
import os
import time

def download_synonyms():
    url = "http://example.com/synonym.txt"
    response = requests.get(url)
    if response.status_code == 200:
        with open("analysis/synonym.txt", "w", encoding="utf-8") as file:
            file.write(response.text)

def refresh_index():
    url = "http://localhost:9200/my_index/_flush"
    requests.post(url)

def main():
    while True:
        download_synonyms()
        refresh_index()
        time.sleep(3600)  # 每隔一小时同步一次

if __name__ == "__main__":
    main()

使用Elasticsearch插件：利用一些第三方插件（如Dynamic Synonym for Elasticsearch）实现同义词词典的定时更新。这些插件通常支持从本地或远程服务器加载同义词词典，并定时自动更新，无需重启Elasticsearch服务。

例如，配置Dynamic Synonym插件：
```
PUT _cluster/settings
{
  "persistent": {
    "dynamic_synonym.path": "http://example.com/synonym.txt",
    "dynamic_synonym.interval": "3600000"  # 每隔一小时更新一次
  }
}
```

5. 验证与测试

验证词典同步：在定时任务或插件配置完成后，手动触发一次同步操作，检查Elasticsearch节点上的词典文件是否已更新。
测试搜索功能：使用新的同义词、近义词与停用词进行测试搜索，确保搜索结果符合预期。

三、总结

通过实现同义词、近义词与停用词的定时同步，可以确保Elasticsearch的搜索功能始终与业务需求保持一致，提升搜索的准确性和用户体验。在实施过程中，需要根据具体的业务场景和需求选择合适的同步方案，并进行充分的验证与测试。

原文地址：https://blog.csdn.net/qq_30009397/article/details/145150295

免责声明：本站文章内容转载自网络资源，如侵犯了原著者的合法权益，可联系本站删除。更多内容请关注自学内容网（zxcms.com）！

上一篇：Redis 3.2.1在Win10系统上的安装教程
下一篇：【RK3588嵌入式图形编程】-SDL2-创建应用窗口

react中，使用antd的Upload组件切片上传.zip文件及压缩包的下载
【代码】react中，使用antd的Upload组件切片上传.zip文件及压缩包的下载。
阅读更多2025-01-21
Spring Boot 启动流程解析及重点源码
综上所述，我们详细解析了 Spring Boot 应用程序的启动流程，并提供了关键步骤中的源码分析。了解这一过程不仅有助于我们更好地掌握 Spring Boot 的工作原理。
阅读更多2025-01-21
在Spring Boot中使用SeeEmitter类实现EventStream流式编程将实时事件推送至客户端
是浏览器与服务器之间的一种通信机制，允许服务器向客户端发送事件流。与WebSocket不同，SSE是单向通信，适用于需要实时更新数据的场景，如通知、新闻推送、实时数据更新等。SSE的工作方式是：客户端
阅读更多2025-01-21
深入Spring Boot：自定义Starter开发与实践
Starter是SpringBoot的核心组件之一，它是一种依赖管理机制，旨在简化Spring应用的开发过程。通过引入一个Starter模块，开发者可以快速启用SpringBoot提供的特定功能，而无
阅读更多2025-01-21
低代码系统-产品架构案例介绍（三）
简单介绍一个低代码产品。
阅读更多2025-01-21
Dify：低代码 AI 应用开发平台详解与实战指南
Dify是一个低代码AI应用开发框架，支持多种大语言模型（LLM），允许用户通过可视化界面或API轻松创建AI应用，无需深厚的编程技能。
阅读更多2025-01-21
Ae 表达式语言引用：Layer - 3D
Layer-3D（3D 图层属性）组允许访问和控制图层的三维变换属性、光照属性、材质属性、反射属性等。通过这些属性，可以实现动态的三维旋转、光照效果控制、材质特性调整，极大地提升 After Effe
阅读更多2025-01-21
畅游Diffusion数字人(14)：基于3D人体网格的语音驱动手势视频生成 ECCV 2024
根据语音输入生成与说话内容、情感和节奏相匹配的自然、流畅且逼真的手势视频。该技术在虚拟形象、虚拟现实、动画制作等领域具有重要应用价值。然而这方面的研究非常少，这篇博客解读一篇ECCV2024的最新论文
阅读更多2025-01-21
Zemax STAR 模块的入门设置
下一步是通过使用下拉手册将表面分配给数据集，将每个多物理场数据与相应的表面对齐。Zemax OpticStudio 中的 STAR 模块允许直接导入来自有限元分析（FEA）软件的变形数据，从而将光
阅读更多2025-01-21
拓扑学：单纯形(simplex)
拓扑学：单纯形(simplex)
阅读更多2025-01-21

Elasticsearch二次开发：实现实时定时同步同义词、近义词与停用词

引言

一、业务场景说明

二、定时同步同义词、近义词与停用词的实现方案

1. 准备工作

2. 创建同义词、近义词与停用词词典

3. 配置Elasticsearch索引

4. 实现定时同步

5. 验证与测试

三、总结

相关文章