Elasticsearch 实战应用：高效实现数据存储与搜索

🕗 发布于 2024-11-14 12:36 elasticsearch

📝个人主页🌹：一ge科研小菜鸡-CSDN博客
🌹🌹期待您的关注 🌹🌹

Elasticsearch 是一个开源、分布式的搜索和分析引擎，常用于实时数据搜索、日志分析、和数据分析。其强大的搜索能力和水平可扩展性，使其在大数据环境中得到了广泛应用。本文将详细介绍 Elasticsearch 的核心概念、实战操作以及如何将其集成到应用程序中，以便更高效地进行数据搜索和管理。

1. Elasticsearch 的核心概念

1.1 集群、节点与分片

集群（Cluster）：由一个或多个节点组成的集合，提供整体的索引和搜索能力。
节点（Node）：集群中的一台服务器，负责存储数据和处理查询。
分片（Shard）：将索引拆分为更小的数据集，以实现水平扩展。分片可以在不同节点之间分布，从而提高系统的性能和可用性。

1.2 索引、文档与映射

索引（Index）：相当于关系型数据库中的数据库，它包含多个文档。
文档（Document）：每个文档类似于关系型数据库中的一行记录，存储在 JSON 格式中。
映射（Mapping）：定义了索引中文档和字段的结构、数据类型、及字段属性。

1.3 RESTful API

Elasticsearch 提供了 RESTful API 进行索引、搜索和数据管理，使用 HTTP 请求如 GET、POST、PUT 和 DELETE 进行操作。

2. 安装与配置

2.1 安装 Elasticsearch

在 Linux 环境中安装 Elasticsearch 非常简单。以下是使用 wget 下载和安装的步骤：

# 下载 Elasticsearch
wget https://artifacts.elastic.co/downloads/elasticsearch/elasticsearch-8.x.x-linux-x86_64.tar.gz

# 解压文件
tar -xzf elasticsearch-8.x.x-linux-x86_64.tar.gz

# 进入目录并启动 Elasticsearch
cd elasticsearch-8.x.x
./bin/elasticsearch

2.2 配置 Elasticsearch

修改配置文件 elasticsearch.yml 以适应生产环境中的需求：

# 修改集群名称
cluster.name: my-cluster

# 节点名称
node.name: node-1

# 网络设置
network.host: 0.0.0.0

# 设置内存
ES_JAVA_OPTS="-Xms1g -Xmx1g"

3. 索引和文档的操作

3.1 创建索引

创建一个用于存储用户数据的索引。

curl -X PUT "localhost:9200/users" -H 'Content-Type: application/json' -d'
{
  "settings": {
    "number_of_shards": 3,
    "number_of_replicas": 1
  },
  "mappings": {
    "properties": {
      "name": {
        "type": "text"
      },
      "age": {
        "type": "integer"
      },
      "email": {
        "type": "keyword"
      },
      "signup_date": {
        "type": "date"
      }
    }
  }
}'

3.2 插入文档

插入一条新的用户文档。

curl -X POST "localhost:9200/users/_doc/1" -H 'Content-Type: application/json' -d'
{
  "name": "John Doe",
  "age": 29,
  "email": "john.doe@example.com",
  "signup_date": "2023-11-13"
}'

3.3 搜索文档

执行查询来查找年龄在 25 到 35 之间的用户。

curl -X GET "localhost:9200/users/_search" -H 'Content-Type: application/json' -d'
{
  "query": {
    "range": {
      "age": {
        "gte": 25,
        "lte": 35
      }
    }
  }
}'

4. 高级搜索和分析

4.1 全文搜索

Elasticsearch 提供了多种查询方式，如 match 查询，可以进行灵活的全文搜索。

curl -X GET "localhost:9200/users/_search" -H 'Content-Type: application/json' -d'
{
  "query": {
    "match": {
      "name": "John"
    }
  }
}'

4.2 复合查询

使用布尔查询组合多个条件，实现更复杂的搜索逻辑。

curl -X GET "localhost:9200/users/_search" -H 'Content-Type: application/json' -d'
{
  "query": {
    "bool": {
      "must": [
        { "match": { "name": "John" } }
      ],
      "filter": [
        { "range": { "age": { "gte": 25 } } }
      ]
    }
  }
}'

4.3 聚合查询

聚合用于分析数据，如计算平均值、求最大值或分组计数。

curl -X GET "localhost:9200/users/_search" -H 'Content-Type: application/json' -d'
{
  "size": 0,
  "aggs": {
    "average_age": {
      "avg": {
        "field": "age"
      }
    }
  }
}'

5. 优化与最佳实践

5.1 数据建模

设计索引时要考虑字段类型和数据量，以提高查询性能。选择合适的字段类型（如 keyword 和 text）有助于提高索引和搜索效率。

5.2 分片与复制策略

适当的分片数量和复制设置有助于实现更好的负载均衡和数据冗余。应根据硬件和数据量进行分片规划。

5.3 内存与缓存优化

配置 Elasticsearch 使用的 JVM 堆大小，并优化 fielddata 缓存和查询缓存，可以提高搜索性能。

6. 实践应用示例

在实际项目中，Elasticsearch 常用于以下场景：

日志分析平台：结合 Logstash 和 Kibana 进行实时日志数据采集、分析和可视化。
电商搜索引擎：通过复杂的查询和聚合功能，帮助用户快速查找产品并提供推荐。
监控和告警系统：实时监控系统性能数据，分析趋势并设置告警阈值。

7. 结论

Elasticsearch 作为一个强大的搜索和分析引擎，能够在大数据环境中提供实时、可扩展的搜索能力。通过本文的实战操作和优化技巧，读者可以掌握如何在不同应用场景中高效使用 Elasticsearch。未来，可以进一步学习其在 机器学习 和 安全性 上的扩展，以应对更广泛的业务需求。

原文地址：https://blog.csdn.net/qq_20245171/article/details/143728895

免责声明：本站文章内容转载自网络资源，如本站内容侵犯了原著者的合法权益，可联系本站删除。更多内容请关注自学内容网（zxcms.com）！

上一篇：MySQL技巧之跨服务器数据查询：基础篇-A数据库与B数据库查询合并--封装到存储过程中
下一篇：Python 操作 Excel 表格从简单到高级用法

VBA学习笔记：基础知识
若提示宏被禁止，解决办法之一：工具-宏-安全性-安全级-中，关闭excel重新打开，启用宏。Dim arr(1 to 10) As Integer 数组。Dim x As Integer 整数。Dim
阅读更多2024-11-16
swoole mysql连接池使用
并不支持连结池的功能。连结池通常是数据库连接池的一种，它能够管理多个数据库连接，避免了频繁创建和关闭连接的开销，提高了系统的性能。释放连接，以便其他协程可以使用。这样就实现了连接的复用，提高了系统的性
阅读更多2024-11-16
Jmeter中的监听器（三）
假设我们需要测试一个Web应用，并使用比较断言来验证两个请求的响应数据是否一致，然后使用“比较断言可视化器”来查看比较结果。假设我们需要测试一个Web应用，并使用断言来验证响应数据的正确性，然后使用“
阅读更多2024-11-16
Area-Composition模型部署指南
Area-Composition模型可以通过输入不同的提示词，然后根据各部分提示词进行融合生成图片。本文详细介绍了如何实现该模型的本地部署。
阅读更多2024-11-16
3.task1 suimove helloword 上链
水龙头”通常指的是一种分发加密货币或代币的机制，尤其是通过小额赠送或奖励的方式来吸引用户参与。网络问题，切换为国内源。move.toml中修改。
阅读更多2024-11-16
Unity类银河战士恶魔城学习总结（P126 Item ToolTip物品提示）
本章节实现了把鼠标放到物品上面就会显示物品属性
阅读更多2024-11-16
游戏如何应对内存修改
由于进行内存修改需要提供root权限，GG修改器常运行虚拟机、虚拟框架等环境，在获取root权限后，可以使用magisk实现对游戏隐藏进程，来躲避游戏检测，让传统的检测手段失效，对抗难度大幅度提升。内
阅读更多2024-11-16
C#从入门到放弃
C#是一个编程语言。
阅读更多2024-11-16
NCC前端调用查询弹框
选择左侧查询区拖拽指右侧，并添加对应的查询模板字段，注意右上角区域编码要维护card_query。2. 动态建模平台- 开发配置- 应用管理 - 应用注册下找到对应的单据模板。6. 卡片下调用
阅读更多2024-11-16
UI库架构设计
工程架构：monorepo，core + components + hooks +utils …测试，单元测试，vitest，jest+react-testing-library。构建打包：rollu
阅读更多2024-11-16