Python 操作 Elasticsearch 全指南：从连接到数据查询与处理

引言

在大数据分析与搜索应用中，Elasticsearch 是一种强大且灵活的分布式搜索引擎，而 Python 则以其易用性和强大的数据处理能力，成为开发者在数据操作中的理想选择。通过 Python 的 elasticsearch-py 客户端，我们不仅可以方便地建立与 Elasticsearch 的连接，还能高效完成数据的增删改查操作，实现复杂的搜索与分析任务。本文将带你从基础配置到高级查询，全方位解析如何使用 elasticsearch-py 库操作 Elasticsearch。无论你是初学者还是资深开发者，本指南将提供实用的代码示例和最佳实践，帮助你在数据管理与搜索优化中脱颖而出。

安装 `elasticsearch-py`

首先，确保已安装 elasticsearch-py，可通过以下命令安装：

pip install elasticsearch

安装完成后，库就可以在 Python 中使用了。

连接到 Elasticsearch

首先，我们需要在 Python 中建立到 Elasticsearch 的连接。以下代码展示了如何连接到本地的 Elasticsearch 服务器：

from elasticsearch import Elasticsearch

# 连接到本地的 Elasticsearch 服务
es = Elasticsearch(hosts=["http://localhost:9200"])
# 检查连接是否成功
if es.ping():
    print("Connected to Elasticsearch")
else:
    print("Could not connect to Elasticsearch")

此代码连接到运行在 localhost 上的 Elasticsearch 服务，并通过 ping() 方法检查连接是否成功。

创建索引

在 Elasticsearch 中，数据存储在索引（index）中。创建索引的代码如下：

# 创建一个索引名为 "my_index" 的索引
index_name = "my_index"
if not es.indices.exists(index=index_name):
    es.indices.create(index=index_name)
    print(f"Index '{index_name}' created.")
else:
    print(f"Index '{index_name}' already exists.")

在这里，我们首先检查索引是否已存在，如果不存在，则创建新的索引。

插入数据

我们可以使用 index() 方法来插入数据。以下是将一些数据插入到 my_index 中的示例：

# 插入数据
doc = {
    "name": "John Doe",
    "age": 30,
    "location": "New York"
}
res = es.index(index=index_name, document=doc)
print("Document indexed:", res["_id"])

这段代码将一条包含 name、age 和 location 的记录插入到 my_index 索引中，并输出该记录的 _id。

查询数据

Elasticsearch 提供了多种查询方式，可以根据需求进行简单查询或复合查询。以下示例演示如何使用 search() 方法进行查询：

1. 简单查询

以下代码展示了如何查找 location 为 “New York” 的文档：

# 简单查询
query = {
    "query": {
        "match": {
            "location": "New York"
        }
    }
}
res = es.search(index=index_name, body=query)
for hit in res["hits"]["hits"]:
    print(hit["_source"])

2. 布尔查询

以下是更复杂的布尔查询示例，查找 location 为 “New York” 并且 age 大于 25 的文档：

# 布尔查询
query = {
    "query": {
        "bool": {
            "must": [
                {"match": {"location": "New York"}},
                {"range": {"age": {"gt": 25}}}
            ]
        }
    }
}
res = es.search(index=index_name, body=query)
for hit in res["hits"]["hits"]:
    print(hit["_source"])

更新文档

要更新已存在的文档，可以使用 update() 方法。以下示例将修改某条记录的 age 字段：

# 更新文档
doc_id = "文档的_id"
update_body = {
    "doc": {
        "age": 35
    }
}
res = es.update(index=index_name, id=doc_id, body=update_body)
print("Document updated:", res["_id"])

在这里，我们将指定文档的 age 更新为 35。

删除文档和索引

我们可以删除不需要的数据和索引，以保持数据库整洁。

删除文档

# 删除文档
res = es.delete(index=index_name, id=doc_id)
print("Document deleted:", res["_id"])

删除索引

# 删除索引
es.indices.delete(index=index_name)
print(f"Index '{index_name}' deleted.")

批量插入数据

elasticsearch.helpers 模块提供了 bulk 方法，可以一次插入多条数据。以下是批量插入的示例：

from elasticsearch.helpers import bulk

# 构建文档列表
docs = [
    {"_index": index_name, "_source": {"name": "Alice", "age": 25, "location": "London"}},
    {"_index": index_name, "_source": {"name": "Bob", "age": 27, "location": "Paris"}},
    {"_index": index_name, "_source": {"name": "Charlie", "age": 35, "location": "Berlin"}}
]

# 批量插入
bulk(es, docs)
print("Bulk insertion completed.")

处理分页结果

如果查询返回大量数据，可以通过 from 和 size 参数进行分页。以下是分页的查询示例：

query = {
    "query": {
        "match_all": {}
    },
    "from": 0,
    "size": 2
}

res = es.search(index=index_name, body=query)
for hit in res["hits"]["hits"]:
    print(hit["_source"])

这里指定 from: 0 和 size: 2，即返回第一页的 2 条数据。

总结

本文介绍了在 Python 中使用 elasticsearch-py 连接到 Elasticsearch 的基本操作，包括连接、创建索引、插入数据、查询数据、更新和删除数据，以及批量操作。elasticsearch-py 使得 Python 程序可以方便地与 Elasticsearch 交互，适用于日志分析、数据挖掘等需要全文搜索的场景。

原文地址：https://blog.csdn.net/weixin_42434700/article/details/143681909

免责声明：本站文章内容转载自网络资源，如本站内容侵犯了原著者的合法权益，可联系本站删除。更多内容请关注自学内容网（zxcms.com）！

上一篇：【jenkins】jenkins使用pipeline配置django项目
下一篇：【Window主机访问Ubuntu从机——Xrdp配置与使用】

Android Osmdroid + 天地图（一）
Osmdroid是一款完全开源的地图基本操作SDK，我们可以通过这个SDK去加一些地图API，比如腾讯、百度、高德、Google等等。天地图API也是一个地图服务提供商，不过之前还是提供Android
阅读更多2024-11-15
【C#设计模式(10)——装饰器模式(Decorator Pattern)】
装饰器模式可以在运行时为对象添加额外的功，而无需修改原始对象的代码。这种方式比继承更加灵活。
阅读更多2024-11-15
C2M柔性制造模式
（Customer-to-Manufacturer，客户到制造商的柔性制造模式）是一种新型的生产模式，强调客户需求与制造过程的直接对接，并且能够快速响应和适应客户个性化的定制需求。这种模式结合了与，能
阅读更多2024-11-15
FBX福币交易所恒指收跌1.96% 半导体股继续回调
MicroStrategy跌近8%,当日期权成交76.47万张合约,环比前一交易日增加逾49%,看涨期权占比70.6%,其中于本周五到期的330美元行使价的看涨期权成交居前,成交5.19万张;$MST
阅读更多2024-11-15
鸿蒙北向开发基础 Deveco 代码,日志查找筛选教程
这样调试的时候可以看到所有复合筛选规则的hilog日志。2. 快捷键 shift shift (连按两次)过滤的文本个通过| 进行多个匹配(日志信息一栏)在项目的根目录上右键,选择在文件中查找。dev
阅读更多2024-11-15
SAP B1 认证考试习题 - 解析版（四）
单据、采购与销售报表、标准业务流程及相关从财务处理部分的习题解析版，更便于练习的无答案解析题目合集见《SAP B1 认证考试习题 - 纯享版》
阅读更多2024-11-15
问：MySQL主从同步的机制梳理？
MySQL主从复制通过将一个数据库服务器的数据复制到其他服务器，实现数据同步和读写分离。准备阶段包括环境准备、MySQL配置、创建复制账号和备份主库数据。复制阶段涉及初始化从库、配置从库复制和启动从库
阅读更多2024-11-15
Postgresql源码（138）alter table增加列的执行流程分析
alter table 逻辑比较繁琐，但并不复杂，这里以增加列为例简单梳理流程。
阅读更多2024-11-15
vue3+ant design vue实现日期等选择器点击右上角叉号默认将值变为null,此时会影响查询等操作~
2、思路：通过监听操作时间绑定的值是否存在，若存在将其改为空数组即可。
阅读更多2024-11-15
Hbase实时分布式NoSQL数据库1
分布式的大数据量实时随机读写的NOSQL数据库。
阅读更多2024-11-15

Python 操作 Elasticsearch 全指南：从连接到数据查询与处理

文章目录