03-用户画像+Elasticsearch

🕗 发布于 2024-07-21 17:30 elasticsearch 大数据 搜索引擎

优点

es支持海量数据的写入和更新
es可以和hadoop，hive及spark进行集成
es支持hivesql的操作，可以通过hivesql将数据导入es
es的在进行数据检索查询是速度比较快
es是分布式存储

应用

全文检索

全文检索流程:

1-对文档数据(文本数据)进行分词

2-将分词数据建立索引

3-根据分词查询数据

官网 https://www.elastic.co/cn/

ES 分布式搜索服务文本数据存储

存储单元 shard 分片
副本默认 2
- 主分片副本分片
索引相同类型数据先创建索引，然后存储数据
元数据
- 分片信息，datanode信息
  - 被master管理
自己内部有选举算法实现master选举

es启动命令

su es
cd
elasticsearch -d

es客户端工具使用

启动在这里插入图片描述
在浏览器输入网址

Pycharm的客户端插件

在这里插入图片描述

# 创建索引
PUT itcast


# 写入 数据
POST itcast/_doc
{
  "name": "张飒",
  "age": 20
}

# 查询数据
GET itcast/_search

# 删除索引
DELETE itcast

# 查看索引配置
GET itcast/_settings

# 修改索引配置
PUT itcast/_settings
{
  "number_of_replicas": "0"
}

elasticsearch 模块安装

pip install elasticsearch==7.17.3 -i https://mirrors.aliyun.com/pypi/simple

开发

# 导入模块
# Elasticsearch类封装了操作es的方法
from elasticsearch import Elasticsearch
# 1、创建索引库
es = Elasticsearch(hosts=['192.168.88.166:9200'])
# index='itheima' 指定索引库名
# id=1 指定数据id
# document 指定数据内容
# res = es.index(index='itheima',id=1,document={'name':'张三','age':20,'gender':'男性'})
res = es.index(index='itheima',id=2,document='{"name":"李四","age":22,"gender":"男性"}')
# 查看创建后的信息
# print(res)

# 2、查询创建的数据
# 返回的结果是字典类型，可以按照字典方式进行取值
# 查询所有数据
res = es.search(index='itheima')
print(res["hits"]['hits'][0]['_source'])

# 2-1 按照指定一个字段查询
res = es.search(index='itheima',query={'match':{'name':"李四"}})
print(res["hits"]['hits'][0]['_source'])

# 2-2 按照指定多个字段查询
res = es.search(index='itheima',query={'multi_match':{'query':"李四",'fields':["name",'gender']}})
print(res["hits"]['hits'][0]['_source'])

# 2-3 指定id查询
res = es.get(index='itheima',id=1)
print(res['_source'])

原文地址：https://blog.csdn.net/weixin_46567476/article/details/140588373

免责声明：本站文章内容转载自网络资源，如本站内容侵犯了原著者的合法权益，可联系本站删除。更多内容请关注自学内容网（zxcms.com）！

上一篇：向量数据库及其在大模型应用落地中的作用
下一篇：Java周总结7.20day

YOLOv9改进策略【注意力机制篇】| MCAttention 多尺度交叉轴注意力
本文记录的是基于MCA注意力模块的YOLOv9目标检测改进方法研究。普通的轴向注意力难以实现长距离交互，不利于捕获分割任务中所需的空间结构或形状，而MCA注意力，在改进YOLOv9的过程中，能够契合目
阅读更多2024-09-21
政务安全体系构建中的挑战
这些攻击通常具备高度隐蔽性和破坏性，传统的安全防护手段难以跟上攻击的变化速度，导致政务系统无法提供全面有效的保护。▋挑战二：人工处理安全事件效率低当前，安全事件的处理往往依赖于人工分析和手动操作，导致
阅读更多2024-09-21
TCP协议特点
TCP是一种可靠的传输控制协议，即在网络条件正常的情况下，TCP协议能够保证接收端收到所有数据，并且接收到的数据顺序与发送端一致。TCP通过在发送端给每个数据包分配单调递增的序列号，以及在接收端发送A
阅读更多2024-09-21
【Java EE】文件IO
文件IO
阅读更多2024-09-21
HTML5精粹练习第1章博客
用最新的HTML5标签来联系博客。
阅读更多2024-09-21
QT编译后，如何手动运行，或复制到其他机器运行
编译后（文件名叫Work.exe），通过QT功能，是可以成功运行的。如果在目录中双击，或复制到其他机器上运行，就会失败。
阅读更多2024-09-21
初学者的15个Python实用库
你可能知道 Python 的交互式 shell，这是运行 Python 的一种很好的方式。你可以用这个库做很多很棒的事情。在本文中，我重点介绍了15个最有用的包，详细说明了它们的功能和特性。IPyth
阅读更多2024-09-21
排序算法-归并排序
1. 归并的缺点在于需要O(N)的空间复杂度，归并排序的思考更多的是解决在磁盘中的外排序问题。2. 时间复杂度：O(N*logN)3. 空间复杂度：O(N)4. 稳定性：稳定我的主页还有其他排序算法欢
阅读更多2024-09-21
无人机集群路径规划：雾凇优化算法（ rime optimization algorithm，RIME）求解无人机集群路径规划，提供MATLAB代码
无人机三维路径规划是指在三维空间中为无人机规划一条合理的飞行路径，使其能够安全、高效地完成任务。路径规划是无人机自主飞行的关键技术之一，它可以通过算法和模型来确定无人机的航迹，以避开障碍物、优化飞行时
阅读更多2024-09-21
git pull 报错 refusing to merge unrelated histories
git pull 报错 refusing to merge unrelated histories
阅读更多2024-09-21