ElasticSearch数据类型和分词器

🕗 发布于 2024-09-20 08:32 elasticsearch 大数据 搜索引擎

一、数据类型

1、Text （文本数据类型）

2、Keyword（关键字数据类型）

3、Alias（别名类型）

4、Arrays (集合类型)

5、Numeric （数值数据类型）

6、日期类型

7、Boolean（布尔类型）

8、Binary (二进制类型)

9、IP （数据类型）

10、Range (范围数据类型)

11、Object (对象数据类型)

12、Dense vector (密集矢量数据类型)

13、Flattened (扁平化数据类型)

14、Geo-point (地理位置数据类型)

15、Join (链接数据类型)

16、Nested (嵌套数据类型)

17、Token count (令牌计数数据类型)

二、索引

1、正排索引和倒排索引的区别

正排索引：是文档(ID)到关键词的映射（从文档找关键词）

倒排索引：是关键词到文档（ID）的映射（从关键词找文档）

三、分词

1、分词：是将文本字符串拆分成独立的词汇和术语的过程。

四、分词器

1、Character Filters（字符过滤器）：对原始文本进行预处理，对文本修改或者删除等。比如删除html标签、特定词替换等。

2、Tokenizer (分词器)：对字符过滤器处理过的文本切分成一个个词条，形成词条流。切分规则可以是空格、标点符号等。

3、Token Filters（词汇过滤器）：对切分后的词条进一步处理，大小写替换、启用停用词（没有意义的词）。词汇过滤器处理文本以适应索引和查询需求非常重要。

五、常见分词器

1、Standard Analyzer（分词依据：空格、标点符号）（特点：小写化处理，过滤符号）

2、Whitespace Analyzer (分词依据：空格)（特点：不进行小写处理、保留所有字符）

3、Keyword Analyzer (分词依据：无)（特点：将这个输入作为一个词条）

4、Simple Analyzer（分词依据：非字母（符号、数字））（特点：小写化处理、过滤符号、支持中文拼音分词）

5、Stop Analyzer (分词依据：空格)（特点：小写化处理，过滤停用词）

6、IK Analyzer（分词依据：词典）（特点：中文分词）

7、Edge Ngram Analyzer（分词依据：n-gram）（特点：按指定步长进行分词）

8、Pattern Analyzer （分词依据：正则匹配字符）（特点：灵活）

9、Custom Analyzer (分词依据：自定义)（特点：灵活）

原文地址：https://blog.csdn.net/weixin_38703379/article/details/142299133

免责声明：本站文章内容转载自网络资源，如本站内容侵犯了原著者的合法权益，可联系本站删除。更多内容请关注自学内容网（zxcms.com）！

上一篇：Python开发深度学习常见安装包 error 解决
下一篇：大数据时代：历史、发展与未来

11.15 机器学习-集成学习方法-随机森林
机器学习中有一种大类叫**集成学习**（Ensemble Learning），集成学习的基本思想就是将多个分类器组合，从而实现一个预测效果更好的集成分类器。# 就是把多个分类器组合起来用每个分类器都
阅读更多2024-11-16
Linux之vim全选，全部复制，全部删除
（区分大小写！！！全部删除：按esc键后，先按gg（到达顶部），然后dG全部复制：按esc键后，先按gg，然后ggyG全选高亮显示：按esc键后，先按gg，然后ggvG或者ggVG单行复制：按esc键
阅读更多2024-11-16
机器学习 ---线性回归
文章主要介绍了线性回归相关内容，包括简单线性回归与多元线性回归的概念及示例，阐述了残差的定义、在理想与非理想模型中的情况及意义，还讲解了线性回归的正规方程解，涵盖其适用场景、公式推导与代码实现，提及衡
阅读更多2024-11-16
机器学习day5-随机森林和线性代数1
在坐标轴上画出对应的点（离散或者连续），如果是离散的点，需要找一条直线使得这些点尽可能多地在这条直线上，或者能够尽可能均匀地分布在这条直线的两边，达到损失值最小的目标，使其尽可能地接近能够进行准确预测
阅读更多2024-11-16
AUTOSAR COM修改PDU发送周期不生效
首先当前是其他PDU都是能正常发送的，且发送的周期都符合通信矩阵DBC中的定义。经过分析是COM模块使能了MDT的周期发送功能，且该I-PDU配置了MDT（即下图中的Minimum Delay Tim
阅读更多2024-11-16
计算机网络：运输层 —— TCP 的 “三次握手” 与 “四次挥手”
TCP是面向连接的协议，它基于运输连接来传送TCP报文段。TCP运输连接的建立和释放，是每一次面向连接的通信中必不可少的过程。TCP运输连接有以下三个阶段：通过“三报文握手”来建立TCP连接。基于已建
阅读更多2024-11-16
数据结构-5.二叉树
本篇博客给大家带来的是二叉树的知识点, 其中包括面试经常会提问的真题 ArrayList 和 LinkedList 的区别 .文章专栏:Java-数据结构若有问题评论区见如果你不知道分享给谁,那就分
阅读更多2024-11-16
NotePad++中安装XML Tools插件
作为开发人员，日常开发中大部的数据是标准的json格式，但是对于一些古老的应用，例如webservice接口，由于其响应结果是xml，那么我们拿到xml格式的数据后，常常会对其进行格式化，以便阅读。。
阅读更多2024-11-16
在 Unix 和类 Unix 操作系统中，信号是一种异步的通知机制，用于通知进程发生了一些特定的事件。
SIGINT：中断信号，通常由Ctrl+C产生。SIGTERM：终止信号，用于优雅地终止进程。SIGKILL：强制终止信号，立即终止进程。SIGHUP：挂断信号，通常由终端会话结束产生。SIGQUIT
阅读更多2024-11-16
常见查找排序算法
printf("元素 %d 在数组中的下标是 %d\n", key, mid);printf("元素 %d 在数组中的下标是 %d\n", key, i);pr
阅读更多2024-11-16