LSM-TREE和SSTable

🕗 发布于 2024-11-08 15:48 lsm-tree

一、什么是LSM-TREE

在一些写多读少的场景，为了加快写磁盘的速度，提出使用日志文件追加顺序写，加快写的速度，减少随机读写。但是日志文件只能遍历查询。不支持随机查询，提出使用LSM-TREE。除了利用磁盘顺序写之外，还划分了内存+磁盘多层的合并结构

LSM-TREE(log structured tree) 就是多层的SSTable
1、什么是SSTable
SSTable就是存放在磁盘的一个数据块，里面存放可变数组长度的kv数组。SSTable内部按照key进行排序
在这里插入图片描述

LSM-TREE类似于ES
写数据
写数据先写在内存的Memtable，Memtable写满后才写入磁盘。
当每层的磁盘上的SSTable的体积超过一定的大小或者个数，会周期的进行合并。此步骤也称为Major Compaction。这个阶段会真正的清除掉被标记删除掉的数据（类似ES段合并）。合并完后进入下一层，因为SSTable内部都是有序的。因此使用mergeSort算法可以快速合并 O(n)复杂度。
查询
1、先在内存里面查询，如果查询到就返回。
2、从上到下，从左到右。遍历每一层级的SSTable的布隆过滤器，快速判断数据在不在此SSTable。（最坏情况需要遍历所有SSTable的filter）
3、SSTable内部有序，进行二分查找
4、刚写入的数据在上面层级，历史数据经过合并落入下层。因此LSM-TREE非常适合时序数据库（这种只查询最近写入的热数据）的场景

一、influxdb和ES都是准实时，都有段合并。为什么不用倒排索引

influxDb属于写多读少，ES适用读多写少的场景

二、LSM-TREE 分层结构和B+数很类似，有什么区别？

1、LSM-Tree的设计思路是，将数据拆分为几百M大小的Segments（SSTable），并是顺序写入，SSTable太大对于随机读写不友好。B+Tree则是将数据拆分为固定大小的Block或Page, 一般是4KB大小。block块小就适用于随机读写。
2、B+树支持随机读写，因此插入更新，都是实时的。而LSM-TREE更新和ES类似（先删除再新增）准实时。
3、B+树是全局有序的，每一层节点页内部数据和节点之间数据都是全局有序。
而SSTable是局部有序，只有SSTable内部有序，SSTable无序。只有层级下沉段合并的时候，才会进行mergeSort形成新的SSTable

LSM-TREE的应用场景：

levelDB influxDb等

原文地址：https://blog.csdn.net/weixin_44857939/article/details/143597386

免责声明：本站文章内容转载自网络资源，如本站内容侵犯了原著者的合法权益，可联系本站删除。更多内容请关注自学内容网（zxcms.com）！

上一篇：go 集成gorm 数据库操作
下一篇：Centos 下安装 jsoncpp 库、bundle 数据压缩库、httplib 库 -- 详细教程

前端Web用户 token 持久化
的有效期会持续一段时间，在这段时间内没有必要重复请求token，但是本身是基于内存的管理方式，刷新浏览器Token会丢失，为了避免丢失需要配置持久化进行缓存解释：浏览器本地存储区域，类似。
阅读更多2024-11-08
Oracle 23AI创建示例库
多年来，Oracle 一直使用简单的数据库模式 SCOTT 及其两个突出的表 EMP 和 DEPT，用于文档和培训中的各种示例。但不少小伙伴并不知道如何创建这些示例数据，其实Oracle官方上就有提供
阅读更多2024-11-08
仓库（Repository）
仓库（Repository）是一个设计模式，用于封装数据访问逻辑，提供一个高层的抽象，使得领域对象可以像操作内存中的集合一样操作持久化数据。封装数据访问逻辑：隐藏数据存储的细节，如数据库查询、事务管理
阅读更多2024-11-08
PyQt5实战——翻译器的UI页面设计以及代码实现（七）
基于PyQt开发的脚本集合包，本文主要讲述翻译器的UI设计以及代码实现，该翻译器中，我们会使用一些本系列前文没有提及的控件以及模型类
阅读更多2024-11-08
CSS——选择器、PxCook软件、盒子模型
博客内容如下：选择器包括结构伪类和伪元素选择器。PxCook 有开发和设计面板。盒子模型由内容、内边距、边框、外边距组成，可设置边框样式、内边距多值、尺寸计算方式、处理外边距合并和塌陷问题、设置元素溢
阅读更多2024-11-08
以梧桐数据库为例分析分组排序并取每组第二大数值对应的用户的SQL实现
在运营商业务中，经常有各种各样的业务分类统计，出各类型任务的业务报表数据，比如，“统计下9月份各地市在各网格上任我选产品订购数量的分组排序状况”。现在有一个业务场景，要求计算8月份各地市在各网格上任我
阅读更多2024-11-08
CX_SY_OPEN_SQL_DB
select语句使用in s_objnr (选择表)使用这类条件会容易出现这类错误在ABAP中，SELECT...IN语的IN条件并没有一个明确的“最大”限制，而是受到多种因素的影响，包括数据库的限
阅读更多2024-11-08
Java学习路线：Maven（四）Maven常用命令
一般来说，项目编写完成后，要么作为Jar依赖供其他项目使用，要么就作为一个和可执行程序在控制台运行。可以使用package命令对项目进行打包。这些生命周期实际上是Maven的一些插件，每个插件都有各自
阅读更多2024-11-08
【玩转 Postman 接口测试与开发2_006】第六章：Postman 测试脚本的创建（中）：脚本的位置与执行顺序、AI助手及私有模块的使用
本篇根据《API Testing and Development with Postman》全新第2版第6章自学笔记整理，为该章节的中篇，主要梳理了Postman中不同层级的测试脚本的执行顺序，并根据
阅读更多2024-11-08
[卷积神经网络]使用YOLOv11训练自己的模型
使用YOLOv11训练自己的数据
阅读更多2024-11-08

LSM-TREE和SSTable

一、什么是LSM-TREE

一、influxdb和ES都是准实时，都有段合并。 为什么不用倒排索引

二、LSM-TREE 分层结构和B+数很类似，有什么区别？

LSM-TREE的应用场景：

相关文章

一、influxdb和ES都是准实时，都有段合并。为什么不用倒排索引