分布式数据库HBase:从零开始了解列式存储

🕗 发布于 2024-07-04 12:43 分布式 数据库 hbase

在接触过大量的传统关系型数据库后你可能会有一些新的问题: 无法整理成表格的海量数据该如何储存? 在数据非常稀疏的情况下也必须将数据存储成关系型数据库吗? 除了关系型数据库我们是否还有别的选择以应对Web2.0时代的海量数据?

如果你也曾经想到过这些问题, 那么HBase将是其中的一个答案, 它是非常经典的列式存储数据库. 本文首先介绍HBase的由来以及其与关系数据库的区别, 其次介绍其访问接口、数据模型、实现原理和运行机制. 即便之前没有接触过HBase的相关知识也不影响阅读该文章.

请添加图片描述

如果想了解其他的非关系型数据库也可以查看我的博客文章:NoSQL数据库

概述

HBase是谷歌公司BigTable的开源实现. 而BigTable是一个分布式存储系统, 使用谷歌分布式文件系统GFS作为底层存储, 主要用来存储非结构化和半结构化的松散数据. HBase的目标是处理非常庞大的表, 可以通过水平扩展的方式利用廉价计算机集群处理超过10亿行数据和百万列元素组成的数据表.

GFS、HDFS、BigTable、HBase的关系:
HDFS是GFS的开源实现. HBase是BigTable的开源实现.

GFS是BigTable的底层文件系统, BigTable的数据存储在GFS上.
HDFS是HBase的底层存储方式. 虽然HBase可以使用本地文件系统, 但是为了提高数据可靠性一般还是会选择HDFS作为底层存储.

HBase和BigTable底层技术对应关系

项目	BigTable	HBase
文件存储系统	GFS	HDFS
海量数据处理系统	MapReduce	Hadoop MapReduce
协同服务系统	Chubby	Zookeeper

与传统的数据库相比主要区别在于:

数据类型: 关系数据库采用关系模型, HBase则采用更加简单的数据模型–将数据存储为未经解释的字符串.
数据操作: 关系数据库通常包括丰富的操作, 涉及复杂的多表连接. HBase则不存在复杂的多表关系, 只有简单的增删查改.
存储模式: 关系数据库是基于行模式存储的, 元组或行被连续地存储在磁盘中. HBase是基于列存储的.
数据索引: 关系数据库可以针对不同列构建复杂的多个索引以提高访问效率. HBase则只有一个索引–行键.
数据维护: 关系数据库中更新操作会用新值替换旧值. HBase则会保留旧数据, 仅仅生成一个新的版本.
可伸缩性: 关系数据库很难进行横向扩展, 纵向扩展的空间也比较有限. HBase作为分布式数据库可以轻易地通过增加集群中的机器数量来达到性能的伸缩.

访问接口

HBase提供了多种访问方式, 不同的方式适用于不同的场景.

类型	特点	场合
Native Java API	最常规高效的访问方式	适合Hadoop MapReduce作业并行批处理HBase表数据
HBase Shell	HBase的命令行工具, 最简单的接口	适合HBase管理
Thrift Gateway	利用Thrift序列化技术, 支持C++, PHP, Python等多种语言	适合其他异构系统访问HBase
REST Gateway	解除语言限制	支持REST风格的HTTP API访问HBase
Pig	使用Pig Latin流式编程语言来处理HBase的数据	适合做数据统计
Hive	简单	可以用类似SQL语言的方式来访问

数据模型

数据模型是一个数据库产品的核心, 接下来将介绍HBase列族数据模型并阐述HBase数据库的概念视图和物理视图的差异.

数据坐标

相较于我们所熟悉的关系数据库, HBase无法仅使用行号和列号确定一个数据. 在HBase中, 我们需要: 行键、列族、列限定符和时间戳这4个东西来确定一个数据.

[行键, 列族, 列限定符, 时间戳]被称为是HBase的坐标, 可以通过这个坐标来直接访问数据. 在这种层面上讲, HBase也可以被视为一个键值数据库.

概念视图

在HBase的概念视图中, 一个表是一个稀疏、多维的映射关系.

	时间戳	列族 contents	列族 anchor
com.cnn.www	t5		anchor:cnnsi.com="CNN"
com.cnn.www	t4		anchor:my.look.ca="CNN.com"
com.cnn.www	t3	contents:html="xxxx"
	t2	contents:html="xxxx"
	t1	contents:html="xxxx"

上表存储了一个网页的页面内容(html代码)和一些反向连接. contents中存储的是网页内容, anchor中存储的是反向连接. 不过有几个地方需要额外注意:

行键. 行键采用的是url的倒序, 因为HBase的行键采用字典倒序排列, 这样可以使得相同的网页都保存在相邻的位置
每个行都包含了相同的列族, 即便有些列族不需要存储数据(为空)

物理视图

列族 contents

	时间戳	列族 contents
com.cnn.www	t3	contents:html="xxxx"
	t2	contents:html="xxxx"
	t1	contents:html="xxxx"

列族 anchor

	时间戳	列族 anchor
com.cnn.www	t5	anchor:cnnsi.com="CNN"
com.cnn.www	t4	anchor:my.look.ca="CNN.com"

我们可以轻易发现, 在物理的存储层面上来看HBase采用了基于列的存储方式, 而不是传统关系数据库那样基于行来存储. 这也是HBase与传统关系数据库间的重要区别.

与概念视图的不同

列族的分开存放. 可以看到contents和anchor两个列族被分开存放.
不存在空值. 在概念视图中有些列是空的, 但是在物理视图中这些值根本不会被存储.

总结

行式数据库使用 NSM(N-ary Storage Model) 存储模型, 将一个元组(或行)连续地存储在磁盘页中. 数据被一行一行地储存, 写完第一行再写第二行. 在读取数据时需要从磁盘中顺序扫描每个元组的完整内容. 显然, 如果每个元组只有少量属性的值对查询有用时, NSM模型会浪费许多磁盘空间.

列式数据库采用 DSM(Decomposition Storage Model) 存储模型, 将关系进行垂直分解, 以列为单位存储, 每个列单独存储. 该方法最小化了无用的I/O.

行式存储主要适合于小批量的数据处理, 比如联机事务处理. 列式数据库主要适用于批量数据处理和即席查询(Ad-Hoc Query). 列式数据库的优点是: 降低I/O开销, 支持大量用户并发查询, 数据处理速度比传统方法快100倍, 并且具有更高的数据压缩比.

如果严格从关系数据库的角度来看, HBase并不是一个列式存储的数据库, 毕竟它是以列族为单位进行分解的, 而不是每个列都单独存储. 但是HBase借鉴和利用了磁盘上这种列存的格式, 所以某种角度上来说它可以被视为列式数据库. 常用的商业化列式数据库有: Sybase IQ, Verticad等.

如果想要更深入地了解HBase的实现原理, 架构以及运行机制, 可以阅读我的博客: 分布式数据库HBase

原文地址：https://blog.csdn.net/weixin_42236936/article/details/140148144

免责声明：本站文章内容转载自网络资源，如本站内容侵犯了原著者的合法权益，可联系本站删除。更多内容请关注自学内容网（zxcms.com）！

上一篇：MyBatis踩坑记录-多表关联字段相同，字段数据覆盖问题
下一篇：AI赚钱案例：AI美女绘图是最吸粉最赚钱方法，你真的会吗？一起用它月入6000+ | 别做色图 |

Java-异步方法@Async+自定义分布式锁注解Redission例子
确保锁的超时时间足够长，能够覆盖业务逻辑的执行时间。锁的超时时间设置不当：锁的超时时间可能设置得太短，导致锁在业务逻辑执行完成之前就已经自。问题在于使用分布式锁时，第一个请求获取到锁并执行异步方法，但
阅读更多2024-11-19
C++和C中的类型转换方式以及带来的问题
例如，将一个较大的unsigned long long类型的值转换为unsigned int类型，这里b的值超出了unsigned int所能表示的最大值（4294967295），在隐式转换时会发生数
阅读更多2024-11-19
OMV7 树莓派 tf卡安装
配置好树莓派初始化设置，用户名、密码、wifi、ssh等都正确配置并启用。提示中明确提醒了，要给用户授权，否则之前能用ssh远程登录，现在就不行了。升级7之后，问题多多，不是docker不行了，就是代
阅读更多2024-11-19
P1048 [NOIP2005 普及组] 采药
【代码】P1048 [NOIP2005 普及组] 采药。
阅读更多2024-11-19
ssh.service could not be found“
ssh.service could not be found"
阅读更多2024-11-19
Java 类型转换（Type Casting）
类型转换是将一种数据类型（如整数int、浮点数float或双精度浮点数double）的值转换为另一种数据类型的过程。这种转换可以自动进行，也可以手动进行。编译器执行自动转换，而程序员则执行手动转换。为
阅读更多2024-11-19
学习大数据DAY61 宽表加工
建模: 使用建模工具 PowerDesigner Navicat 在线画图工具... 把表结构给绘。设计: excel 文档去编写。大表 - 把很多数据整合起来。共享\项目课工具\pd。
阅读更多2024-11-19
深入解析 Vue 3 中的 `v-model` 与相关知识点
默认情况下，v-model会使用的事件形式。例如上例中的和。开发者可以随意定义事件名称。v-model开发者可以在自定义组件中，灵活地支持v-model，以下是具体实现步骤。Vue 3 中的v-mod
阅读更多2024-11-19
xpath表达式学习总结
比如：获取a标签的所有父节点中所有class属性为"bird"的父节点，使用//a/parent::[contains(@class,“bird”)]比如：获取a标签的所有父亲节点
阅读更多2024-11-19
111页PPT丨服装零售行业数字化时代的业务与IT转型规划
安踏的数字化转型项目在方法论、计划和组织方面展现出了明确的目标、系统的规划和有效的执行。
阅读更多2024-11-19

分布式数据库HBase:从零开始了解列式存储

概述

访问接口

数据模型

相关概念

表

行

列族

列限定符

单元格

时间戳

数据坐标

概念视图

物理视图

总结

分布式数据库HBase:从零开始了解列式存储

概述

访问接口

数据模型

相关概念

表

行

列族

列限定符

单元格

时间戳

数据坐标

概念视图

物理视图

总结

相关文章