【大数据学习 | HBASE】hbase的读数据流程与hbase读取数据

🕗 发布于 2024-11-12 06:20 大数据 学习 hbase

1. hbase的读数据流程

在解析读取流程之前我们还需要知道两个功能性的组件和HFIle的格式信息

HFILE

存储在hdfs中的hbase文件，这个文件中会存在hbase中的数据以kv类型显示，同时还会存在hbase的元数据信息，包括整个hfile文件的索引大小，描述，k和v的均匀长度，文件中包含的开始的key和结束的key，以及中位数key，等信息便于检索，以及布隆过滤器等信息，这个数据在我们hbase进行查询读取的时候按照64KB为一个大小进行读取内容数据，其中读取的元数据会全部加载，但是kv类型的真正存储数据会按照64KB为最小单位读取进来。

# flush表的数据，清空memstore
flush <table>
# 查看命令为
hbase hfile -m -b -p -f <hfile的文件路径>
-m 打印元数据信息
-b 打印块信息
-p 打印数据内容
-f 后面接文件

例子：hfile的文件路径：

查看某一列的数据信息：

布隆过滤器：

一个使用hash表作为计算规则的过滤器，也就是在写入数据到hbase的时候要先将数据写出到memstore中，在memstore写满了以后就会将数据以storeFile形式写出到磁盘上，这个时候也会生成一份对应数据的hash表文件，以metablock的形式存储到起来，它的功能非常实用，比如我们在查询数据的时候就可以首先将这个数据进行hash处理，然后和hash表进行比对，如果不存在可以直接避免扫描这个storeFile文件。在巨大的数据面前可以进行高效的数据。

一句话：查询数据的时候将对其进行哈希处理，然后与哈希地图进行比对，如果哈希表取到的值为空，说明storeFile没有该要查询的数据，如果哈希表找到的值不为空，也不一定存在要查询的数据。

blockCache

对应表数据的regionserver级别的缓存组件，主要使用规则就是在查询数据的时候也会将查询结果缓存到regionserver对应的blockCache组件中，下次查询的时候可以直接使用上次查询的结果，blockCache中存储的数据内存包含索引文件，布隆过滤器的值和数据的key，其他的value数据，会以64Kb为大小进行存储，如果数据过期了先清理value的数据，而索引等数据和元数据信息不会清理出去。

blockCache是regionserver级别的缓存组件，我的hbase集群只有两个工作节点，即存在两个regionserver，每个regionserver都存在一个blockCache，所以我desc info表会出现两条记录。

所以hbase的读写数据流程为:

读取数据流程

首先读取zookeeper中的元数据meta表的信息
其次根据meta表的信息找寻相应的region获取元数据信息
然后将meta表的元数据信息放入到自己的客户端缓存中
根据meta表的信息找寻student表对应的region所在的regionserver
然后根据查询的内容先去memstore文件中找寻数据
如果没有再去blockcache缓存中找寻数据，但是并不是直接将数据返回，而是通过key和索引文件去storeFile中查询比对，不然会出现数据过期问题
都没有再从storeFile和hfile中找寻数据，这个过程会使用到布隆过滤器
然后在将数据存储到blockcache中然后在返回给客户端

2. hbase读取数据

在hainiu命名空间创建student表：

hbase:007:0> put 'hainiu:student','001','cf1:name','1'
Took 0.0828 seconds                                                                                            
hbase:008:0> put 'hainiu:student','002','cf1:name','2'
Took 0.0173 seconds                                                                                            
hbase:009:0> put 'hainiu:student','001','cf1:age','10'
Took 0.0267 seconds                                                                                            
hbase:010:0> put 'hainiu:student','002','cf1:age','20'
Took 2.0660 seconds                                                                                            
hbase:011:0> scan 'hainiu:student'
ROW                          COLUMN+CELL                                                                       
 001                         column=cf1:age, timestamp=2024-11-11T19:15:07.044, value=10                       
 001                         column=cf1:name, timestamp=2024-11-11T19:14:40.544, value=1                       
 002                         column=cf1:age, timestamp=2024-11-11T19:15:18.621, value=20                       
 002                         column=cf1:name, timestamp=2024-11-11T19:14:54.939, value=2                       
2 row(s)
Took 0.1542 seconds                                                                                            
hbase:012:0> put 'hainiu:student','001','cf2:adress','beijin'
Took 0.0695 seconds                                                                                            
hbase:013:0> put 'hainiu:student','002','cf2:adress','beijin'
Took 0.0147 seconds                                                                                            
hbase:014:0> scan 'hainiu:student'
ROW                          COLUMN+CELL                                                                       
 001                         column=cf1:age, timestamp=2024-11-11T19:15:07.044, value=10                       
 001                         column=cf1:name, timestamp=2024-11-11T19:14:40.544, value=1                       
 001                         column=cf2:adress, timestamp=2024-11-11T19:15:52.033, value=beijin                
 002                         column=cf1:age, timestamp=2024-11-11T19:15:18.621, value=20                       
 002                         column=cf1:name, timestamp=2024-11-11T19:14:54.939, value=2                       
 002                         column=cf2:adress, timestamp=2024-11-11T19:16:03.664, value=beijin                
2 row(s)
Took 0.0241 seconds

# get 获取一个内容按照rowkey查询数据
get 'hainiu:student','001'
# get 获取对应列族的数据
get 'hainiu:student','001','cf1'
# get 获取对应列的信息
get 'hainiu:student','001','cf1:name'

hbase:017:0> get 'hainiu:student','001'
COLUMN                       CELL                                                                              
 cf1:age                     timestamp=2024-11-11T19:15:07.044, value=10                                       
 cf1:name                    timestamp=2024-11-11T19:14:40.544, value=1                                        
 cf2:adress                  timestamp=2024-11-11T19:15:52.033, value=beijin                                   
1 row(s)

hbase:019:0> get 'hainiu:student','001','cf1'
COLUMN                       CELL                                                                              
 cf1:age                     timestamp=2024-11-11T19:15:07.044, value=10                                       
 cf1:name                    timestamp=2024-11-11T19:14:40.544, value=1                                        
1 row(s)
Took 0.0321 seconds                                                                                            
hbase:020:0> get 'hainiu:student','001','cf1:name'
COLUMN                       CELL                                                                              
 cf1:name                    timestamp=2024-11-11T19:14:40.544, value=1                                        
1 row(s)
Took 0.0231 seconds

# scan扫描表的数据
scan table
# 扫描limit
scan 'hainiu:student', {LIMIT => 2}
# 扫描指定的列族
scan 'hainiu:student',{COLUMNS=>'cf1'}
# 扫描指定的列
scan 'hainiu:student',{COLUMNS=>'cf1:age'}

hbase:022:0> scan 'hainiu:student',{COLUMN=>'cf1'}
ROW                          COLUMN+CELL                                                                       
 001                         column=cf1:age, timestamp=2024-11-11T19:15:07.044, value=10                       
 001                         column=cf1:name, timestamp=2024-11-11T19:14:40.544, value=1                       
 002                         column=cf1:age, timestamp=2024-11-11T19:15:18.621, value=20                       
 002                         column=cf1:name, timestamp=2024-11-11T19:14:54.939, value=2                       
2 row(s)
Took 0.0588 seconds                                                                                            
hbase:023:0> scan 'hainiu:student',{COLUMN=>'cf1:age'}
ROW                          COLUMN+CELL                                                                       
 001                         column=cf1:age, timestamp=2024-11-11T19:15:07.044, value=10                       
 002                         column=cf1:age, timestamp=2024-11-11T19:15:18.621, value=20                       
2 row(s)

# 过滤器查询
scan 'hainiu:student', FILTER=>"ValueFilter(=,'binary:20')"
# 指定列等值查询
scan 'hainiu:student',{COLUMNS=>'cf1:age',FILTER=>"ValueFilter(!=,'binary:20')"}
# 范围查询
scan 'hainiu:student', { STARTROW => '001', STOPROW => '003'}
# 分页查询
scan 'hainiu:student', {COLUMNS => 'cf1', LIMIT => 2, STARTROW => '001'}
# 范围查询指定相应的列信息
scan 'hainiu:student', { STARTROW => '001', STOPROW => '002', COLUMN => 'cf1:name'}

在范围查询中，从rowKey的[STARTROW, STOPROW)为范围查询，左闭右开区间，包含STARTROW，但不包含STOPROW。

行数查询

# 查询表的行数
# 语法：count <table>, {INTERVAL => intervalNum, CACHE => cacheNum}
# INTERVAL设置多少行显示一次及对应的rowkey，默认1000；
# CACHE每次去取的缓存区大小，默认是10，调整该参数可提高查询速度
count 'hainiu:student'
# 直接查询完毕返回值
count 'hainiu:student', {INTERVAL => 2,CACHE=>50} 
# 间隔两秒返回一次结果值

每间隔50秒，一次性取50行ky。

大表统计

# 大表统计的时候不能使用hbase自带的count命令，这样hbase压力太大
# 我们可以通过外置的mr进行计算统计大小
hbase org.apache.hadoop.hbase.mapreduce.RowCounter 'tablename'

多版本查询

#修改设置版本，查询时，加上版本就可以查出来版本
alter 'hainiu:student',{ NAME =>'cf1', VERSIONS => 2 }

put 'hainiu:student','id10', 'cf1:name','name10a'
put 'hainiu:student','id10', 'cf1:name','name10aa'
put 'hainiu:student','id10', 'cf1:name','name10aaa'

#此时，可以查询出2个版本的数据
get 'hainiu:student', 'id10', { COLUMN =>'cf1:name',  VERSIONS => 2}

原文地址：https://blog.csdn.net/2301_80912559/article/details/143692190

免责声明：本站文章内容转载自网络资源，如本站内容侵犯了原著者的合法权益，可联系本站删除。更多内容请关注自学内容网（zxcms.com）！

上一篇：【论文阅读】小样本学习相关研究
下一篇：5G Non-Public Network(二) NPN演进历程

第七章：TDengine SHOW 命令大全
SHOW命令用于获取TDengine数据库中的系统信息、元数据、状态等。通过SHOW命令，用户可以方便地查看数据库的各种信息，如数据库列表、表结构、索引、连接信息等。
阅读更多2024-11-18
【Linux内核剖析】深入分析inet_init的处理机制
inet_init是 Linux 内核中用于初始化 TCP/IP 协议栈的函数。它在内核启动时被调用，完成各种协议和数据结构的注册和初始化。
阅读更多2024-11-18
【C++进阶篇】——string类的使用
是 C++ 标准库的一部分，但它不是 STL 容器的一部分。STL 容器是指那些基于模板的容器，如std::list等。提供了类似于 STL 容器的功能，比如动态内存管理、迭代器支持等，但它的设计和实
阅读更多2024-11-18
Javaweb开发核心之应用上下文知识（笔记）
⽐比如：PageContext，ServletRequest，HttpSession，ServletContext；简介:讲解Javaweb作⽤用域对象介绍和ServletContext讲解。就是对象
阅读更多2024-11-18
Web Service 学习笔记
Web Service 即 web 服务，它是一种跨编程语言和跨操作系统平台的远程调用技术。Java 中共有三种 Web Service 规范：- JAX-WS(JAX-RPC): 基于 xml 数据
阅读更多2024-11-18
使用函数的选择法排序
其中a是待排序的数组，n是数组a中元素的个数。该函数用选择法将数组a中的元素按升序排列，结果仍然在数组a中。
阅读更多2024-11-18
Leetcode 3356. Zero Array Transformation II
Leetcode 3356. Zero Array Transformation II
阅读更多2024-11-18
图形最高分
游戏一开始，玩家在每一轮可以合并两个图形，当只有一个图形的时候游戏结束，每个图形都有一个大小，合并完成后的图形的大小为x+y,x和y分别为合并之前的两个图形，与此同时，玩家会获得x*y的分数。现在屏幕
阅读更多2024-11-18
nodejs入门（1）：nodejs的前后端分离
浏览器和前端web服务器交互，前端web服务器和后端web服务器进行交互，前端web服务器向后端的web服务器请求数据，对后端服务器得到请求后将数据传递给前端web服务器，格式化后由浏览器展示。好的，
阅读更多2024-11-18
wife_wife
在下面的信息中加上"__proto__":{"isAdmin":true}上网查了一下，用到了Javascript原型链污染攻击。用这个漏洞的前提是后端使用的语
阅读更多2024-11-18

【大数据学习 | HBASE】hbase的读数据流程与hbase读取数据

1. hbase的读数据流程

2. hbase读取数据

相关文章