hbase
hbase即hadoop database,hadoop的数据库,hbase是一种 nosql 数据库,即不是rdbms ,不支持sql作为主要访问手段。
hbase它是基于hadoop的一个分布式数据库,即hbase是利用hdfs作为文件存储系统
特点
高可靠:因为是基于hadoop的,hadoop就具有高可靠,故hbase也具有高可靠性。
高性能:高写高读性能。
面向列:单独对列进行各种操作。
海量数据存储:单表可有上百亿行、上百万的列。也就是对列没有限制。
实时读写
多版本:timestamp可以将cell中的数据存储好几个版本
准实时查询:查询上亿数据量低延迟 百毫秒级别
扩展性:因为是基于hadoop的,hadoop就具有扩展性,故hbase也具有扩展性。
hbase的架构
master
它为region server分配region,并且负责region server的负载均衡,如果它发现失效的region server,它会重新分配失效region server上的region,它还管理用户对表的增删改操作。
region server
它是用来维护region,并且处理对region的io请求,还负责切分过大的region。
zookeeper
它是为了高可用行,即ha,在任何时候,可以保证集群中有且只有一个master处于active状态,其他是standby状态,它还存储所有region的寻址入口,并且实时监控region server的信息,实时通知master存储hbase的schema和table元数据信息。
memstore和storefile
region是由多个store组成,而一个store对应一个column famliy,store包括内存中的memstore和位于磁盘的storefile,如果有数据写入,那么会先写入memstore,当memstore中的数据达到设定的阈值时,regionserver会启动flushcache进程将数据写入到storefile,当storefile文件数量到了设定的阈值时,系统会进行minor、major compaction(即大合并和小合并),在合并过程中会进行版本合并和删除工作,形成更大的storefile,如果一个region的所有storefile的大小和数量超过设定的阈值时,会把当前的region分割为两个,并由master分配到相应的regionserver上,实现负载均衡,如果客户端要检索数据,它会先在memstore上找,如果找不到就会去storefile中找,直到找到。
region是hbase中分布式存储和负载均衡的最小单元。最小单元就表示不同region可以分布在不同region server上面
minor compaction
即小合并,将会选取一些小的、相邻的storefile,然后合并成更大的storefile,在这个过程不会处理delete或者失效的cell
major compaction
即大合并 这个过程会消耗大量的系统资源。将所有的storefile合并成一个storefile,它会清理三类数据:被删除的数据,ttl(time to live)生命周期过期的数据,版本号超过设定版本的数据。
compaction就是使用短时间的io消耗以及带宽消耗换取后续查询的低延迟
喜欢就关注小编,小编天天写,你也可以进步一点点