`
bupt04406
  • 浏览: 344005 次
  • 性别: Icon_minigender_1
  • 来自: 杭州
社区版块
存档分类
最新评论

hbase的一些语义

 
阅读更多

hbase里面对一行操作前会加锁。

http://hadoop-hbase.blogspot.com/2012/01/hbase-intra-row-transactions.html

https://issues.apache.org/jira/browse/HBASE-3584

HBASE-3584的功能是对同一行的Put和Delete可以原子性的完成。

 

 

Delete: 

put 't1', 'r1', 'f1:c', 'aaa', 1

put 't1', 'r1', 'f1:c', 'bbb', 2

put 't1', 'r1', 'f1:c', 'ccc', 3

delete 't1','r1','f1:c', 3 这个会把前面3条数据都删除掉。

scan 't1'

scan 't1', {RAW => true, VERSIONS => 10}

Deletes work by creating tombstone markers. For example, let's suppose we want to delete a row. For this you can specify a version, or else by default the currentTimeMillis is used. What this means is “delete all cells where the version is less than or equal to this version”.

 

Memstore flush的时候,应该删除的put会被过滤掉,不写入HFile。Delete marker在major compact的时候删除。

https://issues.apache.org/jira/browse/HBASE-4536 

https://issues.apache.org/jira/browse/HBASE-4071

https://issues.apache.org/jira/browse/HBASE-4241

 

region太大的问题是大compact的时候会影响正常读写。

 

Region做compact的时候是一个个cf来做的。

 

 

 https://wiki.trafodion.org/wiki/index.php/Main_Page

 

The main practical difference is that only a major compaction cleans out delete markers.
Delete markers cannot be removed during a minor compaction since an affected KeyValue could exist in an HFile that is not part of this compaction.

 

Delete只在major_compact的时候删除掉

Memstore flush的时候会去除无用的数据

minor compaction的时候也会删除无用的数据

分享到:
评论

相关推荐

    HDSW:基于Hadoop和HBase的语义传感器Web

    高保真基于Hadoop和HBase的语义传感器Web

    HBASE数据库.docx

    半结构化:具有一定结构,但语义不够确定,典型的如 HTML 网页,有些字段是确定的(title),有些不确定(table) 非结构化:杂乱无章的数据,很难按照一个概念去进行抽取,无规律性 Hbase 查询数据功能很简单,不支持 join 等...

    flink-kafka-hbase:功能:实现kafka消息实时落地hbase,支持csvjson字符串两种格式的消息,支持自定义组合rowkey,列簇和列名,支持按照kafka消息流中不同字段join不同的hbase表,并自定义写入列簇和列(join时需评估一下性能), 支持at least once语义 外部依赖:apollo配置中心,本项目依靠配置驱动,配置存储在apollo配置中心

    支持csv/json字符串两种格式的消息,支持自定义组合rowkey,列簇和列名,支持按照kafka消息流中不同字段join不同的hbase表,并自定义写入列簇和列(join时需评估一下性能)支持at least once语义外部依赖:apollo配置...

    论文研究-基于RDF的云制造数据在HBase中管理方式的研究 .pdf

    基于RDF的云制造数据在HBase中管理方式的研究,曹佳硕,张宝鹏,随着语义网技术的不断发展与成熟,资源描述框架RDF被应用于越来越多的领域中,然而随着全球全面进入信息化,数据爆炸式的增长,传

    搜索引擎的设计毕业论文

    由于编码描述只能反映出部分语义,因此不能保证语义的匹配;检索过程是把用户的查询关键词与全文中的每一个词进行比较,而不考虑查询请求与文档语义上的匹配。针对上述两个关键问题,本文运用本体论的相关知识,提出...

    论文研究-云环境下海量语义数据查询策略研究 .pdf

    云环境下海量语义数据查询策略研究,胡志刚,景冬梅,为了实现对海量RDF数据的高效查询,研究了RDF数据在分布式数据库HBase中的存储方法,基于MapReduce设计了海量RDF数据的两阶段查询策略,�

    impala.xmind

    Impala是Cloudera公司主导开发的新型查询系统,它提供SQL语义,能查询存储在Hadoop的HDFS和HBase中的PB级大数据。已有的Hive系统虽然也提供了SQL语义,但由于Hive底层执行使用的是MapReduce引擎,仍然是一个批处理...

    Humulus:CumulusRDF HBase 连接器原型在这里构建

    葎草 该项目有助于 CumulusRDF。 为了在 Hadoop 集群中存储大型语义图,我们开发了两个连接器: (1) SOLR 连接器(原型已准备就绪) (2) HBase 连接器(即将推出...)

    面向货票系统的云计算服务合成技术研究及实现

    使用HBase进行存储RDF数据要比使用关系型数据库进行存储在存储速度与查询 速度上都有较大的提高,并且本文的最后论述如何通过服务合成技术发布完整的 带有语义特点货票数据。图21幅,表13个,参考文献37篇

    impala 2.1.0 rpm 安装包

    Impala是Cloudera公司主导开发的新型查询系统,它提供SQL语义,能查询存储在Hadoop的HDFS和HBase中的PB级大数据。已有的Hive系统虽然也提供了SQL语义,但由于Hive底层执行使用的是MapReduce引擎,仍然是一个批处理...

    Apache impala-3.2 Guide.pdf

    Impala是Cloudera公司主导开发的新型查询系统,它提供SQL语义,能查询存储在Hadoop的HDFS和HBase中的PB级大数据。已有的Hive系统虽然也提供了SQL语义,但由于Hive底层执行使用的是MapReduce引擎,仍然是一个批处理...

    impala开发

    Impala是Cloudera公司主导开发的新型查询系统,它提供SQL语义,能查询存储在Hadoop的HDFS和HBase中的PB级大数据。已有的Hive系统虽然也提供了SQL语义,但由于Hive底层执行使用的是MapReduce引擎,仍然是一个批处理...

    HCIP-Big Data Developer 结班测试

    关于HBase集群架构组成各部分描述错误的是 Redis中相对于 AOF持久化,对RDB持久化描述正确的是 以下哪个选项属于大数据消息系统 Loader是基于开源()的图形化迁移管理工具 某电商网站想要实现热销商品的实时TopN...

    jprofiler注册机11 可用.rar

     JProfiler的JDBC和JPA/Hibernate探测器以及MongoDB,Cassandra和HBase的NoSQL探测器显示了数据库访问缓慢以及代码缓慢的语句调用原因。从JDBC时间线视图显示所有与其活动的JDBC连接,通过热点视图,显示各种遥测...

    大数据处理的关键技术.docx

    在数据分析中,云技术与传统方法之间进行联合,使得一些传统的数据分析方法能够成功地运用到大数据的范畴中来。 一、数据的采集技术 数据的采集是指利用多个数据库来接收发自客户端(Web、App或传感器形式等)的各种...

    互联网行业大数据分析报告项目信息分析.pptx

    语义引擎需要被设计成能够从"文档"中智能提取信息 语义引擎 数据质量和数据管理是一些管理方面的最佳实践。通过标准化的流程和工具对数据进行处理可以保证一个预先定义好的高质量的分析结果 数据质量和数据管理 数据...

    Java单元测试框架源码分钟-flink:用于TPC-DS竞赛的Flink代码,从ApacheFlink分叉,并挑选了一些新功能

    跨不同时间语义(事件时间、处理时间)的灵活窗口(时间、计数、会话、自定义触发器) 具有完全一次处理保证的容错 流媒体程序中的自然背压 图处理(批处理)、机器学习(批处理)和复杂事件处理(流)库 数据集...

    云计算环境下的SWRL规则分布式推理框架 (2013年)

    根据SWRL规则语义,并以Hadoop开源云计算框架为基础,设计了OWL本体在HBase分布式数据库中的存储策略,定义了SWRL规则解析模型和相关推理中间数据模型,提出了在DL-safe限制下基于MapReduce的SWRL规则分布式推理算法...

    数据科学

    装袋和提升AdaBoost 随机森林大数据工程基础Hadoop和MapReduce编程NoSQL数据库和Apache HBase 蜂巢教程使用PySpark进行分析深度学习神经网络导论神经网络分配卷积神经网络-简介和行业应用递归神经网络自然语言处理...

    云计算第二版

    10.5.1 语义分析应用 313 10.5.2 生物学应用 314 10.5.3 数据库应用 315 10.5.4 地理信息应用 316 10.5.5 商业应用 317 10.5.6 医学应用 318 10.5.7 社会智能应用 319 10.6 云安全研究 321 10.6.1 Anti-Spam Grid:...

Global site tag (gtag.js) - Google Analytics