hbase org.apache.hadoop.hbase.mapreduce.RowCounter tablename cf:cq
有同学说这个运行出来的结果不对,结果只有几十,而实际上应该有几百万。差别这么大,原因在哪里?
查看代码发现 RowCounter的代码片段
scan.setFilter(new FirstKeyOnlyFilter()); if (sb.length() > 0) { for (String columnName : sb.toString().trim().split(" ")) { String [] fields = columnName.split(":"); if(fields.length == 1) { scan.addFamily(Bytes.toBytes(fields[0])); } else { scan.addColumn(Bytes.toBytes(fields[0]), Bytes.toBytes(fields[1])); } } }
这里的scan使用了FirstKeyOnlyFilter,又加上了column的限制。而FirstKeyOnlyFilter的原理是只返回整个row里面的第一个key/value,如果column不是row里面排在第一个的column,那么先会被FirstKeyOnlyFilter给屏蔽掉,然后在查看column,这样导致很多属于这个column的数据都被过滤掉,导致实际结果少很多。
相关推荐
│ Day15[Hbase 基本使用及存储设计].pdf │ ├─02_视频 │ Day1501_Hbase的介绍及其发展.mp4 │ Day1502_Hbase中的特殊概念.mp4 │ Day1503_Hbase与MYSQL的存储比较.mp4 │ Day1504_Hbase部署环境准备.mp4 │ Day...
hbase部署使用,hbase部署使用hbase部署使用hbase部署使用hbase部署使用
本资源为hbase的安装和使用,内含hbase安装工具包,hbase的安装说明,hbase的使用说明 。
Hadoop和Hbase安装使用教程
Hbase图形化客户端工具,squirrel使用Phoenix连接HBASE附带使用方法,还有hive,pig等jar包
这是本人使用hbase shell的部分经验总结,一般的shell使用全部包括了。 版本,压缩,region等需求,以及使用普通shell使用hbase shell
Hbase图形化客户端工具,squirrel使用Phoenix连接HBASE附带使用方法,和之前的一个part1,一起使用
java 利用 sping-data-hadoop HbaseTemplate 操作hbase find get execute 等方法 可以直接运行
hbase完全参考手册,不过是英文版。非常全面hbase英文参考手册
5 5)最后,HBase不支持联合查询 5 mapreduce与HBase表配合使用 5 4. HBase的模式Schema设计的一些概念和原则 5 1)模式的创建与更新 5 2)列族的数量 6 3)行键设计RowKey 6 5. HBase的拓扑结构是什么? 7 1)拓扑...
HBase基本操作 增删改查 java代码 要使用须导入对应的jar包
Hadoop+Hbase技术使用文档 1 目的 3 2 运行环境要求 4 2.1 支持的平台 4 2.2 硬件环境 4 2.3 软件环境 4 2.4 其他要求 5 3 安装jdk 5 3.1 查看本机的jdk版本 5 3.2 卸载低版本jdk 5 3.3 安装jdk 6 3.4 配置JDK1.6.0_...
hbase的使用 相关,包括spark、hadoop在hbase的使用,很好的资源。
Hbase的使用
分布式数据库HBase深入使用 HBase能高速实现数据存储和访问源于Hbase数据存储 连接ZooKeeper,从ZooKeeper 中找要读的数据。我们需要知道表中的Rowkey在region的位置。 客户端查找HRegionServer,HRegionServer ...
Phoniex 可以让开发者在HBase数据集上使用SQL查询。Phoenix查询引擎会将SQL查询转换为一个或多个HBase scan,并编排执行以生成标准的JDBC结果集,对于简单查询来说,性能甚至胜过Hive。 标签:Phoniex
HBase入门与使用,可以了解如何使用HBase
在本地模式下,hbase只需要安装JDK...若使用HDFS文件系统模式,除了JDK,还需要安装hadoop(HDFS是hadoop的旗舰级文件系统,是hadoop项目的核心子项目,安装hadoop会带有hdfs),本版本hbase依赖安装的hadoop版本是2.4.1
云计算实验,Hadoop和Hbase安装使用,
HBase是一个分布式的、面向列的开源数据库,该技术来源于 Fay Chang 所撰写的Google论文“Bigtable:一个结构化数据的分布式存储系统”。就像Bigtable利用了Google文件系统(File System)所提供的分布式数据存储...