cdh3集群 distcp 数据到 cdh4集群

博客分类：

hadoop

从cdh3集群 distcp 数据到 cdh4集群上面详见： http://cloudera.com/content/cloudera-content/cloudera-docs/CDH4/latest/CDH4-Installation-Guide/cdh4ig_topic_7_2.html 注意：（1）要启个mapreduce集群，在cdh4上启动mr （2）hadoop distcp hftp://cdh3-namenode:50070/

2013-09-26 21:54
浏览 1073
评论(0)
分类:开源软件

hbase add table

博客分类：

hbase

把table数据从一个集群移动到另外一个集群（1）把table的目录拷贝过来，放到hbase的root目录下（2）table的region信息写到meta表里面bin/hbase org.jruby.Main bin/add_table.rb /hbase94/t1（3）disable table（4）enable table

2013-09-26 21:49
浏览 1308
评论(0)
分类:开源软件

hbase shell

博客分类：

hbase

hbase shell 命令 mvn clean; mvn package -DskipTests=true -Dhadoop.profile=2.0 https://code.google.com/p/powermock/issues/detail?id=504 There is a work-around for this issue: run the junit tests with a '-noverify' jvm argument scan 'MEMBER_INFO', {STARTROW => '\\x00\\ ...

2013-09-26 11:18
浏览 1630
评论(0)
分类:开源软件

hive rename table name

博客分类：

Hive

hive rename tablename hive rename的时候，如果table不是外部表，那么table的location会进行修改。如果table是外部表，那么location不变。 HiveAlterHandler // if this alter is a rename, and user didn't change the // default location (or new location is empty), and table is // n ...

2013-09-18 14:28
浏览 2538
评论(0)
分类:开源软件

cdh4 vs cdh3 client处理DataNode异常的不同

博客分类：

hadoop

cdh4在处理pipeline中的错误时，逻辑上与原先不一样。 cdh3在处理pipeline的错误时，假设当前pipeline有3个datanode，如果一个有问题，那么通过移除掉坏的datanode，重新建立只有2个datanode的pipeline，然后接着往这两个节点的pipeline写，直到结束。 cdh4默认处理时不一样，如果当前pipeline有3个datanode，有一个出了问题，那么把这个从pipeline中移除，然后向namenode在申请一个新的datanode，从其中一个好的datanode上面的块数据拷贝到这个新的datanode，然后建立一个新的3个dat ...

2013-09-13 21:13
浏览 2174
评论(0)
分类:开源软件

hive的distribute by如何partition long型的数据

博客分类：

Hive

有用户问：hive的distribute by分桶是怎么分的。如果distribute by sellerId , reduce个数设的20，那是按照sellerId mod 20来分桶吗？sellerId 是bigint类型。原先我也以为是这样子的，但是用户提出了疑问：很奇怪，跑出来的结果，有一小部分数据不对。这是sellerId，按照 mod的话，应该在第8分文件，但是却在第0份文件中 public static int hashCode(Object o, ObjectInspector objIns) { if (o == null) { ...

2013-08-20 10:15
浏览 2428
评论(0)
分类:开源软件

hdfs 升级，cdh3 升级 cdh4

博客分类：

hadoop

Step 1: 做下saveNamespace操作，停掉集群，并备份下 HDFS 的 Metadata 1.1 让namenode进入safe mode状态 $ bin/hadoop dfsadmin -safemode enter 1.2 执行saveNamespace操作 $ bin/hadoop dfsadmin -saveNamespace 1.3 stop 集群 1.4 备份 dfs.name.dir 下面的元数据 Step 2: 下载 CDH4，把CDH3的配置拷过来注意CDH3配置文件是在conf目录下面，CDH4的配置文件目录已经改成了e ...

2013-08-05 18:09
浏览 2154
评论(0)
分类:开源软件

hbase snapshot

博客分类：

hbase

Snapshot: (1) take a snapshot table是在enable状态，那么使用EnabledTableSnapshotHandler table是在disable状态，使用DisabledTableSnapshotHandler，在HMaster端完成所有操作 (2) getCompletedSnapshots 获得已完成的snapshot，正在进行中的被忽略 (3) deleteSnapshot 直接删除snapshot对应的目录 (4) isSnapshotDone 查看snapshot是否完成，从snapshotHandlers队列中获得信息 (5) ...

2013-06-06 16:40
浏览 2133
评论(0)
分类:开源软件

hbase split 导致compact abort的日志

博客分类：

hbase

2013-06-06 14:58:43,131 INFO org.apache.hadoop.hbase.regionserver.SplitTransaction: Starting split of region TestTable,8WXEKLMO72,1370431726449.974515d502b3876142181e57e3d4a74e.2013-06-06 14:58:43,131 DEBUG org.apache.hadoop.hbase.regionserver.SplitTransaction: regionserver:60020-0x13f13f3aa5b002 ...

2013-06-06 16:37
浏览 3402
评论(0)
分类:开源软件

hive like vs rlike vs regexp

博客分类：

Hive

like vs rlike vs regexp rlike == regexp，底层实现一样，使用正则 like 有一些优化，对于查询类型分为五种类型： NONE, // "abc" BEGIN, // "abc%" END, // "%abc" MIDDLE, // "%abc%" COMPLEX, // all other cases, such as "ab%c_de" NONE、BEGIN和END三种使用字符串查找，不使用正则，COMPLEX使用正则，MIDDL ...

2013-04-11 18:53
浏览 11172
评论(0)
分类:开源软件

HBase maxIdleTime

博客分类：

hbase

HBaseClient端会建立跟HRegionServer或者HMaster的tcp连接，而这个连接在一定时间内没有请求的话，那么这个连接就会被关闭。如果应用请求比较少，加上跨机房的话，tcp连接的建立会比较耗时，导致请求rt稍高，这个时候可以调整tcp连接的存活时间，参数是client端的 this.maxIdleTime = conf.getInt("hbase.ipc.client.connection.maxidletime", 10000); //10s 具体逻辑在HBaseClient 的Connection.waitForWork里面 H ...

2013-03-29 18:01
浏览 1626
评论(0)
分类:开源软件

HBase Create Table

博客分类：

hbase

基于HBase trunk代码http://svn.apache.org/repos/asf/hbase/trunk，Revision: 1431176 Create table 的过程，Create table时只有一个region 的assign 过程。图示 Client ...

2013-01-10 15:50
浏览 2098
评论(0)
分类:开源软件

facebook hbase版本目前做的一些重要特性，提升性能

博客分类：

hbase

（1）每个regionserver多个HLog，提升写。社区还没有 https://issues.apache.org/jira/browse/HBASE-5699 https://issues.apache.org/jira/browse/HBASE-6981 http://svn.apache.org/viewvc?view=revision&revision=1412373 （2）多线程flush memstore，提升写，社区还没有 https://issues.apache.org/jira/browse/HBASE-6980 https://issu ...

2012-11-22 19:36
浏览 2110
评论(0)
分类:开源软件

Server端处理时间很长，Client发生SocketTimeoutException

博客分类：

hbase

Client端只有一个put请求，往server端写数据，server端处理时间过长，导致client端SocketTimeoutException 0.94版本 Client端发生异常SocketTimeoutException： 12/11/20 19:03:18 WARN client.HConnectionManager$HConnectionImplementation: Failed all from region=myLittleHBaseTable,,1353401128907.2879da4a2d609943473a2421520732cb., host ...

2012-11-22 11:37
浏览 33358
评论(0)
分类:开源软件

RPC HBaseServer

博客分类：

hbase

HBaseServer：一个请求发送的数据是：数据的长度（int类型，不包括本身） + call id（int类型） + call的内容（1）Listener 监听连接请求，来了新的Connection，按照round robin方式选择一个Reader，由这个Reader来读取解析这个Connection上面的call。 Reader 数量由ipc.server.read.threadpool.size来配置（默认10）。 Reader 发现某个Connection上面可读，就读取该连接上面的数据，一个一个call的数据读取出来。 ...

2012-11-12 20:28
浏览 1066
评论(0)
分类:开源软件

最近访客更多访客>>

博主相关

文章分类

社区版块

存档分类

最新评论

cdh3集群 distcp 数据到 cdh4集群

hbase add table

hbase shell

hive rename table name

cdh4 vs cdh3 client处理DataNode异常的不同

hive的distribute by如何partition long型的数据

hdfs 升级，cdh3 升级 cdh4

hbase snapshot

hbase split 导致compact abort的日志

hive like vs rlike vs regexp

HBase maxIdleTime

HBase Create Table

facebook hbase版本目前做的一些重要特性，提升性能

Server端处理时间很长，Client发生SocketTimeoutException

RPC HBaseServer

最近访客 更多访客>>

博主相关

文章分类

社区版块

存档分类

最新评论

最近访客更多访客>>