`
bupt04406
  • 浏览: 344002 次
  • 性别: Icon_minigender_1
  • 来自: 杭州
社区版块
存档分类
最新评论
文章列表
  从cdh3集群 distcp 数据到 cdh4集群上面详见: http://cloudera.com/content/cloudera-content/cloudera-docs/CDH4/latest/CDH4-Installation-Guide/cdh4ig_topic_7_2.html 注意: (1)要启个mapreduce集群,在cdh4上启动mr (2)hadoop distcp hftp://cdh3-namenode:50070/

hbase add table

把table数据从一个集群移动到另外一个集群   (1)把table的目录拷贝过来,放到hbase的root目录下(2)table的region信息写到meta表里面bin/hbase org.jruby.Main bin/add_table.rb /hbase94/t1(3)disable table(4)enable table    

hbase shell

hbase shell 命令     mvn clean; mvn package -DskipTests=true -Dhadoop.profile=2.0     https://code.google.com/p/powermock/issues/detail?id=504 There is a work-around for this issue: run the junit tests with a '-noverify' jvm argument       scan 'MEMBER_INFO', {STARTROW => '\\x00\\ ...

hive rename table name

    博客分类:
  • Hive
hive rename tablename hive rename的时候,如果table不是外部表,那么table的location会进行修改。                                    如果table是外部表,那么location不变。   HiveAlterHandler       // if this alter is a rename, and user didn't change the       // default location (or new location is empty), and table is       // n ...
cdh4在处理pipeline中的错误时,逻辑上与原先不一样。  cdh3在处理pipeline的错误时,假设当前pipeline有3个datanode,如果一个有问题,那么通过移除掉坏的datanode,重新建立只有2个datanode的pipeline,然后接着往这两个节点的pipeline写,直到结束。  cdh4默认处理时不一样,如果当前pipeline有3个datanode,有一个出了问题,那么把这个从pipeline中移除,然后向namenode在申请一个新的datanode,从其中一个好的datanode上面的块数据拷贝到这个新的datanode,然后建立一个新的3个dat ...
有用户问:hive的distribute by分桶是怎么分的。如果distribute by sellerId , reduce个数设的20,那是按照sellerId mod 20来分桶吗?sellerId 是bigint类型。 原先我也以为是这样子的,但是用户提出了疑问:很奇怪,跑出来的结果,有一小部分数据不对。这是sellerId,按照 mod的话,应该在第8分文件,但是却在第0份文件中     public static int hashCode(Object o, ObjectInspector objIns) { if (o == null) { ...
Step 1: 做下saveNamespace操作,停掉集群,并备份下 HDFS 的 Metadata  1.1 让namenode进入safe mode状态   $ bin/hadoop dfsadmin -safemode enter 1.2 执行saveNamespace操作    $ bin/hadoop dfsadmin -saveNamespace  1.3 stop 集群   1.4 备份 dfs.name.dir 下面的元数据   Step 2: 下载 CDH4,把CDH3的配置拷过来 注意CDH3配置文件是在conf目录下面,CDH4的配置文件目录已经改成了e ...

hbase snapshot

  Snapshot: (1) take a snapshot table是在enable状态,那么使用EnabledTableSnapshotHandler table是在disable状态,使用DisabledTableSnapshotHandler,在HMaster端完成所有操作 (2) getCompletedSnapshots 获得已完成的snapshot,正在进行中的被忽略 (3) deleteSnapshot 直接删除snapshot对应的目录 (4) isSnapshotDone 查看snapshot是否完成,从snapshotHandlers队列中获得信息 (5) ...
  2013-06-06 14:58:43,131 INFO org.apache.hadoop.hbase.regionserver.SplitTransaction: Starting split of region TestTable,8WXEKLMO72,1370431726449.974515d502b3876142181e57e3d4a74e.2013-06-06 14:58:43,131 DEBUG org.apache.hadoop.hbase.regionserver.SplitTransaction: regionserver:60020-0x13f13f3aa5b002 ...
like vs rlike vs regexp   rlike == regexp,底层实现一样,使用正则 like 有一些优化,对于查询类型分为五种类型: NONE, // "abc" BEGIN, // "abc%" END, // "%abc" MIDDLE, // "%abc%" COMPLEX, // all other cases, such as "ab%c_de" NONE、BEGIN和END三种使用字符串查找,不使用正则,COMPLEX使用正则,MIDDL ...

HBase maxIdleTime

HBaseClient端会建立跟HRegionServer或者HMaster的tcp连接,而这个连接在一定时间内没有请求的话,那么这个连接就会被关闭。如果应用请求比较少,加上跨机房的话,tcp连接的建立会比较耗时,导致请求rt稍高,这个时候可以调整tcp连接的存活时间,参数是client端的  this.maxIdleTime = conf.getInt("hbase.ipc.client.connection.maxidletime", 10000);   //10s   具体逻辑在HBaseClient 的Connection.waitForWork里面 H ...

HBase Create Table

  基于HBase trunk代码http://svn.apache.org/repos/asf/hbase/trunk,Revision: 1431176     Create table 的过程,Create table时 只有一个region 的assign 过程。 图示  Client                                                                   ...
(1)每个regionserver多个HLog,提升写。 社区还没有   https://issues.apache.org/jira/browse/HBASE-5699 https://issues.apache.org/jira/browse/HBASE-6981 http://svn.apache.org/viewvc?view=revision&revision=1412373   (2)多线程flush memstore,提升写,社区还没有 https://issues.apache.org/jira/browse/HBASE-6980 https://issu ...
Client端只有一个put请求,往server端写数据,server端处理时间过长,导致client端SocketTimeoutException   0.94版本   Client端发生异常SocketTimeoutException:   12/11/20 19:03:18 WARN client.HConnectionManager$HConnectionImplementation: Failed all from region=myLittleHBaseTable,,1353401128907.2879da4a2d609943473a2421520732cb., host ...

RPC HBaseServer

HBaseServer: 一个请求发送的数据是:数据的长度(int类型,不包括本身) + call id(int类型) + call的内容   (1)Listener 监听连接请求,来了新的Connection,按照round robin方式选择一个Reader,由这个Reader来读取解析这个Connection上面的call。           Reader 数量由ipc.server.read.threadpool.size来配置(默认10)。           Reader 发现某个Connection上面可读,就读取该连接上面的数据,一个一个call的数据读取出来。 ...
Global site tag (gtag.js) - Google Analytics