`
bupt04406
  • 浏览: 344004 次
  • 性别: Icon_minigender_1
  • 来自: 杭州
社区版块
存档分类
最新评论
文章列表
HDFS的NIO有一些相关的知识偶尔需要注意下: (1) 使用了堆外内存 Control direct memory buffer consumption by HBaseClient https://issues.apache.org/jira/browse/HBASE-4956   standard hbase client, asynchbase client, netty and direct memory buffers   https://groups.google.com/forum/?fromgroups=#!topic/asynchbase/xFvHuniLI1c ...

HBase HDFS 的检验

对于0.94版本来说,有几个地方会发生检验 (1)HFile (HRegionServer里面) (2)FSInputChecker (DFSClient里面)   DFSClient :   非本地读取,通过DataNode读取,RemoteBlockReader Disk -> DataNode ->  DFSClient(RemoteBlockReader) -> HFile (HRegionServer) Disk -> DataNode ->  DFSClient(RemoteBlockReader) -> HLog ...
hdfs集群出现SocketTimeoutException,但是原因不得而知,社区不少issue都提到过,但是就是不懂具体原因。 https://issues.apache.org/jira/browse/HDFS-693 https://issues.apache.org/jira/browse/HDFS-770 https://issues.apache.org/jira/browse/HDFS-3342 http://search-hadoop.com/m/zjdcx1aR6Aa1/millis+timeout+while+waiting+for+channel+to+be+ ...
HDFS Client的读取流是从DFSInputStream来获得的,外层做了不少包装。 从DFSInputStream读取数据有两种方式: (1)seek(long targetPos) + read(byte buf[], int off, int len) (2)read(long position, byte[] buffer, int offset, int length)   第一种适合顺序读取,比如hbase里面的scan请求或者hbase的compact读取。读取的数据量一般都比较大,所以打开预读可以减少磁盘的iops,预读可以见hdfs相关的jira Add HD ...
HBase 里面调用DFSOutputStream的方法常用的是:write、sync  write会往当前Packet里面写数据,sync会强制生成一个Packet。 在DFSClient Packet里面每次都会new 一个 big byte array,size 是65557(more than 64K,data+checksum+head),由于sync会强制生成Packet,对于小kv数据来说,实际的数据会比较少,几百、几千、上万,很多时候其实没有64k的数据,所以这个使用率比较低。 (1)想到的方法是:使用一个Packet Pool (2)减少dfs.write.packet ...
support checksums in HBase block cachehttps://issues.apache.org/jira/browse/HBASE-5074   Store data and checksums together in block filehttps://issues.apache.org/jira/browse/HDFS-2699 Skip checksum is broke; are we double-checksumming by default? https://issues.apache.org/jira/browse/HBASE- ...
最近测试94版本时,出现过多次 HRegionInfo was null or empty in Meta  的异常  WARN org.apache.hadoop.hbase.client.HConnectionManager$HConnectionImplementation: Encountered problems when prefetch META table:java.io.IOException: HRegionInfo was null or empty in Meta for writetest, row=writetest,MNI07EGK9EOW7L7VG8TK,999 ...
  insert overwrite table aaaa partition(pt='20120717') select auction_id,property_id,value_id from xxxx where pt='20120717' and ( (property_id = 1626130 and value_id = 46276) or (property_id = 33510 and value_id = 31533293) or (property_id = 33510 and value_id = 119834) or (property_id ...
  DFSClient 写一个Block的过程       (1) 上层应用程序往输出流(FSDataOutputStream封装)写数据,底层DFSClient把数据切分成packets(典型的是64K),一个一个packet发送出去。 Packet 格式:      *  (H is head, C is checksum data, D is payload data)      *      * [HHHHHCCCCC________________DDDDDDDDDDDDDDDD___]      *       ^    ^             ...

hbase hbck

https://issues.apache.org/jira/browse/HBASE-5128  https://github.com/jmhsieh/hbase-repair-scripts    HBASE-5128之前版本的HBCK: 检查master、regionserver内存中的状态以及hdfs上面数据的状态之间的一致性    (1)获取所有region的信息(regioninfo): ...
  原表src: hive> desc src; OK key string value string Time taken: 0.148 seconds hive> select * from src; OK 238 val_238 Time taken: 0.107 seconds 建一个新的表create table src111(key bigint, value bigint); insert数据到src111表中 insert into table src111 select * from src; src的两个字段都是string,src1 ...

hbase 0.90->0.92升级

0.90->0.92版本之间在hdfs上面存储文件的一些区别: (1)0.92在hbase.rootdir下面多了文件hbase.id,用来存储集群的ClusterId (2)每个Table目录下面了个文件.tableinfo.0000000001(默认从0000000001开始,修改表的属性这个值会增加),用来存储Table的HTableDescriptor (2)0.90使用HFileV1存储Region数据,0.92使用HFileV2存储数据,读取时根据文件里面存储的version信息来使用那个HFile 相同的地方: HLog都是一样的用的SequenceFile格式 ...
  select split("accba", "b")[0],split("accba", "b")[1] from dual; 上面的split("accba", "b")[0]会调用一次split("accba", "b"),split("accba", "b")[1]也会调用一次split("accba", "b"),所以有两次split调用 ...
  在36个机器上面跑一个大作业,8千多个map,2w多个reduce,跑reduce的时候经常会出现如下问题:   Map output lost, rescheduling: getMapOutput(attempt_201204130934_0012_m_000022_0,5416) failed : java.io.IOException: Error Reading IndexFile at org.apache.hadoop.mapred.IndexCache.readIndexFileToCache(IndexCache.java:113) at org.a ...

RegexSerDe

    博客分类:
  • Hive
官方示例在: https://cwiki.apache.org/confluence/display/Hive/GettingStarted#GettingStarted-ApacheWeblogData Apache Weblog Data The format of Apache weblog is customizable, while most webmasters uses the default.For default Apache weblog, we can create a table with the following command. More about !Re ...
Global site tag (gtag.js) - Google Analytics