HBase表百万数据插入
一、由于插入数据量较大,在这种情况下为提升效率有以下两种主要的优化手段:
1、关闭WAL写前日志:
写前日志个人理解是一种安全回滚机制,若机器在执行操作过程中机器宕机需要回滚的话,需要读取写前编辑日志进行数据回滚,防止数据的丢失,此处关闭的话为了提升效率,看业务场景,不是很重要的话可以选择关闭来提高插入效率。
Put对象调用setWriteToWAL(false);
2、关闭自动清理缓冲区,手动清理:
缓冲区入开启,缓冲区存在数据,数据就会进行自动的提交,每次提交的数据量很小,交互频繁也会影响插入效率,所以关闭缓冲区自动提交,手动进行提交也是一种优化手段,至于多久提交个人觉得需要看你机器内存性能来考虑。
HTable对象调用setAutoFlush(false);
代码如下:
import org.apache.hadoop.conf.Configuration;
import org.apache.hadoop.hbase.HBaseConfiguration;
import org.apache.hadoop.hbase.TableName;
import org.apache.hadoop.hbase.client.*;
import org.apache.hadoop.hbase.util.Bytes;
/**
* @Author 王磊
* @Date 2019/1/3
* @ClassName BigInsert
* @Description HBase百万数据插入测试
**/
public class BigInsert {
public static void main(String[] args) throws Exception {
Configuration conf = HBaseConfiguration.create();
Connection conn = ConnectionFactory.createConnection(conf);
TableName tbname = TableName.valueOf("nameSpaceName:tableName");
HTable htb = (HTable)conn.getTable(tbname);
// 关闭自动清理缓冲区(若开启,检测到缓冲区存在数据,就会进行一次数据的提交)
htb.setAutoFlush(false);
for(int i = 0 ; i < 1000000; i++){
Put put = new Put(Bytes.toBytes("rowKey" + i));
// 关闭写前日志(WAL主要用于写前数据的备份,用于回滚操作,关闭写前日志效率更高,但是有不能回滚到较新版本的问题)
put.setWriteToWAL(false);
put.addColumn(Bytes.toBytes("familyName"), Bytes.toBytes("name"), Bytes.toBytes("tom" + i));
put.addColumn(Bytes.toBytes("familyName"), Bytes.toBytes("age"), Bytes.toBytes(i % 20));
htb.put(put);
if(i % 1000 == 0){
// 每put1000次进行一次缓冲区清理提交
htb.flushCommits();
}
}
// 提交剩余数据【如最后若不满1000次未提交的数据】
htb.flushCommits();
}
}