HBase表百万数据插入

本文介绍了在插入HBase表百万数据时提升效率的两种方法:关闭WAL写前日志以减少回滚需求,以及关闭自动清理缓冲区并手动清理以减少交互频率。这两种策略取决于业务对数据安全性和效率的需求。

摘要生成于 C知道 ,由 DeepSeek-R1 满血版支持, 前往体验 >

HBase表百万数据插入

一、由于插入数据量较大,在这种情况下为提升效率有以下两种主要的优化手段:

1、关闭WAL写前日志:

写前日志个人理解是一种安全回滚机制,若机器在执行操作过程中机器宕机需要回滚的话,需要读取写前编辑日志进行数据回滚,防止数据的丢失,此处关闭的话为了提升效率,看业务场景,不是很重要的话可以选择关闭来提高插入效率。
Put对象调用setWriteToWAL(false);

2、关闭自动清理缓冲区,手动清理:

缓冲区入开启,缓冲区存在数据,数据就会进行自动的提交,每次提交的数据量很小,交互频繁也会影响插入效率,所以关闭缓冲区自动提交,手动进行提交也是一种优化手段,至于多久提交个人觉得需要看你机器内存性能来考虑。
HTable对象调用setAutoFlush(false);

代码如下:

import org.apache.hadoop.conf.Configuration;
import org.apache.hadoop.hbase.HBaseConfiguration;
import org.apache.hadoop.hbase.TableName;
import org.apache.hadoop.hbase.client.*;
import org.apache.hadoop.hbase.util.Bytes;

/**
 * @Author      王磊
 * @Date        2019/1/3
 * @ClassName   BigInsert
 * @Description HBase百万数据插入测试
 **/
public class BigInsert {
    public static void main(String[] args) throws Exception {
        Configuration conf = HBaseConfiguration.create();
        Connection conn = ConnectionFactory.createConnection(conf);
        TableName tbname = TableName.valueOf("nameSpaceName:tableName");
        HTable htb = (HTable)conn.getTable(tbname);
        // 关闭自动清理缓冲区(若开启,检测到缓冲区存在数据,就会进行一次数据的提交)
        htb.setAutoFlush(false);
        for(int i = 0 ; i < 1000000; i++){
            Put put = new Put(Bytes.toBytes("rowKey" + i));
            // 关闭写前日志(WAL主要用于写前数据的备份,用于回滚操作,关闭写前日志效率更高,但是有不能回滚到较新版本的问题)
            put.setWriteToWAL(false);
            put.addColumn(Bytes.toBytes("familyName"), Bytes.toBytes("name"), Bytes.toBytes("tom" + i));
            put.addColumn(Bytes.toBytes("familyName"), Bytes.toBytes("age"), Bytes.toBytes(i % 20));
            htb.put(put);
            if(i % 1000 == 0){
                // 每put1000次进行一次缓冲区清理提交
                htb.flushCommits();
            }
        }
        // 提交剩余数据【如最后若不满1000次未提交的数据】
        htb.flushCommits();
    }
}

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值