HBase表百万数据插入

、Jamson

于 2019-01-03 00:26:03 发布

阅读量1.8k

点赞数

CC 4.0 BY-SA版权

分类专栏： HBase Java 文章标签： HBase

本文链接：https://blog.csdn.net/qq_41287993/article/details/85652030

Java 同时被 2 个专栏收录

51 篇文章

订阅专栏

HBase

4 篇文章

订阅专栏

本文介绍了在插入HBase表百万数据时提升效率的两种方法：关闭WAL写前日志以减少回滚需求，以及关闭自动清理缓冲区并手动清理以减少交互频率。这两种策略取决于业务对数据安全性和效率的需求。

摘要生成于 C知道，由 DeepSeek-R1 满血版支持，前往体验 >

HBase表百万数据插入

一、由于插入数据量较大，在这种情况下为提升效率有以下两种主要的优化手段：

1、关闭WAL写前日志：

写前日志个人理解是一种安全回滚机制，若机器在执行操作过程中机器宕机需要回滚的话，需要读取写前编辑日志进行数据回滚，防止数据的丢失，此处关闭的话为了提升效率，看业务场景，不是很重要的话可以选择关闭来提高插入效率。
Put对象调用setWriteToWAL(false);

2、关闭自动清理缓冲区，手动清理：

缓冲区入开启，缓冲区存在数据，数据就会进行自动的提交，每次提交的数据量很小，交互频繁也会影响插入效率，所以关闭缓冲区自动提交，手动进行提交也是一种优化手段，至于多久提交个人觉得需要看你机器内存性能来考虑。
HTable对象调用setAutoFlush(false);

代码如下：

import org.apache.hadoop.conf.Configuration;
import org.apache.hadoop.hbase.HBaseConfiguration;
import org.apache.hadoop.hbase.TableName;
import org.apache.hadoop.hbase.client.*;
import org.apache.hadoop.hbase.util.Bytes;

/**
 * @Author      王磊
 * @Date        2019/1/3
 * @ClassName   BigInsert
 * @Description HBase百万数据插入测试
 **/
public class BigInsert {
    public static void main(String[] args) throws Exception {
        Configuration conf = HBaseConfiguration.create();
        Connection conn = ConnectionFactory.createConnection(conf);
        TableName tbname = TableName.valueOf("nameSpaceName:tableName");
        HTable htb = (HTable)conn.getTable(tbname);
        // 关闭自动清理缓冲区（若开启，检测到缓冲区存在数据，就会进行一次数据的提交）
        htb.setAutoFlush(false);
        for(int i = 0 ; i < 1000000; i++){
            Put put = new Put(Bytes.toBytes("rowKey" + i));
            // 关闭写前日志（WAL主要用于写前数据的备份，用于回滚操作，关闭写前日志效率更高，但是有不能回滚到较新版本的问题）
            put.setWriteToWAL(false);
            put.addColumn(Bytes.toBytes("familyName"), Bytes.toBytes("name"), Bytes.toBytes("tom" + i));
            put.addColumn(Bytes.toBytes("familyName"), Bytes.toBytes("age"), Bytes.toBytes(i % 20));
            htb.put(put);
            if(i % 1000 == 0){
                // 每put1000次进行一次缓冲区清理提交
                htb.flushCommits();
            }
        }
        // 提交剩余数据【如最后若不满1000次未提交的数据】
        htb.flushCommits();
    }
}