HBase的缓存和批量处理

本文介绍了HBase的缓存机制,包括面向行级操作的扫描器缓存,强调了开启缓存对提高效率的重要性。同时,讨论了批量处理在面对大量列数据时的应用,如何设定获取列的数量以优化性能。最后,通过一个综合练习展示了如何在实践中结合使用缓存和批量处理,以减少RPC请求次数。

摘要生成于 C知道 ,由 DeepSeek-R1 满血版支持, 前往体验 >

1、cache,面向行级操作,只影响效率!

(1)每一个next()调用都会为每行数据生成一个单独的RPC请求,当单元格数据小时,这样做的性能不会很好,我们可以一次RPC请求获取多行数据,这样的方法由扫描器缓存实现,默认情况下,该缓存是关闭的。编程时可在两个层面打开扫描器缓存:表层面和扫描层面。

(2)代码

public void TestCache() throws Exception{
    //初始化HBase的conf
    Configuration conf = HBaseConfiguration.create();
    //通过连接工厂创建连接
    Connection conn = ConnectionFactory.createConnection(conf);
    //通过连接获得表对象
    Table table = conn.getTable(TableName.valueOf("test:t1"));
    //使用scan方法从表中得到所有行的数据
    Scan scan = new Scan();
    //开启缓存,并设置缓存的大小,一次RPC请求获取10行数据
    scan.setCaching(10);
    System.out.println(scan.getCaching());
    ResultScanner rs = table.getScanner(scan);
    //打印显示结果行的所有细胞
    Iterator<Result> it = rs.iterator();
    while(it.hasNext()) {
        List<Cell> cells = it.next().listCells();
        System.out.println("===========================");
        for (Cell cell : cells) {
            String row = Bytes.toString(CellUtil.cloneRow(cell));
            String cf = Bytes.toString(CellUtil.cloneFamily(cell));
            String cq = Bytes.toString(CellUtil.cloneQualifier(cell));
            String val = Bytes.toString(CellUtil.cloneValue(cell));
            System.out.println(row + "/" + cf + "/" + cq + "/" + val);
        }
    }
    //关闭资源
    table.close();
    conn.close();
}

2、Batch,面向列级操作

(1)批量处理,当有一列或几列的数据量非常大时,用户可以设定每次调用next()方法得到多少列(以行为单位)

(2)代码

public void TestBatch() throws Exception{
    //初始化HBase的conf
    Configuration conf = HBaseConfiguration.create();
    //通过连接工厂创建连接
    Connection conn = ConnectionFactory.createConnection(conf);
    //通过连接获得表对象
    Table table = conn.getTable(TableName.valueOf("test:t1"));
    //使用scan方法从表中得到所有行的数据
    Scan scan = new Scan();
    //开启缓存,并设置缓存的大小,一次RPC请求获取10行数据
    scan.setCaching(10);
    //设置一次next()返回的列数
    scan.setBatch(3);
    System.out.println(scan.getCaching());
    ResultScanner rs = table.getScanner(scan);
    //打印显示结果行的所有细胞
    Iterator<Result> it = rs.iterator();
    while(it.hasNext()) {
        List<Cell> cells = it.next().listCells();
        System.out.println("===========================");
        for (Cell cell : cells) {
            String row = Bytes.toString(CellUtil.cloneRow(cell));
            String cf = Bytes.toString(CellUtil.cloneFamily(cell));
            String cq = Bytes.toString(CellUtil.cloneQualifier(cell));
            String val = Bytes.toString(CellUtil.cloneValue(cell));
            System.out.println(row + "/" + cf + "/" + cq + "/" + val);
        }
    }
    //关闭资源
    table.close();
    conn.close();
}

3、综合练习

建立一张有两个列族的表,添加十行数据,每行的每个列族下有十列(每列只有一个版本),即共有200个单元格

缓存大小批量处理result个数RPC次数说明
11200201每个列都作为一个Result实例返回,最后还多一个RPC确认扫描完成
20012002每个Result实例包含一列的值,他们都被一次RPC请求取回(加一次完成检查)
2102011每个Result实例包含十列的值,需要十次RPC请求取回(加一次完成检查)
5100103每个Result实例包含二十列的值,需要两次RPC请求取回(加一次完成检查)
520103每个Result实例包含二十列的值,需要两次RPC请求取回(加一次完成检查)
1010203每个Result实例包含十列的值,需要两次RPC请求取回(加一次完成检查)

RPC请求次数=(行数 x 列数) / min(每行列数,批量大小) / 缓存大小

 

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值