1、cache,面向行级操作,只影响效率!
(1)每一个next()调用都会为每行数据生成一个单独的RPC请求,当单元格数据小时,这样做的性能不会很好,我们可以一次RPC请求获取多行数据,这样的方法由扫描器缓存实现,默认情况下,该缓存是关闭的。编程时可在两个层面打开扫描器缓存:表层面和扫描层面。
(2)代码
public void TestCache() throws Exception{
//初始化HBase的conf
Configuration conf = HBaseConfiguration.create();
//通过连接工厂创建连接
Connection conn = ConnectionFactory.createConnection(conf);
//通过连接获得表对象
Table table = conn.getTable(TableName.valueOf("test:t1"));
//使用scan方法从表中得到所有行的数据
Scan scan = new Scan();
//开启缓存,并设置缓存的大小,一次RPC请求获取10行数据
scan.setCaching(10);
System.out.println(scan.getCaching());
ResultScanner rs = table.getScanner(scan);
//打印显示结果行的所有细胞
Iterator<Result> it = rs.iterator();
while(it.hasNext()) {
List<Cell> cells = it.next().listCells();
System.out.println("===========================");
for (Cell cell : cells) {
String row = Bytes.toString(CellUtil.cloneRow(cell));
String cf = Bytes.toString(CellUtil.cloneFamily(cell));
String cq = Bytes.toString(CellUtil.cloneQualifier(cell));
String val = Bytes.toString(CellUtil.cloneValue(cell));
System.out.println(row + "/" + cf + "/" + cq + "/" + val);
}
}
//关闭资源
table.close();
conn.close();
}
2、Batch,面向列级操作
(1)批量处理,当有一列或几列的数据量非常大时,用户可以设定每次调用next()方法得到多少列(以行为单位)
(2)代码
public void TestBatch() throws Exception{
//初始化HBase的conf
Configuration conf = HBaseConfiguration.create();
//通过连接工厂创建连接
Connection conn = ConnectionFactory.createConnection(conf);
//通过连接获得表对象
Table table = conn.getTable(TableName.valueOf("test:t1"));
//使用scan方法从表中得到所有行的数据
Scan scan = new Scan();
//开启缓存,并设置缓存的大小,一次RPC请求获取10行数据
scan.setCaching(10);
//设置一次next()返回的列数
scan.setBatch(3);
System.out.println(scan.getCaching());
ResultScanner rs = table.getScanner(scan);
//打印显示结果行的所有细胞
Iterator<Result> it = rs.iterator();
while(it.hasNext()) {
List<Cell> cells = it.next().listCells();
System.out.println("===========================");
for (Cell cell : cells) {
String row = Bytes.toString(CellUtil.cloneRow(cell));
String cf = Bytes.toString(CellUtil.cloneFamily(cell));
String cq = Bytes.toString(CellUtil.cloneQualifier(cell));
String val = Bytes.toString(CellUtil.cloneValue(cell));
System.out.println(row + "/" + cf + "/" + cq + "/" + val);
}
}
//关闭资源
table.close();
conn.close();
}
3、综合练习
建立一张有两个列族的表,添加十行数据,每行的每个列族下有十列(每列只有一个版本),即共有200个单元格
缓存大小 | 批量处理 | result个数 | RPC次数 | 说明 |
---|---|---|---|---|
1 | 1 | 200 | 201 | 每个列都作为一个Result实例返回,最后还多一个RPC确认扫描完成 |
200 | 1 | 200 | 2 | 每个Result实例包含一列的值,他们都被一次RPC请求取回(加一次完成检查) |
2 | 10 | 20 | 11 | 每个Result实例包含十列的值,需要十次RPC请求取回(加一次完成检查) |
5 | 100 | 10 | 3 | 每个Result实例包含二十列的值,需要两次RPC请求取回(加一次完成检查) |
5 | 20 | 10 | 3 | 每个Result实例包含二十列的值,需要两次RPC请求取回(加一次完成检查) |
10 | 10 | 20 | 3 | 每个Result实例包含十列的值,需要两次RPC请求取回(加一次完成检查) |
RPC请求次数=(行数 x 列数) / min(每行列数,批量大小) / 缓存大小