Hive Transaction

最新推荐文章于 2025-01-30 00:50:41 发布

爱知菜

最新推荐文章于 2025-01-30 00:50:41 发布

阅读量851

点赞数

分类专栏： Hadoop/Spark/Hive

Hadoop/Spark/Hive 专栏收录该内容

72 篇文章

订阅专栏

http://www.aboutyun.com/thread-21615-1-1.html

好文章

Hive从0.13开始加入了事务支持，在行级别提供完整的ACID特性，Hive在0.14时加入了对INSERT...VALUES,UPDATE,and DELETE的支持。对于在Hive中使用ACID和Transactions，主要有以下限制：

不支持BEGIN,COMMIT和ROLLBACK
只支持ORC文件格式
表必须分桶
不允许从一个非ACID连接写入/读取ACID表

为了使Hive支持事务操作，需将以下参数加入到hive-site.xml文件中。

<property>

<name>hive.support.concurrency</name>

<value>true</value>

</property>

<property>

<name>hive.enforce.bucketing</name>

<value>true</value>

</property>

<property>

<name>hive.exec.dynamic.partition.mode</name>

<value>nonstrict</value>

</property>

<property>

<name>hive.txn.manager</name>

<value>org.apache.hadoop.hive.ql.lockmgr.DbTxnManager</value>

</property>

<property>

<name>hive.compactor.initiator.on</name>

<value>true</value>

</property>

<property>

<name>hive.compactor.worker.threads </name>

<value>1</value>

</property>

当hive.support.concurrency=True,就会共享锁和排它锁出现干预查询

hive未配置Transaction和ACID，不支持delete和update操作

create table test_trancaction
(user_id Int,name String)
clustered by (user_id) into 3 buckets stored as orc TBLPROPERTIES ('transactional'='true');

确定要放弃本次机会？

福利倒计时

: :

立减 ¥

普通VIP年卡可用

立即使用

爱知菜

关注关注

0
点赞
踩
1

收藏

觉得还不错? 一键收藏
0
评论
分享

复制链接

分享到 QQ

分享到新浪微博

扫一扫
举报

举报

专栏目录

Hive（20）：Transaction事务

u013938578的博客

07-10

1152

原因很简单，毕竟Hive的设计目标不是为了支持事务操作，而是支持分析操作，且最终基于HDFS的底层存储机制使得文件的增加删除修改操作需要动一些小心思。Hive本身从设计之初时，就是不支持事务的，因为Hive的核心目标是将已经存在的结构化数据文件映射成为表，然后提供基于表的SQL分析处理，是一款面向分析的工具。这个定位就意味着在早期的Hive的SQL语法中是没有update，delete操作的，也就没有所谓的事务支持了，因为都是select查询分析操作。

数仓工具—Hive进阶之事务初识 Transactional Tables(2)

热门推荐

12-28

6万+

在我们使用的hive中一般它是不会支持事务的，因为hive的存储基于HDFS，HDFS 的文件，只能允许新建，删除，对文件中的内容进行更新，不允许单条修改，这也就是hive 不支持update和delete功能的原因 Hive 开始支持事务，是在 Hive 0.14 之后，如果一个表要实现update和delete功能，该表就必须支持ACID

参与评论您还未登录，请先登录后发表或查看评论

Hive Transactions (Hive 事务)

qq_36864672的博客

12-18

587

ACID代表了数据库事务的四个特征：原子性(一个操作要么完全成功，要么失败，绝不会留下部分数据) 、一致性(一旦应用程序执行了一个操作，该操作的结果在它以后的每个操作中都是可见的)、隔离性(一个用户未完成的操作不会对其他用户造成意外影响)，以及持久性(一旦一个操作完成，它将保持下来，即便面对机器故障或系统故障)。一直以来，这些特性被认为是数据库系统事务功能的一部分。截止到 0.13，Hive都只提供分区级别的原子性、一致性和持久性。可以通过打开一种可用的锁机制(Zookeeper或内存)来提供隔离性。

Hive Transaction(Hive 事务管理)

houzhizhen的专栏

03-01

4142

Hive 事务管理是 Hive 3 的重要内容。

Hive Transaction事务表（含实现原理）

喻师傅的学习笔记

05-09

1764

hive事务表

hive的事物性 transaction manager

weixin_30415113的博客

01-18

205

create table lk3 (id string,nname string,grade int,goldUser int); insert into lk3 values (1,'jack',300, 10 ), (2,'mach', 200, 10 ), (3,'lich', 100 ,10 ), (4,'rock', 1, 0 ), (5,'mick', 1 ,10 ...

Hive 实验

lijie2049的博客

11-06

1569

//创建数据库并导入数据 1. create database{database_name}; 2.use{database_name}; 3. create table docs(line string); 4. load data inpath '/training/{student_name}/inceptor_data/wordcount' into table docs; //创建结果表 create table wc(word string, totalword int)...

hadoop生态之hive

运维Linux和python

02-18

820

序言大数据的生态包含各种各样的组件，hive是其中之一，hive主要是作为数据仓库的工具，简化相关人员的代码工作，只要编写简单的SQL就可以实现mapreduce效果。...

使用JDBC方式访问Hive

CSDN2022博客之星Top39；华为云博主7&，CSDN、稀土掘金、微信公众号、阿里云开发者社区、腾讯云社区、博客园、知乎、51CTO同名博主WHYBIGDATA；

01-30

373

使用JDBC方式访问Hive

hive小操作·关于 spark2.4-读取hive3.1事务表

concealed0的博客

08-22

5293

版本信息： spark2.4 hive3.1.1 异常情况：使用 alter table * compact 'major'后，spark仍无法读取hive事务表中数据具体流程如下 1、建表语句 create table sugon_transaction(id Int,name String) clustered by (name) into 3 buckets stored ...

delete hive_hive配置表transactional支持删除delete和update修改

weixin_39603217的博客

12-30

1144

hive 默认支持insert,但不支持update和delete,需要自己手动配置1.hive-site.xml修改根据官网：https://cwiki.apache.org/confluence/display/Hive/Hive+Transactionshive-site.xml客户端服务端添加配置：hive.support.concurrencytruehive.enforce.bucke...

Hive 事务表 (Transactional Tables)

渐渐的忘记，赶不上明天（读研ing，2024年毕业）

10-31

5149

1. 为什么要使用事务表？ 2. 创建使用事务表

【Hive实战】Hive的事务表

顧棟的博客

07-19

2773

Hive 事务表简介

Hive --beeline客户端 --常用操作命令 --一些小知识点

Quincylk的专栏

01-10

3990

原文：https://blog.csdn.net/qq_41028958/article/details/80861531 HIVE BeenLine客户端-常用命令支持多链接启动hiveserver2服务。接受多个客户端连接请求使得client通过JDBC连接操纵hive数据仓库 ------------------------------------------- [hado...

hive写mysql事物,数据库事务–转载

weixin_42523975的博客

03-19

164

对于数据库博主也不是那么精通，现在需要学习HIVE，之前也接触过mysql,HIVE和mysql虽然也很大的相同但是也存在差异性，比如不需要主键，支持事务(ps：这篇文章就是讲解事务的原理，其实我也不清楚)事务(Transaction)是并发控制的基本单位。所谓的事务，它是一个操作序列，这些操作要么都执行，要么都不执行，它是一个不可分割的工作单位。例如，银行转账工作：从一个账号扣款并使另一个账号增...

hive之事务表

小王是个弟弟

05-14

3701

hive 事务表

Hive事务表

千里之行始于足下

01-26

5411

首先先说下 thrift方式先启动 hiveserver2服务然后以beeline形式启动./beeline -u jdbc:hive2://localhost:10000 -n root –silent=true配置thrift 需要允许某些用户在hadoop的core-site.xml中添加<property> <name>hadoop.proxyuser.root.hos

hive-事务支持配置

weixin_43209528的博客

08-23

2352

一、写在前面 hive一般是不会支持事务的，因为hive的存储基于hdfs，hdfs的数据是以块为单位的，一次写入多次读取，说明hadoop不希望我们修改或者删除数据的一部分。但是，继0.13.0版本之后，hive开始支持事务处理。如果想要hive支持事务处理，需要进行一些配置，并且有一些限制。 1.1 update delete 1.2 hive本身是不能支持事务处理的（update delete ） 1.3 但是我们可以修改属性实现hive的事务操作 ①添加在hive-site.xml文件中 &

hive-事务支持

weixin_41122339的博客

08-17

1万+

一、事务在我们使用的hive中一般他是不会支持事务的，因为hive的存储基于hdfs，hdfs他每个数据都是一块，我们都成为一次写入多次读取，说明hadoop不希望你修改，或者删除数据的一部分，但有些同志没，还是想体验一下删除的快感，那么我们介绍一下关系型数据库的事务: 一、事务的基本要素（ACID）　　1、原子性（Atomicity）：事务开始后所有操作，要么全部做完，要么全部不...

hive应用

最新发布

03-21

### Hive 的应用场景及其实现方式 #### 应用场景概述 Hive 是一种构建于 Hadoop 之上的数据仓库工具，它允许用户通过类 SQL 查询语言（称为 HiveQL）来查询存储在分布式文件系统中的大规模数据集。由于其高效的批处理能力以及与 Hadoop 生态系统的无缝集成，Hive 成为了大数据分析领域的重要工具之一[^1]。以下是 Hive 的一些典型应用场景： --- #### 场景一：统计分析对于需要定期汇总统计数据的需求，Hive 提供了一种简单易用的方式来进行批量计算。例如，在电商平台上，可以使用 Hive 来统计用户的访问行为并生成报告。具体来说，可以通过以下 SQL 实现对每个用户每月最大单月访问次数和累计总访问次数的统计[^2]: ```sql WITH monthly_visits AS ( SELECT user_id, YEAR(time) AS year, MONTH(time) AS month, COUNT(*) AS visit_count FROM taobao_user_data1 GROUP BY user_id, YEAR(time), MONTH(time) ), cumulative_visits AS ( SELECT mv.user_id, mv.year, mv.month, MAX(mv.visit_count) OVER (PARTITION BY mv.user_id ORDER BY mv.year, mv.month ROWS BETWEEN UNBOUNDED PRECEDING AND CURRENT ROW) AS max_monthly_visit, SUM(mv.visit_count) OVER (PARTITION BY mv.user_id ORDER BY mv.year, mv.month ROWS BETWEEN UNBOUNDED PRECEDING AND CURRENT ROW) AS cumulative_total_visit FROM monthly_visits mv ) SELECT * FROM cumulative_visits; ``` 上述代码展示了如何利用窗口函数 `MAX` 和 `SUM` 对数据进行分组聚合，并进一步计算出每个月的最大单月访问次数和累积访问总数。 --- #### 场景二：日志数据分析许多互联网服务会产生大量的日志数据，这些数据通常以结构化或半结构化的形式存在。Hive 可用于加载此类日志数据并对它们执行复杂的查询操作。例如，假设有一个名为 `access_logs` 的表，其中包含了 Web 请求的时间戳、IP 地址和其他相关信息，则可以用如下语句提取特定时间段内的请求分布情况: ```sql SELECT hour, count(*) FROM ( SELECT HOUR(FROM_UNIXTIME(unix_timestamp)) as hour FROM access_logs WHERE date >= '2023-01-01' AND date <= '2023-01-31' ) subquery GROUP BY hour ORDER BY hour ASC; ``` 此脚本会返回指定日期范围内每小时收到的请求数量，从而帮助运维人员监控服务器负载变化趋势[^3]。 --- #### 场景三：ETL 处理流程除了作为最终的数据展示层之外，Hive 还经常被用来完成 Extract-Transform-Load (ETL) 流程的一部分工作。比如当接收到原始交易记录之后，可能先要对其进行清洗转换后再存入目标数据库中去支持后续业务逻辑开发。下面是一个简单的例子说明怎样创建一张新表并将外部 CSV 文件的内容导入进来： ```sql -- 创建目标表定义 CREATE TABLE IF NOT EXISTS cleaned_transactions ( transaction_id STRING, customer_name STRING, product_category STRING, purchase_amount DOUBLE, timestamp BIGINT ); -- 加载来自本地磁盘路径下的 f.txt 数据源至临时外置表 LOAD DATA LOCAL INPATH '/path/to/f.txt' INTO TABLE temp_table; -- 执行 ETL 转换逻辑后写回到正式的目标表里头 INSERT INTO cleaned_transactions SELECT t.transaction_id, t.customer_name, CASE WHEN category='A' THEN 'Electronics' ELSE 'Other Goods' END, amount*exchange_rate, current_unix_time() FROM raw_input_table r JOIN exchange_rates e ON r.currency_code=e.code LEFT OUTER JOIN tax_adjustments a USING(account_number); ``` 以上片段演示了一个完整的端到端过程——从读取初始输入直到最后保存经过加工后的成果。 --- #### 总结综上所述，Hive 不仅适用于传统的报表生成功能，而且还能胜任诸如实时流式处理前预准备阶段的任务或者复杂模式匹配查找等工作负荷较重的情形下表现优异。凭借灵活强大的语法特性加上背后依托的强大 MapReduce 计算框架支撑，使得它成为现代企业级解决方案不可或缺的一员大将^。 ---