
hive专栏
文章平均质量分 95
介绍hive相关的内容
一瓢一瓢的饮 alanchanchn
2023博客之星12
本科毕业于西安电子科技大学
硕士毕业于华东理工大学
长期从事软件、管理相关工作,擅长管理、一般应用系统开发、大数据开发,常见的框架、组件较为了解。
展开
专栏收录文章
- 默认排序
- 最新发布
- 最早发布
- 最多阅读
- 最少阅读
-
13、java api访问hive操作示例
本文依赖hive环境可用,特别是HiveServer2。本文仅仅介绍通过java api访问hive的数据。原创 2023-06-08 16:40:04 · 70527 阅读 · 0 评论 -
12、Hive优化-文件存储格式和压缩格式优化与job执行优化(执行计划、MR属性、join、优化器、谓词下推和数据倾斜优化)详细介绍及示例
Hive数据存储的本质还是HDFS,所有的数据读写都基于HDFS的文件来实现;为了提高对HDFS文件读写的性能,Hive提供了多种文件存储格式:TextFile、SequenceFile、ORC、Parquet等;不同的文件存储格式具有不同的存储特点,有的可以降低存储空间,有的可以提高查询性能。Hive的文件格式在建表时指定,默认是TextFile。原创 2023-06-08 16:32:35 · 69740 阅读 · 0 评论 -
11、hive综合应用示例:json解析、窗口函数应用(连续登录、级联累加、topN)、拉链表应用
拉链表的设计是将更新的数据进行状态记录,没有发生更新的数据不进行状态存储,用于存储所有数据在不同时间上的所有状态,通过时间进行标记每个状态的生命周期,查询时,根据需求可以获取指定时间范围状态的数据,默认用9999-12-31等最大值来表示最新状态。Hive中为了简化对于JSON文件的处理,内置了一种专门用于解析JSON文件的Serde解析器,在创建表时,只要指定使用JSONSerde解析表的文件,就会自动将JSON文件中的每一列进行解析。如果同步后的数据发送了变化,一般的解决办法如下。原创 2023-06-08 14:37:25 · 69811 阅读 · 0 评论 -
10、hive综合示例:数据多分隔符(正则RegexSerDe)、url解析、行列转换常用函数(case when、union、concat和explode)详细使用示例
Hive中也允许使用自定义InputFormat来解决以上问题,通过在自定义InputFormat,来自定义解析逻辑实现读取每一行的数据。原创 2023-06-08 10:13:45 · 69632 阅读 · 0 评论 -
9、hive的explode、Lateral View侧视图、聚合函数、窗口函数、抽样函数使用详解
1、apache-hive-3.1.2简介及部署(三种部署方式-内嵌模式、本地模式和远程模式)及验证详解2、hive相关概念详解–架构、读写文件机制、数据存储3、hive的使用示例详解-建表、数据类型详解、内部外部表、分区表、分桶表4、hive的使用示例详解-事务表、视图、物化视图、DDL(数据库、表以及分区)管理详细操作5、hive的load、insert、事务表使用详解及示例6、hive的select(GROUP BY、ORDER BY、CLUSTER BY、SORT BY、LIMIT、uni原创 2023-06-07 14:26:27 · 69829 阅读 · 0 评论 -
8、hive的关系运算、逻辑预算、数学运算、数值运算、日期函数、条件函数和字符串函数的语法与使用示例详解
详细的介绍了hive的关系运算、逻辑预算、数学运算、数值运算、日期函数、条件函数和字符串函数的语法与使用示例。本文介绍了hive的关系运算、逻辑预算、数学运算、数值运算、日期函数、条件函数和字符串函数的语法与使用示例。本分分为6个部分,即关系运算、逻辑预算、数学运算、数值运算、日期函数、条件函数和字符串函数。等等,自行去搜官方文档看吧,太多了。本文依赖hive可用。原创 2023-06-07 10:25:31 · 69539 阅读 · 0 评论 -
7、hive shell客户端与属性配置、内置运算符、函数(内置运算符与自定义UDF运算符)
通过show functions命令在hive客户端查看当下可用的所有函数;通过describe function extended funcname命令在hive客户端查看函数的使用方式。用户自定义函数简称UDF,源自于英文user-defined function。UDF(User-Defined-Function)普通函数,一进一出UDAF(User-Defined Aggregation Function)聚合函数,多进一出。原创 2023-06-07 09:57:16 · 69838 阅读 · 0 评论 -
6、hive的select(GROUP BY、ORDER BY、CLUSTER BY、SORT BY、LIMIT、union、CTE)、join使用详解及示例
order by全局排序,因此只有一个reducer,结果输出在一个文件中,当输入规模大时,需要较长的计算时间。distribute by根据指定字段将数据分组,算法是hash散列。sort by是在分组之后,每个组内局部排序。cluster by既有分组,又有排序,但是两个字段只能是同一个字段。如果distribute和sort的字段是同一个时,cluster by = distribute by + sort by。原创 2023-06-06 15:58:49 · 70286 阅读 · 0 评论 -
5、hive的load、insert、事务表使用详解及示例
比如,如果表具有分区,则load命令没有指定分区,则将load转换为INSERT AS SELECT,并假定最后一组列为分区列,如果文件不符合预期,则报错。由于使用了split-update,UPDATE是不会出现的,所以delta文件中的operation是0 , delete_delta 文件中的operation是2。详见Hive事务的支持段落。所有合并都是在后台完成的,不会阻止数据的并发读、写。对于DELETE语句,则为null,对于INSERT就是插入的数据,对于UPDATE就是更新后的数据。原创 2023-06-06 15:53:29 · 70643 阅读 · 0 评论 -
4、hive的使用示例详解-事务表、视图、物化视图、DDL(数据库、表以及分区)管理详细操作
Hive中的视图(view)是一种虚拟表,只保存定义,不实际存储数据。通常从真实的物理表查询中创建生成视图,也可以从已经存在的视图上创建新视图。创建视图时,将冻结视图的架构,如果删除或更改基础表,则视图将失败。视图是用来简化操作的,不缓冲记录,也没有提高查询性能。物化视图(Materialized View)是一个包括查询结果的数据库对像,可以用于预先计算并保存表连接或聚集等耗时较多的操作的结果。在执行查询时,就可以避免进行这些耗时的操作,而从快速的得到结果。原创 2023-06-06 10:08:34 · 70184 阅读 · 0 评论 -
3、hive的使用示例详解-建表、数据类型详解、内部外部表、分区表、分桶表
数据定义语言 (Data Definition Language, DDL),是SQL语言集中对数据库内部的对象结构进行创建,删除,修改等的操作语言,这些数据库对象包括database(schema)、table、view、index等。核心语法由CREATE、ALTER与DROP三个所组成。DDL并不涉及表内部数据的操作。-- |表示使用的时候,左右语法二选一。-- 建表语句中的语法顺序要和上述语法规则保持一致。原创 2023-06-06 09:20:08 · 83950 阅读 · 0 评论 -
2、hive相关概念详解--架构、读写文件机制、数据存储
用户接口包括 CLI、JDBC/ODBC、WebGUI。CLI(command line interface)为shell命令行Hive中的Thrift服务器允许外部客户端通过网络与Hive进行交互,类似于JDBC或ODBC协议WebGUI是通过浏览器访问Hive元数据存储通常是存储在关系数据库如 mysql/derby中。Hive 中的元数据包括表的名字,表的列和分区及其属性,表的属性(是否为外部表等),表的数据所在目录等。Driver驱动程序。原创 2023-06-05 14:16:46 · 71204 阅读 · 0 评论 -
1、apache-hive-3.1.2简介及部署(三种部署方式-内嵌模式、本地模式和远程模式)及验证详解
Apache Hive是一款建立在Hadoop之上的开源数据仓库系统,可以将存储在Hadoop文件中的结构化、半结构化数据文件映射为一张数据库表,基于表提供了一种类似SQL的查询模型,称为Hive查询语言(HQL),用于访问和分析存储在Hadoop文件中的大型数据集。Hive核心是将HQL转换为MapReduce程序,然后将程序提交到Hadoop群集执行。Hive由Facebook实现并开源。原创 2023-06-05 11:00:17 · 71721 阅读 · 0 评论 -
4、Sqoop job
sqoop在创建job时,使用–password-file参数,可以避免输入mysql密码,如果使用–password将出现警告,并且每次都要手动输入密码才能执行job,sqoop规定密码文件必须存放在HDFS上,并且权限必须是400。sqoop job可以将执行的语句(导入导出工作)变成一个job,在需要的时候执行。下面的命令用来验证保存Sqoop作业的列表。下面的命令用于创建一个从DB数据库的person表导入到HDFS文件的作业。比较简单,不再详细赘述。以上,简单的介绍了sqoop的作业使用。原创 2023-05-09 10:20:51 · 71473 阅读 · 0 评论 -
3、Sqoop导出(HDFS到RMDB-mysql)
将数据从Hadoop生态体系导出到RDBMS数据库导出前,目标表必须存在于目标数据库中。原创 2023-05-09 10:21:09 · 71998 阅读 · 0 评论 -
2、sqoop导入(RMDB-mysql、sybase到HDFS-hive)
导入工具”导入单个表从RDBMS到HDFS。表中的每一行被视为HDFS的记录。所有记录都存储为文本文件的文本数据导入数据目录可以发现多了一个文件里面就是增量数据。原创 2023-05-09 10:20:36 · 71563 阅读 · 0 评论 -
1、Apache Sqoop介绍及部署
安装文件下载地址:http://archive.apache.org/dist/sqoop/1.4.6/Apache Sqoop是在Hadoop生态体系和RDBMS体系之间传送数据的一种工具。Sqoop可以理解为:“SQL 到 Hadoop 和 Hadoop 到SQL”。官网地址:https://sqoop.apache.org/安装sqoop的前提是已经具备java和hadoop的环境。本文使用的前提是已经有可用的mysql数据库。原创 2023-05-09 10:19:14 · 71401 阅读 · 0 评论 -
1、通过亿级数据量在hive和impala中查询比较text、orc和parquet性能表现(二)
本文通过在hdfs中三种不同数据格式文件存储相同数量的数据,通过hive和impala两种客户端查询进行比较。本文前提:熟悉hadoop、hive和impala、kafka、flink等,并且其环境都可正常使用。(在后续的专栏中都会将对应的内容补全,目前已经完成了zookeeper和hadoop的部分。本文分为五个部分,即结论、三种文件介绍、需求、实现步骤、实现和网上别人的结论与验证。由于本文太长,导致阅读可能比较麻烦,故一篇文章分为两篇,第一篇是准备数据,第二篇是查询比较。本文是第二篇。本文接。原创 2023-05-02 17:59:56 · 72128 阅读 · 0 评论 -
1、通过亿级数据量在hive和impala中查询比较text、orc和parquet性能表现(一)
本文通过在hdfs中三种不同数据格式文件存储相同数量的数据,通过hive和impala两种客户端查询进行比较。本文前提:熟悉hadoop、hive和impala、kafka、flink等,并且其环境都可正常使用。(在后续的专栏中都会将对应的内容补全,目前已经完成了zookeeper和hadoop的部分。)本文分为一般建议,下面通过实际操作进行比较实现1亿条数据在hive和impala中不同sql的分析,比较text、orc、parquet三种文件存储格式的查询性能与存储大小。下面步骤中的将mysql通过M原创 2023-05-02 17:42:10 · 72338 阅读 · 0 评论