Hive
文章平均质量分 93
jast_zsh
这个作者很懒,什么都没留下…
展开
专栏收录文章
- 默认排序
- 最新发布
- 最早发布
- 最多阅读
- 最少阅读
-
Hive窗口函数详细介绍
Hive 窗口函数是一种高级查询技术,用于对分组数据进行聚合计算,并且可以在数据分组内对每行数据进行排序和取值范围的过滤。与普通的聚合函数(如 SUM、MAX 等)不同的是,窗口函数可以同时获取每个数据行内的计算结果和数据群组/分区内部的排名、比例等信息,同时避免了使用 self-join 等操作来完成计算,使得运算效率更高。原创 2023-05-30 23:15:00 · 2830 阅读 · 0 评论 -
Spark 创建 hive表报错 ROW FORMAT DELIMITED is only compatible with 'textfile', not 'parquet'
场景:在spark分析数据时,创建hive表失败。提示异常 :19/10/09 10:59:18 INFO execution.SparkSqlParser: Parsing command: CREATE EXTERNAL TABLE IF NOT EXISTSdm_xxx.user_area(biFollowersCount String,city String,creat...原创 2019-10-09 13:47:28 · 4544 阅读 · 0 评论 -
Hadoop Kerberos 认证下 Sentry 安装 + Sentry 权限设置使用
目录一、安装Sentry1.MariaDB中创建sentry数据库2.CDH中添加sentry 服务3.hive配置 启动Sentry4.Impala配置 启动Sentry5.Hue配置 启动Sentry6.Hdfs配置 启动Sentry7.重启服务,使配置生效二、Sentry权限测试1.创建hive超级用户 1.1 创建kerberos hive用户...原创 2019-08-11 15:36:26 · 8977 阅读 · 0 评论 -
基于 Sentry Hive 权限控制命令详解
Sentry不支持Hive CLI列权限管理,建议禁用Hive CLI。 (也不支持SparkSql列权限管理)#权限分为 SELECT ,INSERT ,ALL#查看所有roleshow roles; #创建role create role role_name; #删除roledrop role role_name; #将某个数据库读权限授予给某个roleGRAN...原创 2019-08-11 18:05:26 · 6611 阅读 · 1 评论 -
Spark 调用 hive使用动态分区插入数据
spark 调用sql插入hive 失败 ,执行语句如下spark.sql("INSERT INTO default.test_table_partition partition(province,city) SELECT xxx,xxx md5(province),md5(city) FROM test_table")报错如下,需动态插入分区Exception in thre...原创 2019-07-24 17:11:39 · 31248 阅读 · 1 评论 -
Hive表 Parquet压缩 , Gzip,Snappy,uncompressed 效果对比
创建两张表,通过一种是parquet , 一种使用parquet snappy压缩创建表使用snappyCREATE EXTERNAL TABLE IF NOT EXISTS tableName(xxx string)partitioned by(pt_xvc string)ROW FORMAT DELIMITEDFIELDS TERMINATED BY '\001'S...原创 2019-03-11 10:07:55 · 10773 阅读 · 3 评论 -
Hive 外部表关联分区数据
0. 说明已经安装好Hadoop和hive环境,hive把元数据存储在mysql数据库。这里仅讨论外部表和HDFS的关联,并且删掉外部表之后,对HDFS上的文件没有影响。1. 在HDFS创建分区,并存有文件手工创建或者由程序在HDFS上生成了分区目录,每个分区目录下有相应的文件。本例中根据day分了两个分区,如下所示:/test/in/day=20/20.txt/test/...转载 2019-01-29 11:01:36 · 2340 阅读 · 0 评论 -
Hive 行转列,列传行 - Impala 暂不支持
注:Impala 不支持 lateral view explode 一、行转列 (对某列拆分,一列拆多行)使用函数:lateral view explode(split(column, ',')) numeg: 如表:t_row_to_column_tmp 数据如下,对tag列进行拆分SQL代码:select id,tag,tag_new from t_row_to_...转载 2019-01-29 09:40:57 · 6569 阅读 · 1 评论 -
Hive 禁止提交 大范围磁盘扫描任务(禁止提交where条件包含未分区过滤)
参考书籍:Hive编程指南 如果用户需要做一个查询,查询条件是全盘扫描。Hive会不得不读取每个文件目录,但这种宽范围的磁盘扫描还是比较少见的。 但是,如果表中的数据以及分区个数都非常大的话,执行这样一个包含有所有分区的查询可能会触发一个巨大的MapReduce任务。一个高度建议的安全措施就是将Hive设置为“strict(严格)”模式,这样如果对分区表进行查询而WHERE子句没有加...原创 2019-01-21 15:19:45 · 1125 阅读 · 0 评论 -
Hive 分区表操作 创建、删除
删除某个分区指定数据ALTER TABLE tableName DROP PARTITION (times = 201851);ALTER TABLE user_portrait_task DROP PARTITION (times > 201801);原创 2018-12-29 14:46:49 · 1050 阅读 · 0 评论 -
Hive日期函数
1.unix时间戳转时间函数语法: from_unixtime(bigint unixtime[, string format])返回值: string说明: 转化UNIX时间戳(从1970-01-01 00:00:00 UTC到指定时间的秒数)到当前时区的时间格式举例:hive> select from_unixtime(1323308943,‘yyyyMMdd’) ...转载 2018-11-28 10:40:00 · 39727 阅读 · 0 评论 -
Hive 大小表关联查询异常
异常原因:mr将数据量小的表识别成了大表,数据量大的识别成小表,导致将数据量大的表加入到内存,导致程序异常 处理方法:set hive.execution.engine=mr;set hive.mapjoin.smalltable.filesize=55000000;set hive.auto.convert.join = false; #取消小表加载至内存中异常信息WARN...原创 2018-11-21 15:39:41 · 13801 阅读 · 6 评论 -
Hive Shell
目录hive是否执行mr创建数据库指定目录删除数据库显示表信息/表结构查看表示内部表还是外部表拷贝一张已经存在的表的表模式(而无需拷贝数据)复制一张表(包括数据)hive-cli 显示当前所在数据库执行命令不进入hive交互模式hive关联hbase表创建外部表查询数据保存到linux系统创建内部表创建parquet格式snappy压缩...原创 2018-11-21 13:32:56 · 13143 阅读 · 0 评论 -
Hive - HWI 简单使用
进入HWI web页面查看数据库中的表:单击Create Session,并输入任务名称(自定义)输入相关信息Result File:结果输出文件Error File:错误输出文件(可不填)Query:需要执行的语句,一些需要设置的参数也在这里面进行Start Query:选择Yes,默认是No则为不执行,只保存写入的信息注:结果输出文件事先不存在,则为创建...原创 2018-09-21 14:04:35 · 20928 阅读 · 0 评论 -
CDH- Hive HWI 配置
目录 一、HWI安装二、其中遇到一些问题:1.遇到如下问题,将jre环境中的toos.jar 服务到lib目录下2.CDH中没有hwi相关配置参数,手动加入并修改端口为9998,发现并未生效,暂时未找到原因所在。一、HWI安装通过查看《Hadoop权威指南》发现hive有 hwi功能研究一下看看是否方便执行[root@test111 lib]# hive --...原创 2018-09-21 11:23:42 · 1170 阅读 · 0 评论
分享