
hive
文章平均质量分 89
走向自由
追随自己内心的声音,走向自由。
展开
专栏收录文章
- 默认排序
- 最新发布
- 最早发布
- 最多阅读
- 最少阅读
-
Hive 连接 secured ES 踩坑日记
hive 1.2es cluster: 6.8.2 [secured ES, SSL]我把证书文件上传到HDFS上,然后使用hdfs路径,可惜不认识。改成file:///path/to/*.p12 上述问题解决。 可以看到加载证书的日志:原创 2022-07-12 18:57:25 · 872 阅读 · 0 评论 -
Hive UDF 自定义函数
0. 环境Java 1.8.0Hive 1.1gradle 5.6.4引入依赖:compileOnly 'org.apache.hive:hive-exec:1.1.1'compile 'org.apache.hadoop:hadoop-common:2.7.1'曾经碰到的错误:Could not find org.pentaho:pentaho-aggdesigner-algorithm:5.1.5-jhyde. Searched in the fol...原创 2020-12-23 15:48:43 · 184 阅读 · 0 评论 -
Hive之Partition自动添加
来源:https://www.cnblogs.com/hello-wei/p/11996646.htmlMSCK REPAIR TABLE命令主要是用来解决通过hdfs dfs -put或者hdfs api写入hive分区表的数据在hive中无法被查询到的问题。我们知道hive有个服务叫metastore,这个服务主要是存储一些元数据信息,比如数据库名,表名或者表的分区等等信息。如果不是通过hive的insert等插入语句,很多分区信息在metastore中是没有的,如果插入分区数据量很多的话..转载 2020-07-31 18:03:55 · 1522 阅读 · 0 评论 -
Hive之数据倾斜(data skew)
只是总结帖,来源:https://www.cnblogs.com/HuZihu/p/12742931.html什么是数据倾斜(Data Skew)?数据倾斜是指在原本应该并行处理的数据集中,某一部分的数据显著多于其它部分,从而使得该部分数据的处理速度成为整个数据集处理的瓶颈。假设数据分布不均匀,某个key对应几十万条数据,其他key对应几百条或几十条数据,那么在处理数据的时候,大量相同的key会被分配(partition)到同一个分区里,造成"一个人累死,其他人闲死“的情况,具体表现在:有.转载 2020-07-24 16:57:46 · 939 阅读 · 0 评论 -
Hive 之 map join 和 left semi join 区别
上一篇hive 常见join从原理上讲解了他们的区别,这篇文章通过例子来区别。0 Data Preparecreate table test.student asselect 1 as id, 'jack' as nameunion allselect 2 as id, 'jack' as nameunion allselect 3 as id, 'jerry' as nameunion allselect 4 as id, 'tom' as name;crea...原创 2020-07-24 16:35:27 · 809 阅读 · 0 评论 -
Hive之常用join
Hive 有很多join,这里主要讲述常用的三种join。0 Map Reduce1 Common Join最为普通的join策略,不受数据量的大小影响,也可以叫做reduce side join ,最没效率的一种join 方式. 它由一个mapreduce job 完成.首先将大表和小表分别进行map 操作, 在map shuffle 的阶段每一个map output key 变成了table_name_tag_prefix + join_column_value ,..原创 2020-07-24 15:53:36 · 565 阅读 · 0 评论 -
Hive之not in优化
来源:https://www.cnblogs.com/starzy/p/11146056.html比如:A,B两表,找到ID字段中,存在A表,但不存在B表的数据。 A表共13w,去重后3w, B表共2W,且有索引方法一not in,易理解,效率低,时间:1.395sselect distinct A.id from A where A.id not in(select id from B)方法二le...转载 2020-07-22 18:30:48 · 1741 阅读 · 0 评论 -
Hive之bucket表使用场景
来源:https://www.cnblogs.com/duanxingxing/p/5156951.html前言bucket table(桶表)是对数据进行哈希取值,然后放到不同文件中存储;应用场景当数据量比较大,我们需要更快的完成任务,多个map和reduce进程是唯一的选择。但是如果输入文件是一个的话,map任务只能启动一个。此时bucket table是个很好的选择,通过指定CLUSTERED的字段,将文件通过hash打散成多个小文件。create ta...转载 2020-07-22 18:24:57 · 603 阅读 · 0 评论 -
导出hive数据库建表语句到git库
因为当前prod环境和本地开发环境有网络隔离,不能直接访问,故导出的hive数据库建表语句打包压缩后上传到HDFS上,再手动下载到本地,上传到Git;STEP 1:到处建表语句,压缩打包上传到HDFS;STEP 2:手动下载建表语句包,解压移动到git代码库;文件名: export_create.sh#!/bin/bash# SETP 1:# export table create script and put it into HDFS directory for down..原创 2020-06-30 11:52:06 · 299 阅读 · 0 评论 -
【大数据环境篇二】Hive 本地环境搭建概述(四种运行模式)
Hive 3.1.2Table of ContentsHive 3.1.21 共用配置信息1.1 配置Hadoop安全设置1.2 创建数据存放目录2. Hive 运行模式2.1 Embedded Database + Embedded Metastore Server模式2.2 Embedded Database + Remote Metastore Server ...原创 2020-03-17 23:15:44 · 475 阅读 · 0 评论 -
Hive 运行模式总结
Hive 基础概念Hive是基于Hadoop的一个数据仓库,Hive能够将SQL语句转化为MapReduce任务进行运行。 Hive架构图分为以下四部分。 1、用户接口 Hive有三个用户接口: 命令行接口(CLI):以命令行的形式输入SQL语句进行数据数据操作 Web界面:通过Web方式进行访问。 Hive的远程服务方式:通过JDBC等...原创 2020-03-15 22:51:14 · 967 阅读 · 0 评论 -
Spark SQL 连接 Hive
Spark version: 2.4.5Hive version: 3.1.2准备测试数据:> bin/hiveserver2> beeline -u jdbc:hive2://localhost:10000 -n rootcreate table default.member_phone as select '00001' as member_srl, '...原创 2020-03-18 22:45:49 · 437 阅读 · 0 评论 -
Hive 本地环境搭建
Hive version: 3.1.2System: macOSMojave 10.14.4Run on Hadoop 2.10.0安装准备Java 8https://www.jianshu.com/p/6289bd0bb69cHadoop 2.10.0https://blog.csdn.net/adorechen/article/details/1045...原创 2020-03-12 22:22:38 · 700 阅读 · 0 评论 -
hive2 GettingStarted的那些坑
最近开始学习Hive,照着官方文档https://cwiki.apache.org/confluence/display/Hive/GettingStarted#GettingStarted-RunningHiveServer2andBeeline做的时候,在启动hiveserver2的时候,踩到一些坑,记录下。异常1 :User: *** is not allowed to impe原创 2018-01-25 11:08:17 · 2451 阅读 · 0 评论