
Hive-大象蜂
文章平均质量分 58
_东极
少年锦时
展开
专栏收录文章
- 默认排序
- 最新发布
- 最早发布
- 最多阅读
- 最少阅读
-
hive报错Error: GC overhead limit exceeded
事故缘由根据yarn上资源使用情况,发现集群的内存,cpu,核数都正常,但是数据导入任务执行 88%后,就出现GC overhead limit exceeded , 根据生成的执行日志,发现数据导入只有map 任务,数据量级别在几千万的数据量设置jvm参数set mapred.child.java.opts=-Xmx8000m;set mapreduce.map.java.opts=-Xmx8096m;set mapreduce.reduce.java.opts=-Xmx8096m;set原创 2021-08-23 11:09:04 · 3444 阅读 · 1 评论 -
hive3.x 安装
文章目录地址MySql安装报错初始化Hive元数据库报错地址1)Hive官网地址http://hive.apache.org/2)文档查看地址https://cwiki.apache.org/confluence/display/Hive/GettingStarted3)下载地址http://archive.apache.org/dist/hive/4)github地址https://github.com/apache/hiveMySql安装在CDP中建议推荐使用MariaDB 作为h原创 2021-02-09 16:26:54 · 781 阅读 · 1 评论 -
解析hive的元数据库中表以及字段含义
文章目录hive的元数据信息记录在mysql中,对于mysql中表有的时候没有深刻的认知原创 2020-05-26 01:18:31 · 792 阅读 · 0 评论 -
Hive JsonSerde
githup地址https://github.com/rcongiu/Hive-JSON-Serdejar包下载地址http://www.congiu.net/hive-json-serde将下载好的jar包上传到hive的lib目录下创建表create table employees(name string,salary int) " row format serde 'org.op...原创 2020-05-05 22:09:53 · 561 阅读 · 0 评论 -
hive直接插入分区表报错
set hive.exec.dynamic.partition=true;set hive.exec.dynamic.partition.mode=nonstrict;insert overwrite table B select * from A;对于数据量过多,会造成资源不够,报错,可以考虑分批次导入...原创 2020-03-18 00:59:18 · 1003 阅读 · 0 评论 -
如何使用hive on spark
使用jdbc连接hive时,加上参数set hive.execution.engine=spark Class.forName(hiveDriver); Connection conn = null; Statement pstmt = null; ResultSet rs = null; c...原创 2020-03-01 23:58:09 · 880 阅读 · 1 评论 -
误删hive表如何恢复
CDH环境,已配置回收站,配置回收站默认日期保存为一天失误将hive表数据删除,删除的数据移动到了回收站中,位于/user/hive/.Trash/删除日期XXX/hive/warehouse数据库名.db/表名 先查看表名文件中是否是删除的表hadoop fs -ls /user/hive/.Trash/Currerrt/user/hive/warehouse/数据库据库名.db | ...原创 2020-02-16 23:56:55 · 3544 阅读 · 0 评论 -
hive自定义udf函数
在创建自定义函数时,需要将jar包全部部署到hive server节点的所有机器的用户定义的udf参数目录<property>hive.reloadable.aux.jars.path.jars.path.property</property><value>/usr/lib/hive/lib</value>代码调用import org.ap...原创 2020-01-14 22:50:01 · 720 阅读 · 0 评论 -
hive自定义udf函数hive-exec下载依赖不全
修改pom.xml<?xml version="1.0" encoding="UTF-8"?><project xmlns="http://maven.apache.org/POM/4.0.0" xmlns:xsi="http://www.w3.org/2001/XMLSchema-instance" xsi:schemaLocation=...原创 2020-01-14 22:35:14 · 1523 阅读 · 0 评论 -
(15)Hive的调优
文章目录Fetch抓取本地模式表的优化小表、大表Join大表Join大表空KEY过滤空key转换MapJoin(小表join大表)Group ByCount(Distinct) 去重统计笛卡尔积行列过滤动态分区调整案例实操合理设置Map及Reduce数复杂文件增加Map数小文件进行合并合理设置Reduce数并行执行严格模式JVM重用推测执行执行计划(Explain)Fetch抓取Fetch抓取...原创 2019-10-30 00:00:25 · 402 阅读 · 0 评论 -
(14)Hive基于hadoop的压缩
文章目录MR支持的压缩编码压缩参数配置开启Map输出阶段压缩开启Reduce输出阶段压缩文件存储格式列式存储和行式存储TextFile格式Orc格式Parquet格式主流文件存储格式对比实验1.TextFile修改Hadoop集群具有Snappy压缩方式测试存储和压缩MR支持的压缩编码压缩格式工具算法文件扩展名是否可切分DEFLATE无DEFLATE.defla...原创 2019-10-29 23:13:46 · 496 阅读 · 0 评论 -
(13)Hive函数(waiting)
文章目录系统内置函数自定义函数自定义UDF函数系统内置函数1.查看系统自带的函数hive> show functions;2.显示自带的函数的用法hive> desc function upper;3.详细显示自带的函数的用法hive> desc function extended upper;自定义函数1)Hive 自带了一些函数,比如:max/min等...原创 2019-10-29 00:06:36 · 493 阅读 · 0 评论 -
(12)Hive的空字段赋值,case when,行列转换窗口函数,rank waiting
文章目录空字段赋值CASE WHEN行转列列转行窗口函数Rank空字段赋值函数说明:NVL:给值为NULL的数据赋值,它的格式是NVL( value,default_value)。它的功能是如果value为NULL,则NVL函数返回default_value的值,否则返回value的值,如果两个参数都为NULL ,则返回NULL。查询:如果员工的comm为NULL,则用-1代替hiv...原创 2019-10-29 00:01:58 · 2352 阅读 · 0 评论 -
(10)Hive的查询运算,分组,join语句
文章目录全表和特定列查询列别名算术运算符常用函数Limit语句Where语句比较运算符(Between/In/ Is Null)Like和RLike逻辑运算符(And/Or/Not)分组Group By语句Having语句查询语句语法:[WITH CommonTableExpression (, CommonTableExpression)*] (Note: Only availabl...原创 2019-10-27 22:43:05 · 729 阅读 · 0 评论 -
(9)Hive的DML数据操作
文章目录向表中装载数据(Load)案例通过查询语句向表中插入数据(Insert)创建表时通过Location指定加载数据路径Import数据到指定Hive表中数据导出将查询的结果导出到本地将查询的结果格式化导出到本地将查询的结果导出到HDFS上(没有local)Hadoop命令导出到本地Hive Shell 命令导出Export导出到HDFS上Sqoop导出清除表中数据(Truncate)向表中...原创 2019-10-24 21:57:20 · 365 阅读 · 0 评论 -
(8)Hive的DDL数据定义(表的操作)
文章目录创建表管理表外部表管理表和外部表的使用场景案例实操管理表与外部表的互相转换分区表分区表基本操作创建分区表加载数据到分区表中单分区查询增加分区删除分区查看分区分区表注意事项1.创建二级分区表2.正常的加载数据3.把数据直接上传到分区目录上,让分区表和数据产生关联的三种方式修改表增加/修改/替换列信息删除表创建表1.建表语法CREATE [EXTERNAL] TABLE [IF NOT ...原创 2019-10-23 00:10:57 · 544 阅读 · 0 评论 -
(7)Hive的DDL数据定义(数据库操作)
文章目录数据库操作创建数据库查询数据库显示数据库查看数据库详情切换当前数据库修改数据库删库跑路数据库操作创建数据库CREATE DATABASE [IF NOT EXISTS] database_name[COMMENT database_comment][LOCATION hdfs_path][WITH DBPROPERTIES (property_name=property_val...原创 2019-10-22 22:35:37 · 353 阅读 · 0 评论 -
(6)Hive数据类型
文章目录基本数据类型集合数据类型案例类型转化1.隐式类型转换规则如下基本数据类型Hive数据类型Java数据类型长度例子TINYINTbyte1byte有符号整数20SMALINTshort2byte有符号整数20INTint4byte有符号整数20BIGINTlong8byte有符号整数20BOOLEANboolean...原创 2019-10-21 22:52:44 · 456 阅读 · 0 评论 -
(5) Hive常见属性配置
文章目录配置文件配置Hive数据仓库位置配置配置同组用户有执行权限配置同组用户有执行权限查询后信息显示配置Hive运行日志信息配置参数配置方式配置文件配置Hive数据仓库位置配置1)Default数据仓库的最原始位置是在hdfs上的:/user/hive/warehouse路径下2)在仓库目录下,没有对默认的数据库default创建文件夹。如果某张表属于default数据库,直接在数据仓库...原创 2019-10-21 22:19:22 · 368 阅读 · 0 评论 -
(4)Hive的安装
文章目录参考地址参考地址1.Hive官网地址http://hive.apache.org/2.文档查看地址https://cwiki.apache.org/confluence/display/Hive/GettingStarted3.下载地址http://archive.apache.org/dist/hive/4.github地址https://github.com/apac...原创 2019-10-20 23:47:38 · 378 阅读 · 0 评论 -
(2)Hive架构原理
如图:Hive通过用户提供的一系列交互接口,接收到用户的指令(SQL),使用自己的Driver,结合元数据(MetaStore),将这些指令翻译成MapReduce,提交到Hadoop中执行,最后,将执行返回的结果输出到用户交互接口具体详细用户接口:Client CLI(hive shell 命令行),JDBC/ODBC(java访问hive),WEBUI(浏览器访问hive)元数据:M...原创 2018-11-14 00:15:50 · 4066 阅读 · 2 评论 -
(3)Hive和数据库比较
由于 Hive 采用了类似SQL 的查询语言 HQL(Hive Query Language),因此很容易将 Hive 理解为数据库。其实从结构上来看,Hive 和数据库除了拥有类似的查询语言,再无类似之处。本文将从多个方面来阐述 Hive 和数据库的差异。数据库可以用在 Online 的应用中,但是Hive 是为数据仓库而设计的,清楚这一点,有助于从应用角度理解 Hive 的特性。查询语言由...原创 2018-11-14 00:25:17 · 7246 阅读 · 0 评论 -
HIVE的小案例
统计出掉线率最高的前10个基站数据record_time 通话时间imei 基站编号cell 手机编号drop_num 掉话秒数duration 通话持续总秒数2011-07-13 00:00:00+08,356966,29448-37062,0,0,0,0,0,G,02011-07-13 00:00:00+08,352024,29448-51331,0,0,0,0,0,G,02...原创 2018-11-15 15:37:19 · 1269 阅读 · 0 评论 -
Hive的排序以及分桶抽样查询
排序全局排序(Order by) :一个MapReduce使用order by子句查询ASC(ascend):升序(默认)DESC(descend):降序Order by子句在Select语句结尾查询员工信息按工资升序排列 select * from emp order by sal;查询员工信息按工资降序排列 select * from emp order by sal ...原创 2018-11-18 17:31:23 · 1131 阅读 · 0 评论 -
Hive的函数
Hive的函数系统自带的函数1)查看系统自带的函数hive> show functions;2)显示自带的函数的用法hive> desc function upper;3)详细显示自带的函数的用法hive> desc function extended upper;自定义函数1)Hive 自带了一些函数,比如:max/min 等,但是数量有限,自己可以通过...原创 2018-11-18 19:35:08 · 310 阅读 · 0 评论 -
hive的常见属性配置
Hive数据仓库位置配置(1)Default数据仓库的最原始位置是在hdfs上的:/user/hive/warehouse路径下(2)在仓库目录下,没有对默认的数据库default创建文件夹。如果某张表属于default数据库,直接在数据仓库目录下创建一个文件夹。(3)修改default数据仓库原始位置(将hive-default.xml.template如下配置信息拷贝到hive-site...原创 2018-11-17 19:31:47 · 747 阅读 · 0 评论 -
Hive的DDL数据定义(一)数据库操作以及创建表
创建数据库创建一个数据库,数据库在HDFS上的默认存储路径是/user/hive/warehouse/*.db。hive (default)&gt; create database db_hive;避免要创建的数据库已经存在错误,增加if not exists判断。(标准写法)hive&gt; create database db_hive;FAILED: Execution Erro...原创 2018-11-17 20:54:06 · 697 阅读 · 0 评论 -
DDL数据定义(二)表的分区
分区表原理:分区表实际上就是对应一个HDFS文件系统上的独立的文件夹,该文件夹下是该分区所有的数据文件,Hive中的分区就是分目录,把一个大的数据集根据业务需要分割成小的数据集,在查询时,通过WHERE子句中表达式选择查询需要的指定分区,这样查询的效率高很多分区表的基本操作引入分区表(根据日期对日志进行管理)/user/hive/warehouse/log_partition/...原创 2018-11-18 01:15:51 · 672 阅读 · 0 评论 -
Hive的DDL数据定义(二)表的修改和删除
重命名表语法ALTER TABLE table_name RENAME TO new_table_name案例hive (hive)> alter table dept_partition2 rename to dept_partition3;增加/修改/替换列信息语法更新列ALTER TABLE table_name CHANGE [COLUMN] col_old_...原创 2018-11-18 02:00:00 · 611 阅读 · 0 评论 -
Hive中查询语句
查询语句常用函数求总行数(count)hive (default)&gt; select count(*) cnt from emp;求工资的最大值(max)hive (default)&gt; select max(sal) max_sal from emp;求工资的最小值(min)hive (default)&gt; select min(sal) min_sal from ...原创 2018-11-18 15:22:15 · 2458 阅读 · 0 评论 -
Hive的DML操作数据的导入和导出
Hive的DML数据操作数据的导入向表中装载数据(load)::语法hive>load data [local] inpath ‘/opt/module/datas/student.txt’ [overwrite] into table student [partition (partcol1=val1,…)];(1)load data:表示加载数据(2)local:表示从本地...原创 2018-11-18 12:30:51 · 490 阅读 · 0 评论 -
数据仓库的含义
文章目录数据仓库什么是数据仓库应用场景特点数据仓库是面向主题的什么是主题?数据仓库的数据是集成的数据仓库的数据是不可更新的数据仓库的数据是随时间不断变化的数据仓库发展历程1.简单报表阶段2.数据集市阶段3.数据仓库阶段数据库与数据仓库的区别数据库与数据仓库的区别实际讲的是 OLTP 与 OLAP 的区别。数据仓库架构分层为什么要对数据仓库分层?元数据介绍1)元数据的定义2)元数据的存储方式3)元数...原创 2019-01-31 21:46:12 · 2580 阅读 · 0 评论 -
星型模型和雪花模型
文章目录星型模型雪花模型优点星型模型和雪花模型的对比1) 数据优化2)业务模型3)性能4) ETL总结在多维分析的商业智能解决方案中,根据事实表和维度表的关系,又可将常见的模型分为星型模型个雪花模型,在设计逻辑型数据的模型的时候,就应考虑数据是按照星型模型还是雪花型模型进行组织。星型模型当所有的维表都直接连接到"事实表"上时整个图解就像星星一样,故将该模型称为星型模型星型架构是一种非正规...原创 2019-02-01 14:39:14 · 955 阅读 · 1 评论 -
hive企业调优
文章目录Fetch抓取简介:案例实操本地模式案例实操表的优化小表jion大表大表jion小表(1)空KEY过滤案例实操2)空 key 转换案例实操不随机分布空 null 值:随机分布空 null 值MapJoin案例实操:Group ByCount(Distinct) 去重统计案例笛卡尔积行列过滤案例动态分区调整数据倾斜合理设置Map数小文件进行合并案例合理设置 Reduce 数并行执行严格模式...原创 2019-02-01 20:51:59 · 435 阅读 · 0 评论 -
(1)Hive的基本概念
Hive:由FaceBook开源用于解决海量结构化日志的数据统计基于hadoop的一个数据仓库工具,可以将结构化数据文件映射为一张表,并提供类SQL查询功能**本质:**将HQL转化为MapReduce程序hive处理的数据存储在HDFS上Hive分析数据底层实现的是MapReduce执行程序运行在YARN上Hive的优缺点优点操作接口采用类SQL语法,提供快速开发的能力(...原创 2018-11-13 22:40:14 · 498 阅读 · 0 评论