
Hive
dbLenis
Even the longest journey begins with a single step
展开
专栏收录文章
- 默认排序
- 最新发布
- 最早发布
- 最多阅读
- 最少阅读
-
Hive 编程专题 一 : 使用正则指定输出列
环境:Hive: 2.7.7Oracle SQL DeveloperCloudera JDBC Driver案例:select type,nameobject,`*date`from tblobj2 limit 10 ;错误:1 - 使用 Oracle SQL Developer 执行上述 HQL 语句报错:[Cloudera][HiveJDBCDriver](500051...原创 2018-11-04 14:24:46 · 1559 阅读 · 0 评论 -
Hive 编程专题四: 自定义函数 Java 篇
函数,总体分成内建函数与自定义函数。内建函数针对不同的数据类型有分成很多种,字符函数,数值函数,日期函数,转换函数等;自定义函数是构建于这些基础内建函数之上,用自定义的逻辑实现返回结果的函数。针对返回结果又可分为单值函数和多值以及表值函数。1 常看所有内建和自建的函数show functions ;注意:Hive 2.3.3 内建函数 271 个describe function f...原创 2018-11-15 22:50:47 · 1216 阅读 · 0 评论 -
Hive 编程专题 七: 列引用之正则应用
环境:Hive: 2.7.7Oracle SQL DeveloperCloudera JDBC Driver案例 - 1 : regexp_replace(s,regex,replacement)select regexp_replace(name,'ali','alibaba') as clientNamefrom default.employee ;select re...原创 2018-11-18 22:49:48 · 288 阅读 · 0 评论 -
Hive 编程专题 八: 列引用之 RLike 条件
环境:Hive: 2.7.7Oracle SQL DeveloperCloudera JDBC Driver案例 - 1 : where name RLike ‘.(a|l|i)’select * from default.employee where name RLike '.*(a|l|i)+'数据部署:insert into default.employee (na...原创 2018-11-18 22:50:35 · 1413 阅读 · 0 评论 -
Hive 编程专题九 : SQL Join 的那点坑
环境:Hive: 2.7.7Oracle SQL DeveloperCloudera JDBC Driver案例 - 1 : 非全等 Join 失效select a.*, b.* from default.employee a inner join default.employee b on a.salary < b.salary异常:SQL 错误: [Cloudera...原创 2018-11-20 21:14:36 · 4344 阅读 · 0 评论 -
Hive 编程专题五 : 列引用之聚合函数
环境:Hive: 2.7.7Oracle SQL DeveloperCloudera JDBC Driver案例:select type, count( object_id ) as objects from tblobj2group by typeorder by objects desc 结果其他聚合与 SQL Server 有些类似:avg()avg(di...原创 2018-11-16 22:17:24 · 684 阅读 · 0 评论 -
Hive 编程专题 六: 列引用之表值函数
环境:Hive: 2.7.7Oracle SQL DeveloperCloudera JDBC Driver案例 - 1 : 生成多列select explode(deductions) as (type,vol)from default.employee 结果:错误:1 - 环境部署create table account(accountid int, acc...原创 2018-11-16 22:18:25 · 585 阅读 · 0 评论 -
Hive 性能优化 9 大技巧
使用 hint 来改写执行计划select a.*, b.* from fctOrders a inner join employees b on a.employee_id = b.employee_id显然 fctOrder 表的记录要比 employees 多上好几个数量级。将 fctOrders 放在第一位导致第一遍 map 跑批的数据量增大。因此当尽量用小表在 join 的...原创 2018-11-22 22:48:20 · 2712 阅读 · 0 评论 -
Hive 编程专题十 : 泛型函数
本文的主题:1 - 泛型函数 (Generic Function) 存在的必要性2 - 一则泛型函数的简例3 - 全局函数1 - 泛型函数 (Generic Function) 存在的必要性泛型函数 (Generic Function) 存在的意义,解决了运行时参数类型多变,而标准函数无法一一匹配的情况。以判断某变量是否为 Null 而赋予不同默认值为例。程序不可能做到对每种类型都做...原创 2018-11-24 22:29:47 · 1745 阅读 · 3 评论