Hive查询操作详解

PDF文件

5星 · 超过95%的资源 | 423KB | 更新于2024-08-30 | 12 浏览量 | 举报收藏

立即下载

"这篇文档主要介绍了Hive中的查询操作，包括基本的查询语法和实例，如全表查询、特定列查询等。文档还提到了Hive 0.13.0版本后支持的Common Table Expression功能，并给出了一个示例查询语句的结构，包括SELECT、FROM、WHERE、GROUP BY、ORDER BY等子句。此外，文档链接提供了更详细的Hive语言手册关于Select部分的官方资料。" 在Hive中，查询操作是数据分析和处理的核心部分。下面我们将深入探讨这些知识点：一、查询语法 Hive的查询语句遵循SQL标准，但有一些特定的Hive扩展。基础语法包括以下几个部分： 1. `WITH` 子句：从Hive 0.13.0开始，可以使用Common Table Expression（CTE）来创建临时的结果集，这在复杂的查询中非常有用。 2. `SELECT` 子句：用于指定要从数据表中选择的列，可以选择所有列（`*`）或特定列。 3. `FROM` 子句：指定数据来源，即你要从中查询的表。 4. `WHERE` 子句：定义筛选条件，只有满足条件的行才会被返回。 5. `GROUP BY` 子句：对结果进行分组，通常与聚合函数一起使用，如COUNT、SUM、AVG等。 6. `ORDER BY` 子句：按照指定的列排序结果。 7. `CLUSTER BY` 和 `DISTRIBUTE BY` 子句：控制数据在执行MapReduce作业时的分区和分布。 8. `SORT BY` 子句：在单个Reducer中对数据进行排序。 9. `LIMIT` 子句：限制返回的行数。二、基本查询 1. 全表查询：使用`SELECT * FROM table_name;` 可以获取表中的所有数据，例如`SELECT * FROM emp;`。 2. 特定列查询：通过指定列名，可以选择你感兴趣的列，如`SELECT ename, sal FROM emp;`。三、示例以下是一个简单的查询示例： ```sql SELECT ename, sal FROM emp WHERE sal > 1000 ORDER BY sal DESC; ``` 这个查询将返回`emp`表中薪水大于1000的所有员工的名字及其薪水，结果按薪水降序排列。 Hive查询语句的灵活性和强大性使得用户能够处理大规模的数据集。在实际应用中，结合Hive的其他特性，如分区、桶、外部表等，可以实现更高效的数据管理和分析。了解并熟练掌握这些查询语法对于进行大数据处理至关重要。

Hive中查询操作中查询操作

一、查询语法一、查询语法

查询语句语法：

[WITH CommonTableExpression (, CommonTableExpression)*] Only available

starting with Hive 0.13.0)

SELECT [ALL | DISTINCT] select_expr, select_expr, ...

FROM table_reference

[WHERE where_condition] [GROUP BY col_list] [ORDER BY col_list] [CLUSTER BY col_list

| [DISTRIBUTE BY col_list] [SORT BY col_list] ] [LIMIT number]

官方文档：

https://cwiki.apache.org/confluence/display/Hive/LanguageManual+Select

二、基本查询二、基本查询(select … from)

2.1 全表和特定列查询全表和特定列查询

1、全表查询

hive (default)> select * from emp;

emp.empno emp.ename emp.job emp.mgr emp.hiredate emp.sal emp.comm emp.deptno

7369 SMITH CLERK 7902 1980-12-17 800.0 NULL 20

7499 ALLEN SALESMAN 7698 1981-2-20 1600.0 300.0 30

7521 WARD SALESMAN 7698 1981-2-22 1250.0 500.0 30

7566 JONES MANAGER 7839 1981-4-2 2975.0 NULL 20

7654 MARTIN SALESMAN 7698 1981-9-28 1250.0 1400.0 30

7698 BLAKE MANAGER 7839 1981-5-1 2850.0 NULL 30

7782 CLARK MANAGER 7839 1981-6-9 2450.0 NULL 10

7788 SCOTT ANALYST 7566 1987-4-19 3000.0 NULL 20

7839 KING PRESIDENT NULL 1981-11-17 5000.0 NULL 10

7844 TURNER SALESMAN 7698 1981-9-8 1500.0 0.0 30

7876 ADAMS CLERK 7788 1987-5-23 1100.0 NULL 20

7900 JAMES CLERK 7698 1981-12-3 950.0 NULL 30

7902 FORD ANALYST 7566 1981-12-3 3000.0 NULL 20

7934 MILLER CLERK 7782 1982-1-23 1300.0 NULL 10

Time taken: 2.619 seconds, Fetched: 14 row(s)

2、选择特定列查询

hive (default)> select empno, ename from emp;

empno ename

7369 SMITH

7499 ALLEN

7521 WARD

7566 JONES

7654 MARTIN

7698 BLAKE

7782 CLARK

7788 SCOTT

7839 KING

7844 TURNER

7876 ADAMS

7900 JAMES

7902 FORD

7934 MILLER

Time taken: 0.141 seconds, Fetched: 14 row(s)

注意：注意：

(1) SQL 语言大小写不敏感语言大小写不敏感

(2) SQL 可以写在一行或者多行可以写在一行或者多行

(3) 关键字不能被缩写也不能分行关键字不能被缩写也不能分行

(4) 各子句一般要分行写各子句一般要分行写

(5) 使用缩进提高语句的可读性使用缩进提高语句的可读性

2.2 列别名列别名

hive (default)> select ename AS name, deptno dn from emp;

name dn

SMITH 20

ALLEN 30

WARD 30

JONES 20

MARTIN 30

BLAKE 30

CLARK 10

SCOTT 20

KING 10

TURNER 30

ADAMS 20

JAMES 30

FORD 20

MILLER 10

Time taken: 0.101 seconds, Fetched: 14 row(s)

2.3 算数运算符算数运算符

例子：

查询出所有员工的薪水后加1显示

hive (default)> select sal+1 as sal from emp;

sal

801.0

1601.0

1251.0

2976.0

1251.0

2851.0

2451.0

3001.0

5001.0

1501.0

1101.0

951.0

3001.0

1301.0

Time taken: 0.096 seconds, Fetched: 14 row(s)

下载后可阅读完整内容，剩余9页未读，立即下载

weixin_38499503

粉丝: 8

Hive查询操作详解

SqlServer使用 case when 解决多条件模糊查询问题

部分普通sql查询在hive中的实现方式

hive查询优化

java_hive简单查询

Hive基础查询操作实战之Hbase数据库深度挖掘

Hive 复杂查询与连接操作：多表关联查询与子查询应用

Hive嵌套查询与子查询：复杂查询的实现

Hive数据查询与过滤

头歌hive基本查询操作

Hive基本查询操作（一）

最新资源