Hive存储读取json

最新推荐文章于 2024-04-11 22:56:16 发布

原创

最新推荐文章于 2024-04-11 22:56:16 发布 · 377 阅读

0 ·

CC 4.0 BY-SA版权

文章标签：

#大数据 #hive

本文介绍了如何在Hive中创建表并导入包含JSON数据的文件。提供了两种方法来读取和解析JSON数据：使用get_json_object函数和json_tuple函数。这两种方法都成功展示了如何提取JSON对象中的`count`和`usage`字段。

摘要生成于 C知道，由 DeepSeek-R1 满血版支持，前往体验 >

1. 创建表

CREATE TABLE tmp_json_test (
           appkey string,
           json string
)
ROW FORMAT DELIMITED
FIELDS TERMINATED BY '|'
STORED AS textfile ;

2. 导入数据，样例如下：

load data local inpath '/home/jb-gongmingfeng/test_data.log' overwrite into table tmp_json_test;

数据内容如下

appkey001|{"count":2,"usage":91273,"pkg":"com.example.gotest"}

appkey001|{"count":234,"usage":9876,"pkg":"com.example.gotest"}

appkey001|{"count":34,"usage":5432,"pkg":"com.example.msg"}

3. 读取json的数据有两种方法。

方法一：

select t.appkey , get_json_object(t.json,'$.count'), get_json_object(t.json,'$.usage') from tmp_json_test t ;

方法二：

select t1.app

最低0.47元/天解锁文章

200万优质内容无限畅学

确定要放弃本次机会？

福利倒计时

: :

立减 ¥

普通VIP年卡可用

立即使用

木给哇啦丶

关注关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
分享

复制链接

分享到 QQ

分享到新浪微博

扫一扫
举报

举报

专栏目录

Hive读取json数据源

muyingmiao的专栏

10-16

718

1.数据格式如下图2.创建表并加载数据 hive (test)> create table rating_json(json string); hive (test)> load data local inpath '/home/hadoop/testdata/json/rating.json' into table rating_json; Loading data to tab...

hive存储读取json格式的数据

热门推荐

gongmf的专栏

11-20

1万+

1. c

参与评论您还未登录，请先登录后发表或查看评论

hive读取json文件

wenwen1542的博客

02-13

328

hive映射json文件

hive 导出json格式文件_HIVE json格式数据的处理

weixin_39969881的博客

12-20

454

在hive 避免不了Jason格式的话，可以使用如下两个函数HIVE直接读入json的函数有两个：(1)get_json_object(string json_string, string path)返回值:string说明：解析json的字符串json_string,返回path指定的内容。如果输入的json字符串无效，那么返回NULL。举例：hive>selectget_json...

在Hive中读取Json格式数据

weixin_34245749的博客

06-21

469

2019独角兽企业重金招聘Python工程师标准>>> ...

使用HIVE读取JSON格式数据文件

qq_35824427的博客

04-27

1267

使用Hive读取Json文件

hive Serde解析复杂json串

gj_user的博客

08-09

918

使用hive-json-schema自动生成建表语句，Serde解析器解析JSON文件

Hive-JSON-Serde：读取-为Apache Hive编写JSON SerDe

02-20

读取以JSON格式存储的数据在INSERT INTO 期间将数据转换为JSON格式支持JSON数组和映射支持嵌套数据结构支持Cloudera发行版，包括Apache Hadoop（CDH）支持多种版本的Hadoop 安装下载最新的二进制文件（ json-...

Hive-JSON-Serde-1.3.8.zip

05-23

由于Hive默认不支持JSON，因此JSON-Serde应运而生，解决了在Hive中读取、写入JSON数据的问题。 JSON-Serde的版本1.3.8提供了对Hive的稳定支持和优化，以高效地处理JSON文档。在这个版本中，开发者可能已经修复了...

hive之Json解析(普通Json和Json数组)

张伟的专栏

11-18

1591

一、数据准备现准备原始json数据(test.json)如下： {"movie":"1193","rate":"5","timeStamp":"978300760","uid":"1"} {"movie":"661","rate":"3","timeStamp":"978302109","uid":"1"} {"movie":"914","rate":"3","timeStamp":"978301968","uid":"1"} {"movie":"3408","rate":"4","timeStam

hive解析json格式数据所需jar包

05-05

hive解析json时所需jar包。具体使用： add jar ../../../target/json-serde-1.3-jar-with-dependencies.jar; CREATE TABLE json_nested_test ( country string, languages array, religions map<string,array>) ROW FORMAT SERDE 'org.openx.data.jsonserde.JsonSerDe' STORED AS TEXTFILE; -- data : {"country":"Switzerland","languages":["German","French", -- "Italian"],"religions":{"catholic":[10,20],"protestant":[40,50]}} LOAD DATA LOCAL INPATH 'nesteddata.txt' OVERWRITE INTO TABLE json_nested_test ; select * from json_nested_test; -- result: Switzerland ["German","French","Italian"] {"catholic":[10,20],"protestant":[40,50]} select languages[0] from json_nested_test; -- result: German select religions['catholic'][0] from json_nested_test; -- result: 10 原下载地址：https://github.com/rcongiu/Hive-JSON-Serde

hive命令读取json对象数据(下篇)

koukai6713的博客

12-12

330

针对大数据量的朋友更希望可以更快的方法读取字段。 1.创建hive表 CREATE external TABLE 表名( data string comment 'json数据' ) ROW FORMAT DELIMITED FIELDS TERMINATED BY '\t' LINES TERMINATED BY '\n'; 2.导入数据格式 {"key1": "value1", "ke...

在HIVE中对JSON进行解析

东

05-28

402

在HIVE中对JSON进行解析 get_json_object [{"name":"dxd","age","21"},{"name":"ddd","age":"22"}] 1、取出第一个JSON对象； Using: get_json_object('[{"name":"dxd","age","21"},{"name":"ddd","age":"22"}]','$[0]') Result: {"name":"dxd","age","21"} 2、取出第一个JSON的name字段的值； Using: get

hive解析json_hive json解析函数

2401_84182073的博客

04-11

1907

发知识点，真正体系化！**

HIVE读取json格式字段

骑着蜗牛向前跑的博客

12-26

2985

采用json_tuple(str1,’str2’)，其中str1是表中的字段名，str2是要提取的json中某个数据key值。具体使用方法：select str5, str4, str3, str2 from channel_anti.sdk_blh_android_normal_quarter lateral view json_tuple(dat

Hive字符串、Json解析

认真学代码的shell

10-31

8547

json字符串解析

hive 字符串提取&json格式解析

liuya19921123的博客

09-13

6823

前言在数据存储时研发端经常为了方便很多字段为了冗余存储了文本格式：json或者固定分隔符，但是数仓和数据分析在处理的时候又要进行取出单独的某个字段，进行使用，本文会详解下平时在工作中遇到的问题与处理办法。字符串固定分隔符处理案例：字符串以：|*|分隔，k-v以:分隔，取出其中scene_ids字段值字符串： |*|cityId:201|*|qId:4890f057-8c8d-4fd6-8029-9ec8a374ab3b|*|st:poi|*|sId:62778388|*|scene_ids:6,0

Hive解析Json数据

烂笔头的专栏

04-17

2120

HIVE直接读入json的函数有两个：（1）get_json_object(string json_string, string path) 返回值: string 说明：解析json的字符串json_string,返回path指定的内容。如果输入的json字符串无效，那么返回NULL。举例： hive> select get_json_object(‘{“store”:{“fruit...

【Hive】解析json字符串

sowhat

11-01

1932

stream是一个集合。这个集合，可以用于存放，无穷多个元素，但是这无穷个元素并不会一次性生产出来，而是需要用到多大的区间，就会动态的生产，末尾元素遵循lazy规则。感觉跟Python3 中的 xrange有点类似，都是lazy模式，调用的时候再产生数据。 Java 中打印1 到 100 个数组，需要先创建出来，再遍历，Scala不需要，给它一个规则，当使用的时候，在按照规则生成即可，不占用内...

hive 标准化json 脚本

最新发布

03-22

<think>好的，用户需要一个Hive脚本来标准化处理JSON数据。首先，我得回忆下Hive处理JSON的常用方法。记得Hive本身不支持直接读取JSON文件，但可以通过UDF或者内置函数来处理。用户提到的引用里有使用自定义UDF的例子，比如JsonParser函数，还有注册jar包的步骤。首先，用户可能需要将JSON数据解析成多个字段。根据引用[3]，使用split和JsonParser函数来提取各个字段。比如split(JsonParser(line), '\t')，这里可能JsonParser把JSON字符串按制表符分隔，然后split拆分成数组，取不同下标作为字段。不过这种方法可能不够高效，每个字段都要调用一次JsonParser，可能影响性能。另外，引用[2]中提到创建函数getjson来转换JSON，可能是一个自定义的UDF，将JSON字符串解析为特定格式。用户可能需要类似的功能，将JSON中的各个字段提取出来，并标准化成结构化的表。接下来，考虑Hive的内置函数。比如get_json_object，可以逐个提取JSON中的字段。例如，对于{"movie":"1193","rate":"5","timeStamp":"978300760","uid":"1"}，可以用get_json_object(line, '$.movie')来获取movie字段的值。这种方法不需要UDF，但需要为每个字段写一次函数调用，可能会比较繁琐。用户需要标准化的JSON数据，可能每个JSON对象都有相同的结构。这时候可以考虑使用Hive的json_tuple函数，它一次可以提取多个字段，比多次调用get_json_object更高效。例如，json_tuple(line, 'movie', 'rate', 'timeStamp', 'uid')，然后给这些字段命名。另外，引用[4]提到注册临时函数和使用UDF，比如大小写转换。用户可能需要结合UDF来处理JSON中的复杂结构，或者进行数据清洗，比如转换时间戳格式、统一大小写等。然后，用户可能希望将处理后的数据保存为结构化的Hive表。所以脚本应该包括创建外部表，指定存储格式，然后通过INSERT语句将解析后的数据插入到目标表中。还需要注意JSON数据的存储位置，是作为文本文件中的单行记录，还是其他格式。假设每行一个JSON对象，那么在建表时可以使用STORED AS TEXTFILE，然后使用SerDe或者UDF解析。根据用户提供的引用，特别是引用[3]中的例子，可能用户的数据格式是每行一个JSON对象，字段通过制表符分隔。但更标准的做法是使用Hive的JSON SerDe，比如org.apache.hive.hcatalog.data.JsonSerDe，这样在建表时直接指定SerDe，就可以自动解析JSON字段到表的列中。不过这可能需要在Hive中安装HCatalog，或者确认环境是否支持该SerDe。如果使用SerDe的话，建表语句会更简洁，例如： CREATE EXTERNAL TABLE rat_json ( movie STRING, rate STRING, timeStamp STRING, uid STRING ) ROW FORMAT SERDE 'org.apache.hive.hcatalog.data.JsonSerDe' LOCATION '/user/hive/warehouse/rat_json'; 这样查询时可以直接读取各字段，无需额外解析。但用户可能需要处理更复杂的JSON结构，或者需要自定义解析逻辑，这时候还是需要UDF。综合来看，用户可能需要两种方法：一种是使用内置函数或SerDe，另一种是使用自定义UDF。根据引用中的示例，用户可能更倾向于使用UDF的方式，比如JsonParser函数。需要提供一个脚本示例，包括注册UDF、建表、解析数据等步骤。另外，用户提到的标准化可能包括字段类型转换，比如将timeStamp转换为BIGINT，rate转换为INT等。在Hive中，可以在查询时使用CAST函数进行类型转换。最后，确保脚本中的语法正确，比如添加jar包、创建临时函数、正确的字段别名等。还要考虑性能优化，比如在解析时减少重复调用UDF的次数，使用LATERAL VIEW或者一次解析多个字段。</think>### Hive 标准化 JSON 数据的脚本示例 #### 方法一：使用内置函数 `json_tuple`（无需 UDF） ```sql -- 创建原始数据表（假设数据文件每行存储一个 JSON 对象） CREATE EXTERNAL TABLE raw_json_data ( line STRING ) LOCATION '/user/hive/warehouse/raw_json'; -- 创建标准化目标表 CREATE TABLE standardized_data ( movieid STRING, rate INT, ts BIGINT, uid STRING ); -- 解析 JSON 并插入数据 INSERT INTO TABLE standardized_data SELECT movie_json.movie, CAST(movie_json.rate AS INT), CAST(movie_json.timestamp AS BIGINT), movie_json.uid FROM ( SELECT json_tuple(line, 'movie', 'rate', 'timeStamp', 'uid') AS (movie, rate, timestamp, uid) FROM raw_json_data ) movie_json; ``` #### 方法二：使用自定义 UDF（需预先注册） ```sql -- 注册自定义 JSON 解析 UDF（根据引用[2][3]示例） ADD JAR /opt/hive-udf/json-udf.jar; CREATE TEMPORARY FUNCTION JsonParser AS 'org.example.JsonParser'; -- 解析 JSON 数据并标准化 SELECT split(JsonParser(line), '\t')[0] AS movieid, CAST(split(JsonParser(line), '\t')[1] AS INT) AS rate, CAST(split(JsonParser(line), '\t')[2] AS BIGINT) AS ts, split(JsonParser(line), '\t')[3] AS uid FROM raw_json_data LIMIT 10; ``` #### 方法三：使用 JSON SerDe（需 Hive 环境支持） ```sql CREATE EXTERNAL TABLE standardized_serde ( movie STRING, rate INT, ts BIGINT, uid STRING ) ROW FORMAT SERDE 'org.apache.hive.hcatalog.data.JsonSerDe' LOCATION '/user/hive/warehouse/json_data'; -- 直接查询结构化数据 SELECT * FROM standardized_serde WHERE rate > 3; ``` ### 关键优化点 1. **类型转换**：通过 `CAST()` 函数将字符串转换为数值类型（如 `rate` 转 `INT`）[^3] 2. **性能优化**：使用 `json_tuple` 比多次调用 `get_json_object` 效率更高[^2] 3. **字段映射**：通过 SerDe 自动映射 JSON 键到表字段，简化查询语句[^4]