datax--从hdfs分区表写入mysql分区字段为空

韩家小志

已于 2025-03-12 10:58:57 修改

阅读量1.5k

点赞数

CC 4.0 BY-SA版权

分类专栏：错误集锦文章标签：分区表 datax hdfs mysql

于 2020-12-18 01:16:52 首次发布

25 篇文章

订阅专栏

博客讲述从HDFS向MySQL推送数据时遇到的问题。原本想让DataX读取分区目录作为字段处理，但推送后分区字段为null。后新建非分区接口表推送，字段正常。还介绍了官网按分区读取的方法，即配置好json中path的值。

摘要生成于 C知道，由 DeepSeek-R1 满血版支持，前往体验 >

背景

 "path": "/user/hive/warehouse/mytable01/*

"column": [
                {"index":0 ,"type":"string"},
                ……
                {"index":28,"type":"string"}
            ],

"column": [
                 "date_short",
                 ….…
                 "monthkey"
            ],

我又新建了一张接口表，把分区字段作为真字段（即新表不是分区表），推送过去，字段不为null了
这个接口表本来就是需要的，因为除了第一次我们是全量推送，之后就是每天推送最近两个月的了，只不过处于开发阶段，我就省略了，结果发现了这个错误，datax对分区表的读取path必须指定到分区目录，才能读取到这个分区字段？还是说我的理解有误，有大神知道可以指导一下。

按分区读取
Hive在建表的时候，可以指定分区partition，例如创建分区partition(day=“20150820”,hour=“09”)，对应的hdfs文件系统中，相应的表的目录下则会多出/20150820和/09两个目录，且/20150820是/09的父目录。了解了分区都会列成相应的目录结构，在按照某个分区读取某个表所有数据时，则只需配置好json中path的值即可。
比如需要读取表名叫mytable01下分区day为20150820这一天的所有数据，则配置如下：

"path": "/user/hive/warehouse/mytable01/20150820/*"