sqoop 整库导入数据

最新推荐文章于 2025-06-03 19:00:00 发布

颍天

最新推荐文章于 2025-06-03 19:00:00 发布

阅读量672

点赞数

CC 4.0 BY-SA版权

分类专栏： hive 文章标签： hive big data

本文链接：https://blog.csdn.net/anyitian/article/details/119928536

hive 专栏收录该内容

9 篇文章

订阅专栏

文章目录

需求
整库导入
常用参数

需求

最近在迁移老数据的时候需要把mysql的整个库全部迁移到hive，由于mysql的表和库比较多，建表麻烦，所以只有祭出神器–sqoop的整库导入。

整库导入

sqoop  import-all-tables --connect jdbc:mysql://ip:3306/dbname  --username user --password password --hive-database abc  -m 10  --create-hive-table  --hive-import --hive-overwrite --autoreset-to-one-mapper

import-all-tables :导入所有表

--connect :连接的url地址

--username:mysql用户名

--password:mysql密码

--hive-database：导入到hive的数据库

-m：指定几个map任务，如果没有主键，只能有一个map    例如：-m 1

--create-hive-table :创建表，如果不创建表，hive里是没有表的。

--hive-import：导入数据到hive里

--hive-overwrite ：覆盖导入

--autoreset-to-one-mapper：如果表没有主键，导入时使用一个mapper执行

常用参数

通用参数

--connect <jdbc-uri>：指定JDBC连接字符串。
--connection-manager <class-name>：指定要使用的连接管理器类。
--driver <class-name>：手动指定要使用的JDBC驱动程序类。
--hadoop-mapred-home <dir>：覆盖$ HADOOP_MAPRED_HOME。
--help：打印使用说明。
--password-file：为包含认证密码的文件设置路径。
-P：从控制台读取密码。
--password <password>：设置验证密码。
--username <username>：设置验证用户名。
--verbose：在运行时打印更多信息。
--connection-param-file <filename>：提供连接参数的可选属性文件。
--relaxed-isolation：将mapper的连接事务隔离设置为只读。

导入控制参数

--as-avrodatafile：将数据导入Avro数据文件。
--as-sequencefile：将数据导入到SequenceFiles。
--as-textfile：以纯文本形式导入数据（默认）。
--as-parquetfile：将数据导入Parquet文件。
--direct：使用direct快速导入。
--inline-lob-limit <n>：设置内联LOB的最大大小。
-m,--num-mappers <n>：使用n个mapper任务并行导入。
--warehouse-dir <dir>：表目的地的HDFS父级目录。
-z,--compress：启用压缩。
--compression-codec <c>：使用Hadoop编解码器（默认gzip）。
--exclude-tables <tables>：逗号分隔的表格列表，以便从导入过程中排除。
--autoreset-to-one-mapper：如果表没有主键，导入时使用一个mapper执行。

输出格式参数

--enclosed-by <char>：设置必需的字段包围字符。
--escaped-by <char>：设置转义字符。
--fields-terminated-by <char>：设置字段分隔符。
--lines-terminated-by <char>：设置行尾字符。
--mysql-delimiters：使用MySQL的默认分隔符集：fields：, lines：\n escaped-by：\ optional-enclosed-by：'。
--optionally-enclosed-by <char>：设置字段包含字符。

输入分析参数

--input-enclosed-by <char>：设置必需的字段封闭器。
--input-escaped-by <char>：设置输入转义字符。
--input-fields-terminated-by <char>：设置输入字段分隔符。
--input-lines-terminated-by <char>：设置输入的行尾字符。
--input-optionally-enclosed-by <char>：设置字段包含字符。

Hive参数

--hive-home <dir>：覆盖 $HIVE_HOME。
--hive-import：将表导入Hive（如果没有设置，则使用Hive的默认分隔符。）。
--hive-overwrite：覆盖Hive表中的现有数据。。
--create-hive-table：如果设置，则作业将失败，如果目标配置单元表存在。默认情况下，该属性为false。
--hive-table <table-name>：设置导入到Hive时要使用的表名。
--hive-drop-import-delims：导入到Hive时，从字符串字段中 删除\ n，\ r和\ 01。
--hive-delims-replacement：在导入到Hive时，将字符串字段中的\ n，\ r和\ 01 替换为用户定义的字符串。
--hive-partition-key：分区的配置单元字段的名称被打开
--hive-partition-value <v>：字符串值，用作此作业中导入配置单元的分区键。
--map-column-hive <map>：覆盖从SQL类型到配置列的Hive类型的默认映射。如果在此参数中指定逗号，请使用URL编码的键和值，例如，使用DECIMAL（1％2C％201）而不是DECIMAL（1，1）。

代码生成参数

--bindir <dir>：编译对象的输出目录。
--jar-file <file>：禁用代码生成; 使用指定的jar。
--outdir <dir>：生成代码的输出目录。
--package-name <name>：将自动生成的类放入此包中。