pgloader命令语法详解：高效数据迁移工具使用指南-CSDN博客

本文链接：https://blog.csdn.net/gitblog_00730/article/details/148488877

pgloader命令语法详解：高效数据迁移工具使用指南

pgloader dimitri/pgloader: 这是一个用于将数据从各种来源加载到PostgreSQL数据库的工具。适合用于需要将数据导入PostgreSQL数据库的场景。特点：易于使用，支持多种数据来源，具有高性能和可配置性。项目地址: https://gitcode.com/gh_mirrors/pg/pgloader

概述

pgloader是一款功能强大的数据迁移工具，它采用领域特定语言(DSL)来定义复杂的数据加载场景。本文将深入解析pgloader的命令语法结构，帮助用户掌握如何高效地配置数据迁移任务。

基本命令结构

pgloader的命令遵循统一的语法框架，主要包含以下几个核心部分：

LOAD <数据源类型>
     FROM <数据源URL>
     [ HAVING FIELDS <源级选项> ]
     INTO <PostgreSQL连接URL>
     [ TARGET TABLE [ "<模式>" ]."<表名>" ]
     [ TARGET COLUMNS <列及选项> ]

[ WITH <加载选项> ]

[ SET <PostgreSQL设置> ]

[ BEFORE LOAD [ DO <SQL语句> | EXECUTE <SQL文件> ] ... ]
[ AFTER LOAD [ DO <SQL语句> | EXECUTE <SQL文件> ] ... ]
;

核心子句详解

FROM子句

FROM子句指定数据来源，不同数据源类型支持的格式各异：

CSV数据源支持内联数据、标准输入、文件名、带引号的文件名以及文件名匹配模式
MySQL数据源则仅支持MySQL数据库URI规范

INTO子句

INTO子句定义PostgreSQL目标连接，必须包含目标表名。关键特性包括：

目标表必须已存在于PostgreSQL中
支持模式限定表名(如"schema"."table")
可选的目标列列表，可指定列名、数据类型和转换表达式

转换表达式支持Common Lisp语法，运行时会被编译为本地代码，实现灵活的数据转换。

WITH子句

WITH子句用于设置加载选项，语法格式为：

key = value
use option
do not use option

所有数据源都支持的通用选项包括：

错误处理：on error stop或on error resume next
批处理控制：batch rows和batch size
预取设置：prefetch rows

SET子句

SET子句用于设置PostgreSQL会话参数，格式为： 参数名 = '值'（逗号分隔列表）

加载前后操作

pgloader提供了灵活的钩子机制，可在数据加载前后执行自定义操作：

BEFORE LOAD

DO：直接执行SQL语句（使用$$分隔符）
EXECUTE：执行SQL文件

典型用途：创建目标表结构

AFTER LOAD

DO：数据加载完成后执行的SQL
EXECUTE：执行SQL文件

典型用途：创建索引、约束或重新启用触发器

AFTER CREATE SCHEMA

DO：模式创建后执行的SQL
EXECUTE：执行SQL文件

典型用途：表分区等高级操作

连接字符串规范

PostgreSQL连接URI格式： postgresql://[用户[:密码]@][主机][:端口][/数据库][?选项=值&...]

关键组成部分：

用户认证：
- 用户名可包含任何字符，特殊字符需转义
- 密码处理遵循PostgreSQL标准，支持环境变量和密码配置文件
网络位置：
- 支持主机名、IPv4地址或Unix域套接字路径
- 特殊语法：unix:/路径指定非默认套接字
数据库名：
- 需符合标识符规范（字母开头，可包含字母、数字和特定标点）
选项参数：
- 支持sslmode、host、port等关键参数
- sslmode可选值：disable/allow/prefer/require