Apache Doris 入门教程16：数据导入之S3 Load

最新推荐文章于 2025-01-11 16:57:59 发布

sunjian286

最新推荐文章于 2025-01-11 16:57:59 发布

阅读量467

点赞数

CC 4.0 BY-SA版权

文章标签：大数据数据库数据仓库数据分析

本文链接：https://blog.csdn.net/sunjian286/article/details/131932921

Doris从0.14版开始支持通过S3协议直接导入数据，如AWSS3、BOS、OSS和COS等。用户需要准备AK、SK、REGION和ENDPOINT信息。导入过程类似BrokerLoad，通过WITHS3语句指定存储配置。对于不支持virtual-hostedstyle的对象存储，可使用pathstyle。1.2版本后，还支持使用临时秘钥访问。

摘要生成于 C知道，由 DeepSeek-R1 满血版支持，前往体验 >

S3 Load

从0.14 版本开始，Doris 支持通过 S3 协议直接从支持 S3 协议的在线存储系统导入数据。

本文档主要介绍如何导入 AWS S3 中存储的数据。也支持导入其他支持 S3 协议的对象存储系统导入，如百度云的 BOS、阿里云的OSS和腾讯云的 COS 等。

适用场景

源数据在支持 S3 协议的存储系统中，如 S3,BOS 等。
数据量在几十到百 GB 级别。

准备工作

准备AK 和 SK 首先需要找到或者重新生成 AWS Access keys，可以在 AWS console 的 My Security Credentials 找到生成方式，如下图所示： AK_SK 选择 Create New Access Key 注意保存生成 AK和SK.
准备 REGION 和 ENDPOINT REGION 可以在创建桶的时候选择也可以在桶列表中查看到。ENDPOINT 可以通过如下页面通过 REGION 查到 AWS 文档。

其他云存储系统可以相应的文档找到与 S3 兼容的相关信息。

开始导入

导入方式和 Broker Load 基本相同，只需要将 WITH BROKER broker_name () 语句替换成如下部分

    WITH S3
    (
        "AWS_ENDPOINT" = "AWS_ENDPOINT",
        "AWS_ACCESS_KEY" = "AWS_ACCESS_KEY",
        "AWS_SECRET_KEY"="AWS_SECRET_KEY",
        "AWS_REGION" = "AWS_REGION"
    )

完整示例如下

    LOAD LABEL example_db.exmpale_label_1
    (
        DATA INFILE("s3://your_bucket_name/your_file.txt")
        INTO TABLE load_test
        COLUMNS TERMINATED BY ","
    )
    WITH S3
    (
        "AWS_ENDPOINT" = "AWS_ENDPOINT",
        "AWS_ACCESS_KEY" = "AWS_ACCESS_KEY",
        "AWS_SECRET_KEY"="AWS_SECRET_KEY",
        "AWS_REGION" = "AWS_REGION"
    )
    PROPERTIES
    (
        "timeout" = "3600"
    );

常见问题

S3 SDK 默认使用 virtual-hosted style 方式。但某些对象存储系统可能没开启或没支持 virtual-hosted style 方式的访问，此时我们可以添加 use_path_style 参数来强制使用 path style 方式：

  WITH S3
  (
        "AWS_ENDPOINT" = "AWS_ENDPOINT",
        "AWS_ACCESS_KEY" = "AWS_ACCESS_KEY",
        "AWS_SECRET_KEY"="AWS_SECRET_KEY",
        "AWS_REGION" = "AWS_REGION",
        "use_path_style" = "true"
  )

SinceVersion 1.2

支持使用临时秘钥（TOKEN) 访问所有支持 S3 协议的对象存储，用法如下：

  WITH S3
  (
        "AWS_ENDPOINT" = "AWS_ENDPOINT",
        "AWS_ACCESS_KEY" = "AWS_TEMP_ACCESS_KEY",
        "AWS_SECRET_KEY" = "AWS_TEMP_SECRET_KEY",
        "AWS_TOKEN" = "AWS_TEMP_TOKEN",
        "AWS_REGION" = "AWS_REGION"
  )