极致丝滑：五分钟用DuckDB玩转超亿级CSV

遇码

已于 2025-03-11 15:15:24 修改

阅读量588

点赞数 7

CC 4.0 BY-SA版权

分类专栏：开源数据库大数据 # DuckDB 文章标签：数据库大数据开源数据挖掘 DuckDB

于 2025-03-08 11:14:51 首次发布

42 篇文章

订阅专栏

16 篇文章

订阅专栏

6 篇文章

订阅专栏

相信很多同学都遇到过这样的场景，有一个上百万条数据的CSV文件，然后想做一些分析。这时我们有哪些选择呢？

现在单机性能也都普遍很好了，所以对于百万级的数据量也是可行的。但是如果是千万级或者上亿级，恐怕就心有余而力不足了。

这也确实是目前大多数人的选择，性能还可以忍受，但是需要会Python，最好还会Jupyter就更好了。

把CSV文件的数据导入到数据库中使用，这样也是一个选择。但是数据量达到千万级就是在挑战数据库的性能了。

那么有没有一种足够足够简单并且没有性能瓶颈的方式可以来做数据分析呢？

本文将会给同学们介绍如何使用DuckDB轻松玩转超亿级的CSV。

CREATE TABLE weather (
    city    VARCHAR,
    temp_lo INTEGER,
    temp_hi INTEGER,
    prcp    REAL,
    date    DATE
);

INSERT INTO main.weather
VALUES ('San Francisco', 46, 50, 0.25, '1994-11-27');

INSERT INTO main.weather
select * from main.weather;

重复执行SQL，单表数据量会达到上亿级别。

select count(*) from main.weather;

copy main.weather to 'E:\duckdbtest\weather.csv' with(header, delimiter '|');

注意文件的路径，可以使用绝对路径。

此时我们就得到了一个9GB的CSV文件。

另外我们还可以选择部分数据导出到CSV中

copy (select * from main.weather limit 10) to 'E:\duckdbtest\weather_10.csv' with(header, delimiter '|');

select * from 'E:\duckdbtest\weather.csv' limit 10;

注意文件的路径，用绝对路径。

select city, sum(temp_lo), sum(temp_hi) from 'E:\duckdbtest\weather.csv'
group by city;

上亿的数据量，10s以内就可以返回结果。

select count(*) from 'E:\duckdbtest\weather.csv'
where city like 'San%';

也是10s以内就可以返回结果。

create table main.weather_csv as
select * from 'E:\duckdbtest\weather.csv';

至此，就为同学们演示了如何读取CSV文件以及如何保存为CSV文件。不知道你有没有被DuckDB的性能以及灵活、自由的操作所折服。

有同学可能会说了，如果数据存放在比如S3等云端，难道每次都需要把数据下载下来才能分析吗？这就要强调一下DuckDB的扩展能力了，借助httpfs (HTTP and S3)扩展可以直接使用S3中的数据进行分析，将丝滑进行到底。更多详细用法请关注：遇码，回复duckdb，获取官方文档。