极致丝滑：用DuckDB玩转超百亿级数据（作者都要魔怔了，不建议亲自测试）

遇码

已于 2025-03-11 15:14:07 修改

阅读量940

点赞数 14

CC 4.0 BY-SA版权

分类专栏：开源数据库大数据 # DuckDB 文章标签：数据库开源大数据 DuckDB

于 2025-03-09 09:40:22 首次发布

本文链接：https://blog.csdn.net/tsingwin/article/details/146127774

前面有说过，DuckDB的创建者一开始就放弃了分布式，然后就有同学提出质疑，DuckDB会有性能瓶颈。我只想说，目前DuckDB可以说是单机场景下大数据量分析的最佳选择。

本文，我将为同学们演示DuckDB在百亿级数据量下的性能表现，我感觉我已经彻底魔怔了，百亿级数据量意味着什么？

百亿级数据是多少

我们假设一家企业每天可以产生1000万的数据量，那么产生100亿的数据量就需要1000天（超过两年半）。

我们按照前文3亿数据量，CSV文件约9GB，那么100亿就是300G。这个数据量我相信这个世界上已经没有几个单机可以处理这个CSV文件了。

此情此景，如何解决呢？

答案就是Parquet。

Parquet是什么

Parquet又称Apache Parquet，是Apache Hadoop生态系统的一种免费、开源的面向列的数据存储格式。

Parquet优点

数据压缩
列式存储
与编程语言无关
开源格式，免费使用
支持复杂数据类型

创建超百亿的数据量

创建数据库文件并创建表

CREATE TABLE weather (
    city    VARCHAR,
    temp_lo INTEGER,
    temp_hi INTEGER,
    prcp    REAL,
    date    DATE
);

插入数据

INSERT IN

最低0.47元/天解锁文章

确定要放弃本次机会？

福利倒计时

: :

立减 ¥

普通VIP年卡可用

立即使用

遇码

关注关注

14
点赞
踩
16

收藏

觉得还不错? 一键收藏
0
评论
分享

复制链接

分享到 QQ

分享到新浪微博

扫一扫
举报

举报

专栏目录

参与评论您还未登录，请先登录后发表或查看评论

博客

一个神奇的Python库——Python下一代HTTP客户端HTTPX

06-19

209

HTTPX：Python 下一代 HTTP 客户端工具 HTTPX 是 Python 3 的全功能 HTTP 客户端，支持同步/异步 API 和 HTTP/1.1/HTTP/2 协议。它不仅具备 requests 的所有核心功能，如会话管理、SSL 验证等，还新增了多项优势：兼容 requests API、支持 HTTP/2、可直接请求 WSGI/ASGI 应用、完善的超时机制和类型注解。通过简单的 pip 安装即可使用，并能轻松完成网页请求等基础操作。HTTPX 在保持 requests 易用性的同时，提

博客

一个神奇的Python库——Arrow

05-16

554

本文介绍了Python中一个高效的时间处理包——Arrow。Arrow提供了简洁的API来处理常见的日期和时间操作，如格式转换、时区转换、时间加减等。通过示例代码，展示了如何使用Arrow进行时间字符串的解析、获取当前UTC时间、时间的加减、时区转换、时间戳生成、格式化输出以及人性化时间展示。Arrow的功能强大且易于使用，能够显著提升开发效率，是Python开发者在处理时间相关任务时的有力工具。文章最后鼓励开发者积累和分享好用的工具，以提高解决问题的能力。

博客

五分钟完成企业级短链接服务部署

05-09

509

短链接服务在现代网络应用中扮演着重要角色，尤其在需要优化用户体验、节省成本和进行数据分析时。例如，发送短信时使用短链接可以避免因长链接导致的短信分割，节省费用并提升用户体验；在广告投放中，短链接可帮助追踪不同广告位的点击量；此外，短链接还能实现同一链接在不同时间段跳转到不同内容的需求。本文介绍了一款免费开源的短链接项目——ohUrlShortener，它支持短链接的生成、查询、302转向，以及点击量统计、独立IP数统计和访问日志查询等功能。

博客

免费开源，仅需四步，让你的图片变清晰——Upscayl

05-08

448

图片每次需要抠图，是不是很烦恼？前面我已经为大家介绍了一款一键抠图的工具，效果杠杠的，以说是帮了我大忙。但是唯一的缺点就是免费版无法获取高清图片，在大多数场景下是完全够用的。但是总有一些场景对图片质量要求会比较高，这个时候就会苦恼。如果能把图片变清晰，那岂不是开心的要上天。那么大家有福啦，让图片变清晰的免费工具我给大家找到了——Upscayl。

博客

大厂出品，必属精品！腾讯出品的会思考的知识库笔记应用——ima.copilot

05-08

248

ima.copilot（简称ima）是一款由腾讯混元大模型提供技术支持的智能工作台产品。用户可以积累自己的个人知识库，并用于创作。

博客

AI界面怎么开发？终于有人解决了我的痛点——Ant Design X

05-08

750

Ant Design X，亦即，是一个专注于 React 生态的先进 AI 组件库，旨在简化与人工智能集成的开发过程。包括高度定制化的 AI 组件允许开发者轻松地将对话 AI 集成到他们的应用中。提供了一揽子 API 解决方案支持开发者通过令牌认证直接接入现有 AI 服务，无缝衔接与 AI 的对话和交互。React 开发者进入 AI 世界的理想伙伴无论是建立智能聊天应用、提升用户交互体验还是加快 AI 能力的集成，React都可以快速集成。

博客

五分钟完成Spring Boot国产替代Solon的初体验

05-01

581

前面介绍了Solon，本文则为大家详细介绍如何快速使用Solon开始我们的项目。

博客

国产替代Spring Boot框架的最佳之选——Solon

04-30

1354

Solon是一个Java “生态型”应用开发框架。就像Spring有全家桶，Solon也有Solon Data、Solon Web、Solon Scheduling、Solon Cloud等，可以满足全场景开发需求。追求：更快、更小、更简单克制、简洁、高效、开放、生态内核零依赖；组合不同的插件应对不同需求；方便定制；快速开发。Http、WebSocket、Socket 三种信号统一的开发体验（俗称：三源合一）支持“注解”与“手动”两种模式并重，按需自由操控。

博客

大数据学习地图：从单机到集群，奠定分布式存储与分布式计算的基础

04-30

338

电脑经常卡顿，我们很自然地会想到换一台配置更高的电脑。对企业而言也一样，例如当网站用户增加，并发就会增加，服务器资源（CPU、内存、磁盘）不够，那就换一台配置更高的服务器。然而有一个现实问题摆在面前，单台服务器的配置终究是有上限的。

博客

大数据学习地图：纵观大数据技术发展史，看清大数据本质

04-25

640

前段时间受邀为某高校研一学生分享大数据最新技术，特以此为契机重新梳理了大数据技术发展史，最终形成了一个为适用于初学者的大数据学习地图，希望可以帮助更多的人入门大数据相关技术。

博客

一个神奇的Python库——Tushare

04-25

604

Tushare是一个免费提供各类数据（主要是金融数据，还有一些另类数据） , 助力行业和量化研究。另外我们还可以认为Tushare是一个Python包，如果我们想要用python读取数据，只需要安装tushare包即可。

博客

你知道Oracle数据库吗？你想要学习Oracle数据库吗？

04-24

312

Oracle中文名甲骨文，是一家全球性的大型企业科技软件公司，总部位于美国得克萨斯州奥斯汀。Oracle Database，又名Oracle RDBMS，或简称Oracle，是甲骨文公司的一款关系数据库管理系统。目前在数据库市场上依然占有主要份额。有数据显示，财富排行榜前1000的公司都采用Oracle数据库，也因此被称为世界最好的数据库产品。

博客

只需五步实现免费HTTPS数字证书自动部署更新——acme.sh

04-24

1266

acme.sh 实现了 acme 协议, 不仅可以从 zerossl或者letsencrypt 自动生成免费的证书，还支持自动更新快过期的证书。总之就是主打一个免费还方便，让你轻松实现HTTPS证书自由。

博客

如何存下40亿个不重复数字

04-18

340

如何存下40亿个不重复数字？作为一名数据工作者，你会如何设计表模型呢，带着这个问题我们一起来探索最佳方案。

博客

你真的了解数据仓库、数据湖、数据湖仓吗？五分钟带你了解数据湖仓的演变

04-18

909

数据分析是现代企业和组织决策过程中不可或缺的一部分，数据分析技术经过数十年的发展，需求场景从 BI 报表到数据探寻、实时预测、用户画像等不断丰富，技术架构经历从数据仓库数据湖、到数据湖仓的演进，并走向数据湖仓一体架构，通过一套架构服务多样化的分析场景。Lakehouse 兼具数据仓库与数据湖的优势，是下一代数据分析架构的演进趋势；

博客

五分钟部署阿里开源大模型-qwen2

04-17

593

开源大模型总是层出不穷，一个个又把自家模型夸得天花乱坠。那么怎么才能快速体验各种开源模型，用亲身测试代替夸大其词呢。本文我将带领同学们学习如何基于ollama实现开源大模型的快速部署体验。

博客

一款神奇的本地快速部署开源大模型的工具——ollama

04-10

1184

ollama可以帮助我们在本地启动并运行大语言模型。我们不仅可以使用Llama 2、Code Llama等模型，还可以使用自己自定义创建的模型。

博客

一种高性能、S3兼容的对象存储，专为大规模AI/ML、数据湖和数据库工作负载而构建——MinIO

04-10

627

MinIO 是一个高性能的、S3 兼容的分布式对象存储系统。它专为大规模 AI/ML、数据湖和数据库工作负载而构建。并且它是由软件定义的存储，不需要购买任何专有硬件，就可以在云上和普通硬件上拥有分布式对象存储。并且 100% 开源，主要许可证是 GNU AGPL v3。MinIO 的不同之处在于它从一开始就被设计为私有/混合云对象存储的标准。因为 MinIO 是专门为对象而构建的，所以单层架构可以毫不妥协地实现所有必要的功能。结果是一个同时具有高性能、可扩展性和轻量级的云原生对象服务器。

博客

开源大语言模型智能体应用开发平台——Dify

04-07

1055

Dify 是一款开源的大语言模型(LLM) 应用开发平台。它融合了后端即服务（Backend as Service）和 LLMOps 的理念，提供从 Agent 构建到 AI workflow 编排、RAG 检索、模型管理等能力，同时提供了一套易用的界面和 API，使开发者可以快速搭建生产级的生成式 AI 应用。即使你是非技术人员，也能参与到 AI 应用的定义和数据运营过程中。

博客

认识比Stable Diffusion更好用的文生图开源工具——ComfyUI

04-07

601

ComfyUI 是一个基于节点工作流式的 Stable Diffusion 算法的另一种 WebUI。通过将Stable Diffusion的流程拆分成节点，实现了更加精准的工作流定制和完善的可复现性。生成图片时速度会比传统的WebUI更快，而且可以占用更少的显存。ComfyUI作者最开始只是为了深入了解 stable diffusion 的工作原理，并希望拥有一个功能强大且简洁的工具，以便进行无限制的 stable diffusion 实验。牛人与普通人最大的区别就在于牛人不仅可以看到问题，还可以解决。