DuckDB - 小记

在这里插入图片描述


关于 DuckDB

DuckDB 是一个面向分析的极速内存数据库。它的设计目标是快速、可靠、便携且易于使用。

DuckDB 提供了丰富的 SQL 方言,其支持远远超出了基本 SQL。

DuckDB 支持任意和嵌套的相关子查询、窗口函数、排序规则、复杂类型(数组、结构)等。



其他


教程文章等


特点

  • 极速内存数据库: DuckDB 将数据存储在内存中,因此查询速度非常快。它可以轻松处理数千亿条记录的数据,并且能够在几秒钟内完成复杂的查询。
  • 关系数据库的强大功能: DuckDB 支持关系数据库的所有标准功能,例如表、索引、视图、外键等。它还支持 ANSI SQL,因此你可以使用熟悉的 SQL 语法来查询和操作数据。
  • 内置机器学习和数据挖掘功能: DuckDB 内置了多种机器学习和数据挖掘函数,例如线性回归、决策树、聚类等。这使得你可以直接在 DuckDB 中进行数据分析和建模,而无需将数据导出到其他工具。
  • 跨平台支持: DuckDB 支持 Windows、Linux 和 macOS 等多种操作系统。它还支持 Docker 和 Kubernetes 等容器和云平台。

使用场景

DuckDB 非常适合以下场景:

  • 实时分析: DuckDB 可以实时处理数据,因此非常适合需要进行实时分析的场景,例如欺诈检测、网络安全等。
  • 机器学习和数据挖掘: DuckDB 内置了多种机器学习和数据挖掘函数,因此非常适合需要进行数据分析和建模的场景,例如客户流失分析、推荐系统等。
  • 数据仓库: DuckDB 可以作为数据仓库来存储和管理大量数据。它可以快速处理复杂查询,因此非常适合需要进行数据分析和报表生成的场景。

DuckDB与SQLite对比

DuckDB 非常适合需要快速进行数据分析和处理的场景,例如实时分析、机器学习和数据挖掘等。SQLite 非常适合需要小体积、高性能和广泛兼容性的场景,例如嵌入式系统、移动设备和 Web 应用程序等。


SQL 示例

-- Get the top-3 busiest train stations
SELECT station_name, count(*) AS num_services
FROM train_services
GROUP BY ALL
ORDER BY num_services DESC
LIMIT 3;

# Get the top-3 busiest train stations
import duckdb
duckdb.sql("""
    SELECT station, count(*) AS num_services
    FROM train_services
    GROUP BY ALL
    ORDER BY num_services DESC
    LIMIT 3;
    """)

LangChain + DuckDB

https://python.langchain.com/docs/integrations/vectorstores/duckdb/

这里演示如何使用 DuckDB 作为向量数据库

! pip install duckdb

import getpass
import os

# 使用 OpenAIEmbeddings 需要 
os.environ["OPENAI_API_KEY"] = getpass.getpass("OpenAI API Key:")
from langchain.embeddings import OpenAIEmbeddings
from langchain.vectorstores import DuckDB
from langchain.document_loaders import TextLoader
from langchain_text_splitters import CharacterTextSplitter

loader = TextLoader("../../modules/state_of_the_union.txt")
documents = loader.load()

documents = CharacterTextSplitter().split_documents(documents)
embeddings = OpenAIEmbeddings()
docsearch = DuckDB.from_documents(documents, embeddings)

query = "What did the president say about Ketanji Brown Jackson"
docs = docsearch.similarity_search(query)
print(docs[0].page_content)

2024-04-17(三)

### Kettle Scheduler 配置方法及最佳实践 Kettle Scheduler 是一款基于 Spring、Spring MVC 和 BeetlSQL 的调度监控平台,用于管理和调度由 Kettle 客户端创建的作业 (Job) 和转换 (Transformation)[^1]。以下是关于 Kettle Scheduler 的配置方法和最佳实践: #### 1. 环境准备 在开始配置之前,确保以下环境已正确安装并运行: - Java JDK 8 或更高版本。 - Maven 构建工具(如果需要从源码编译)。 - 数据库支持:MySQL 或其他兼容数据库- Tomcat 或其他支持 Servlet 的应用服务器。 #### 2. 下载与部署 可以从项目地址下载 Kettle Scheduler 的代码或直接获取预构建的 WAR 文件[^1]。将 WAR 文件放置到 Tomcat 的 `webapps` 目录下,并确保 Tomcat 的配置文件中包含以下内容以支持热加载和调试功能[^2]: ```xml <Context path="/kettle-scheduler" docBase="kettle-scheduler" reloadable="true" debug="0" privileged="true"> </Context> ``` #### 3. 数据库配置 编辑 `application.properties` 文件,配置数据库连接信息。例如: ```properties spring.datasource.url=jdbc:mysql://localhost:3306/kettle_scheduler?useUnicode=true&characterEncoding=utf-8&serverTimezone=UTC spring.datasource.username=root spring.datasource.password=your_password spring.datasource.driver-class-name=com.mysql.cj.jdbc.Driver ``` 确保数据库已初始化,可以参考项目文档中的 SQL 脚本完成表结构的创建[^1]。 #### 4. Quartz 配置 Quartz 是 Kettle Scheduler 中的核心调度组件。可以通过修改 `quartz.properties` 文件调整调度器的行为。例如: ```properties org.quartz.threadPool.threadCount=10 org.quartz.jobStore.class=org.quartz.impl.jdbcjobstore.JobStoreTX org.quartz.jobStore.driverDelegateClass=org.quartz.impl.jdbcjobstore.StdJDBCDelegate ``` #### 5. Kettle API 集成 Kettle Scheduler 使用 Kettle 提供的 API 来执行 Job 和 Transformation。确保项目的依赖中包含 Kettle 的相关 JAR 包。例如,在 `pom.xml` 中添加以下依赖项: ```xml <dependency> <groupId>pentaho-kettle</groupId> <artifactId>kettle-engine</artifactId> <version>9.1.0.0-324</version> </dependency> ``` #### 6. 启动与访问 启动 Tomcat 并通过浏览器访问 Kettle Scheduler 的管理界面。默认路径为 `http://localhost:8080/kettle-scheduler`。登录后即可进行作业和转换的调度与监控。 #### 7. 最佳实践 - **性能优化**:根据实际需求调整 Quartz 的线程池大小,避免因线程不足导致任务积压[^1]。 - **日志管理**:启用详细的日志记录以便排查问题,同时定期清理过期日志以节省存储空间。 - **安全性**:配置 HTTPS 访问以保护敏感数据传输,并使用强密码策略加强用户账户的安全性。 - **备份机制**:定期备份数据库和 Kettle 文件,防止数据丢失。 ```python # 示例:通过 Python 调用 Kettle API 执行一个简单的转换 from subprocess import Popen, PIPE command = [ "pan.bat", "-file=/path/to/your/transformation.ktr", "-level=Basic" ] process = Popen(command, stdout=PIPE, stderr=PIPE) stdout, stderr = process.communicate() if process.returncode == 0: print("Transformation executed successfully.") else: print(f"Error occurred: {stderr.decode('utf-8')}") ```
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包

打赏作者

EAI工程笔记

请我喝杯伯爵奶茶~!

¥1 ¥2 ¥4 ¥6 ¥10 ¥20
扫码支付:¥1
获取中
扫码支付

您的余额不足,请更换扫码支付或充值

打赏作者

实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值