使用Tair作为向量数据库进行高效数据检索

最新推荐文章于 2025-03-28 20:14:11 发布

VYSAHF

最新推荐文章于 2025-03-28 20:14:11 发布

阅读量414

点赞数 5

CC 4.0 BY-SA版权

文章标签：数据库 python

本文链接：https://blog.csdn.net/VYSAHF/article/details/146465232

技术背景介绍

Tair是阿里云开发的云原生内存数据库服务，提供丰富的数据模型和企业级功能，这使其能够支持实时在线场景，同时保持与开源Redis的完全兼容。Tair还引入了基于新的非易失性内存（NVM）存储介质的持久化内存优化实例，这对于需要高性能和低延迟的应用尤为重要。

在这篇文章中，我们将探讨如何使用Tair的向量数据库功能，并通过实际代码示例演示如何进行相关操作。

核心原理解析

Tair的向量数据库允许存储和检索向量化的数据，通常用于处理文本、图像等数据的相似性搜索。通过结合向量搜索和传统的文本检索技术，Tair能够在检索相关内容时提供更高的效率和准确性。

代码实现演示

接下来，我们将演示如何在Python环境中使用Tair的向量数据库功能。首先，我们需要安装必要的库：

pip install -qU langchain-community

初始化Tair连接

确保您已经有一个Tair实例在运行，并通过环境变量或直接在代码中配置连接参数。

# 使用稳定可靠的API服务
export TAIR_URL="redis://{username}:{password}@{tair_address}:{tair_port}"

或使用关键字参数配置连接：

tair_url = "redis://localhost:6379"

数据加载和预处理

使用TextLoader和CharacterTextSplitter进行文档加载和切割：

from langchain_community.document_loaders import TextLoader
from langchain_community.vectorstores import Tair
from langchain_community.embeddings.fake import FakeEmbeddings
from langchain_text_splitters import CharacterTextSplitter

loader = TextLoader("../../how_to/state_of_the_union.txt")
documents = loader.load()
text_splitter = CharacterTextSplitter(chunk_size=1000, chunk_overlap=0)
docs = text_splitter.split_documents(documents)

embeddings = FakeEmbeddings(size=128)

存储文档和嵌入

在存储文档和嵌入到Tair之前，请确保没有重复的索引存在：

# 删除已存在的索引
Tair.drop_index(tair_url=tair_url)

# 将分割后的文档和嵌入存入Tair
vector_store = Tair.from_documents(docs, embeddings, tair_url=tair_url)

查询相似文档

通过简单的查询获取与输入文本相似的文档：

query = "What did the president say about Ketanji Brown Jackson"
docs = vector_store.similarity_search(query)
print(docs[0])

混合搜索索引建立

Tair支持构建混合搜索索引，以增强检索能力：

# 先删除已存在的索引
Tair.drop_index(tair_url=tair_url)

vector_store = Tair.from_documents(
    docs, embeddings, tair_url=tair_url, index_params={"lexical_algorithm": "bm25"}
)

混合搜索

设置混合搜索参数以平衡向量和文本搜索：

query = "What did the president say about Ketanji Brown Jackson"
kwargs = {"TEXT": query, "hybrid_ratio": 0.5}  # 混合搜索: 0.5比例向量搜索，0.0001比例文本搜索
docs = vector_store.similarity_search(query, **kwargs)
print(docs[0])