使用SKLearnVectorStore进行向量存储与查询-CSDN博客

本文链接：https://blog.csdn.net/ppoojjj/article/details/149072448

# 使用SKLearnVectorStore进行向量存储与查询

在现代机器学习应用中，向量存储是一种重要的技术，用于高效地进行文本相似度查询。`SKLearnVectorStore`是Scikit-learn的一种封装，允许开发者将向量存储持久化为JSON、BSON或Apache Parquet格式，方便后续的加载和查询。在本文中，我们将逐步展示如何使用`SKLearnVectorStore`进行向量存储和查询操作。

## 技术背景介绍

Scikit-learn作为一个开源的机器学习库，提供了丰富的算法实现，`SKLearnVectorStore`则是在此基础上进行扩展，提供向量存储的持久化功能，包括JSON、BSON和Apache Parquet等格式的支持。这为机器学习任务的数据管理带来了极大的灵活性。

## 核心原理解析

`SKLearnVectorStore`主要通过将文本数据转换为向量并进行持久化存储来实现高效查询。利用OpenAI的嵌入功能，文本被转换为向量，然后存储在指定的格式中。这种方式不仅提高了查询效率，还保证了数据的持久性。

## 代码实现演示

首先，我们需要安装必要的库。除了Scikit-learn，我们还需要一些额外的库来支持不同的序列化格式。

```bash
%pip install --upgrade --quiet scikit-learn
%pip install --upgrade --quiet langchain-community
%pip install --upgrade --quiet bson  # 如果需要使用BSON序列化
%pip install --upgrade --quiet pandas pyarrow  # 如果需要使用Parquet序列化

我们将使用OpenAI嵌入来进行文本向量化：

import os
from getpass import getpass
from langchain_community.document_loaders import TextLoader
from langchain_community.vectorstores import SKLearnVectorStore
from langchain_openai import OpenAIEmbeddings
from langchain_text_splitters import CharacterTextSplitter
import tempfile

# 设置OpenAI API密钥
os.environ["OPENAI_API_KEY"] = getpass("Enter your OpenAI key:")

# 加载文档
loader = TextLoader("../../how_to/state_of_the_union.txt")
documents = loader.load()

# 文本拆分
text_splitter = CharacterTextSplitter(chunk_size=1000, chunk_overlap=0)
docs = text_splitter.split_documents(documents)

# 创建嵌入对象
embeddings = OpenAIEmbeddings()

# 指定持久化路径
persist_path = os.path.join(tempfile.gettempdir(), "union.parquet")

# 创建向量存储并持久化
vector_store = SKLearnVectorStore.from_documents(
    documents=docs,
    embedding=embeddings,
    persist_path=persist_path,
    serializer="parquet",
)

# 进行查询
query = "What did the president say about Ketanji Brown Jackson"
docs = vector_store.similarity_search(query)
print(docs[0].page_content)

# 持久化向量存储
vector_store.persist()
print("Vector store was persisted to", persist_path)

# 加载持久化的向量存储进行查询
vector_store2 = SKLearnVectorStore(
    embedding=embeddings, persist_path=persist_path, serializer="parquet"
)
docs = vector_store2.similarity_search(query)
print(docs[0].page_content)

# 清理
os.remove(persist_path)