VectorDB的使用方法

Miang96

已于 2023-12-07 16:48:53 修改

阅读量652

点赞数

CC 4.0 BY-SA版权

文章标签： python database

于 2023-12-06 21:52:39 首次发布

本文链接：https://blog.csdn.net/qq_41754202/article/details/134841479

本文介绍了如何安装和使用VectorDB，包括依赖项（如MicrosoftVisualC++和DocArray），展示了如何创建文档、索引和执行搜索查询。重点在于将文本数据转换为向量并存储在数据库中进行高效检索。

摘要生成于 C知道，由 DeepSeek-R1 满血版支持，前往体验 >

🔗链接: https://github.com/jina-ai/vectordb

安装: 以下3个都要安装才可以使用VectorDB

1. Microsoft Visual C++ 14.00

Microsoft Visual C++ 14.0: https://blog.csdn.net/ViatorSun/article/details/118699938

2. DocArray

pip install docarray

3. VectorDB

pip install vectordb

本地使用方法:

官方的实例(github里的两段代码要拼到一起使用):

我将源代码的作用详细解释了下.

from docarray import BaseDoc           #基础文档class
from docarray.typing import NdArray    #N-dimension Array=N维度数组. 作用和np.arrya相近.

class ToyDoc(BaseDoc):    #继承BaseDoc
  text: str = ''          #text用于记录存储的文本.
  embedding: NdArray[128] #embedding是将文本(高维数据)压缩到128维度向量空间(低维数据)后的数据.

from docarray import DocList    #
import numpy as np
from vectordb import InMemoryExactNNVectorDB, HNSWVectorDB

# Specify your workspace path
db = InMemoryExactNNVectorDB[ToyDoc](workspace='./workspace_path') #指定后续数据存储的文件夹

# Index a list of documents with random embeddings
doc_list = [ToyDoc(text=f'toy doc {i}', embedding=np.random.rand(128)) for i in  range(1000)]  #创建一些ToyDoc数据,内容都是随机的
db.index(inputs=DocList[ToyDoc](doc_list)) #把数据存入db

# Perform a search query
query = ToyDoc(text='query', embedding=np.random.rand(128))  #给定要搜索的text和embedding.
results = db.search(inputs=DocList[ToyDoc]([query]), limit=10) #寻找db中与query向量距离最近的10个向量数据. 本质是计算embedding的距离.

# Print out the matches
for m in results[0].matches: #输出全部的搜索结果
  print(m)

以上解决了几个问题:

-->将数据和向量存储在数据库.

-->向量数据搜寻.

如何将数据转化为向量的方式并未解决, 另外一篇文本, 我将展示一个如何将text转化为向量信息.

Database: Text数据转化为向量. (高维往低维映射): http://t.csdnimg.cn/ppQPn