使用Marqo进行多模态数据向量存储和查询-CSDN博客

本文链接：https://blog.csdn.net/qq_29929123/article/details/149069340

Marqo 是一个开源的向量搜索引擎，可以存储和查询文本与图像等多模态数据。它提供了强大的功能，允许用户使用多种开源模型自动生成向量，并支持用户自定义的精调模型。本文将展示如何安装和使用 Marqo 进行多模态数据的处理。

技术背景介绍

随着人工智能的发展，处理复杂信息的能力需求不断增加。传统的全文搜索引擎在处理非结构化数据时表现有限，而向量搜索引擎则利用数值向量表示数据内容，可以实现高效的语义搜索。Marqo 专注于多模态数据的向量化及搜索，广泛用于图像识别、文本分析等领域。

核心原理解析

Marqo 的核心在于通过向量化技术将数据转化为数值向量，并利用向量相似度进行搜索。它支持将文本和图像数据作为输入，从而实现多模态搜索，增强搜索结果的精准度。

代码实现演示(重点)

首先，我们需要安装 Marqo 和相关的工具包：

docker pull marqoai/marqo:latest
docker rm -f marqo
docker run --name marqo -it --privileged -p 8882:8882 --add-host host.docker.internal:host-gateway marqoai/marqo:latest
%pip install --upgrade --quiet marqo langchain-community

接着，使用 Marqo 进行文本数据的处理和搜索：

import marqo
from langchain_community.document_loaders import TextLoader
from langchain_community.vectorstores import Marqo
from langchain_text_splitters import CharacterTextSplitter

# 初始化 Marqo 客户端
marqo_url = "http://localhost:8882"
marqo_api_key = ""
client = marqo.Client(url=marqo_url, api_key=marqo_api_key)

index_name = "langchain-demo"

# 加载文档
loader = TextLoader("../../how_to/state_of_the_union.txt")
documents = loader.load()
text_splitter = CharacterTextSplitter(chunk_size=1000, chunk_overlap=0)
docs = text_splitter.split_documents(documents)

# 创建并搜索索引
docsearch = Marqo.from_documents(docs, index_name=index_name)
query = "What did the president say about Ketanji Brown Jackson"
result_docs = docsearch.similarity_search(query)

print(result_docs[0].page_content)