使用Elasticsearch进行向量存储与检索详解

qq_37836323

于 2025-07-02 13:55:59 发布

阅读量276

点赞数 4

CC 4.0 BY-SA版权

文章标签： elasticsearch 大数据搜索引擎

本文链接：https://blog.csdn.net/qq_29929123/article/details/149068495

技术背景介绍

Elasticsearch是一种分布式、RESTful风格的搜索和分析引擎，基于Apache Lucene库构建，支持向量和词汇搜索。其强大的搜索能力使其在大数据分析、日志监控等领域得到了广泛应用。为了使其与现代AI技术相结合，Elasticsearch被用作向量存储来进行高效的向量相似性搜索。

核心原理解析

Elasticsearch的向量存储功能是通过将数据嵌入（embeddings）向量化后存入索引，并在查询时计算查询向量与索引中存储向量的相似性来实现的。这一过程通常依赖于各种嵌入模型（例如OpenAI或HuggingFace的模型）来生成向量表示。向量存储的能力使得Elasticsearch不仅可以处理传统的关键词搜索，还可以进行语义相似性检索。

代码实现演示

下面我们将展示如何设置Elasticsearch作为向量存储，并进行基本的向量检索操作。为了便于演示，假设我们已经在本地运行了一个不需要身份验证的Elasticsearch实例。

# 安装必要的包
!pip install -qU langchain-elasticsearch langchain-openai langchain-huggingface langchain-core

# 导入必要的模块
from langchain_openai import OpenAIEmbeddings
from langchain_huggingface import HuggingFaceEmbeddings
from langchain_elasticsearch import ElasticsearchStore
from langchain_core.documents import Document
from uuid import uuid4

# 使用HuggingFace的预训练模型来生成嵌入
embeddings = HuggingFaceEmbeddings(model="sentence-transformers/all-mpnet-base-v2")

# 配置Elasticsearch向量存储
vector_store = ElasticsearchStore(
    es_url="http://localhost:9200",  # 本地Elasticsearch实例
    index_name="langchain_index",
    embedding=embeddings,
)

# 构建一些文档数据
documents = [
    Document(page_content="I had chocolate chip pancakes and scrambled eggs for breakfast this morning.", metadata={"source": "tweet"}),
    Document(page_content="The weather forecast for tomorrow is cloudy with a high of 62 degrees.", metadata={"source": "news"}),
    Document(page_content="Building an exciting new project with LangChain.", metadata={"source": "tweet"})
]

# 通过生成的UUID添加文档
uuids = [str(uuid4()) for _ in range(len(documents))]
vector_store.add_documents(documents=documents, ids=uuids)

# 进行相似性搜索
results = vector_store.similarity_search(
    query="LangChain project announcement",
    k=1,
    filter=[{"term": {"metadata.source.keyword": "tweet"}}],
)

# 输出搜索结果
for result in results:
    print(f"* {result.page_content} [{result.metadata}]")

应用场景分析

Elasticsearch的向量存储与检索非常适合以下应用场景：

语义搜索：例如，搜索与用户输入语义相似的内容，而不仅仅是关键词匹配。
推荐系统：利用向量相似性进行推荐，提升推荐精度。
文档分类与聚类：通过向量距离判断文档的类别或聚类。

实践建议

选择合适的嵌入模型：根据具体业务场景选择合适的嵌入模型，可以大幅提升检索效果。
优化Elasticsearch配置：调整Elasticsearch的chunk_size和max_chunk_bytes以适应不同的数据规模。
安全配置：在生产环境中，建议开启Elasticsearch安全认证。

如果遇到问题欢迎在评论区交流。
—END—