创建自定义信息检索器：从基础到实战

Wurenyu957

于 2025-06-26 13:55:51 发布

阅读量267

点赞数 4

CC 4.0 BY-SA版权

文章标签： windows 服务器 php

本文链接：https://blog.csdn.net/Wurenyu957/article/details/148924128

在许多大型语言模型(LLM)应用中，检索外部数据源的信息是必要的，而这通常通过使用检索器（Retriever）来实现。检索器负责从给定的用户查询中检索相关的文档列表。这些检索到的文档通常被格式化成提示，并输入到LLM中，使得LLM能够利用这些信息生成相应的响应，例如，基于知识库回答用户问题。

技术背景介绍

检索器在LLM应用中扮演着至关重要的角色，通过有效地获取相关信息，它可以显著提升模型的回答质量和准确性。创建一个自定义检索器需要继承BaseRetriever类并实现特定的方法。

核心原理解析

为了创建自定义检索器，我们需要继承BaseRetriever类并实现以下方法：

_get_relevant_documents: 用于同步检索查询相关文档，是必需实现的方法。
_aget_relevant_documents: 提供异步支持的可选实现，可以提升性能。

通过继承BaseRetriever，你的检索器自动成为一个LangChainRunnable，并可以使用标准Runnable功能。

代码实现演示

下面我们来实现一个简单的检索器，它返回包含用户查询文本的所有文档：

from typing import List
from langchain_core.callbacks import CallbackManagerForRetrieverRun
from langchain_core.documents import Document
from langchain_core.retrievers import BaseRetriever

class ToyRetriever(BaseRetriever):
    """一个简单的检索器，返回包含用户查询文本的文档。

    该检索器仅实现同步方法 `_get_relevant_documents`。
    如果检索器涉及文件或网络访问，可以受益于异步实现 `_aget_relevant_documents`。

    使用Runnables时，默认异步实现可以在另一线程上委托给同步实现。
    """

    documents: List[Document]
    """要检索的文档列表。"""
    k: int
    """要返回的结果数量"""

    def _get_relevant_documents(
        self, query: str, *, run_manager: CallbackManagerForRetrieverRun
    ) -> List[Document]:
        """检索器的同步实现。"""
        matching_documents = []
        for document in self.documents:
            if len(matching_documents) >= self.k:
                return matching_documents

            if query.lower() in document.page_content.lower():
                matching_documents.append(document)
        return matching_documents

    # 可选：通过重写提供更高效的本地实现
    # async def _aget_relevant_documents(
    #     self, query: str, *, run_manager: AsyncCallbackManagerForRetrieverRun
    # ) -> List[Document]:
    #     """异步获取查询相关的文档。
    #
    #     Args:
    #         query: 用于查找相关文档的字符串
    #         run_manager: 要使用的回调处理器
    #
    #     Returns:
    #         相关文档的列表
    #     """

测试代码实现：

documents = [
    Document(
        page_content="Dogs are great companions, known for their loyalty and friendliness.",
        metadata={"type": "dog", "trait": "loyalty"},
    ),
    Document(
        page_content="Cats are independent pets that often enjoy their own space.",
        metadata={"type": "cat", "trait": "independence"},
    ),
    Document(
        page_content="Goldfish are popular pets for beginners, requiring relatively simple care.",
        metadata={"type": "fish", "trait": "low maintenance"},
    ),
    Document(
        page_content="Parrots are intelligent birds capable of mimicking human speech.",
        metadata={"type": "bird", "trait": "intelligence"},
    ),
    Document(
        page_content="Rabbits are social animals that need plenty of space to hop around.",
        metadata={"type": "rabbit", "trait": "social"},
    ),
]

retriever = ToyRetriever(documents=documents, k=3)

# 调用检索器
retrieved_documents = retriever.invoke("that")

print(retrieved_documents)