构建本地RAG应用程序-CSDN博客

本文链接：https://blog.csdn.net/antja_/article/details/148692554

在当今AI技术的迅速发展中，本地化的大型语言模型（LLM）应用变得越来越受欢迎。本文将详细讲解如何使用Ollama提供的工具和模型构建一个本地的检索增强生成（RAG）应用程序。LangChain提供了许多开源LLM的集成，可在本地运行，这使得我们可以灵活地选择合适的模型和工具。本文将重点展示如何使用LLaMA 3.1和嵌入模型进行本地应用的构建。

技术背景介绍

检索增强生成（RAG）是一种结合检索能力和生成能力的技术。通过向生成模型提供检索到的文档上下文，模型可以生成更加准确和上下文相关的回答。随着本地LLM解决方案的普及，例如llama.cpp和Ollama，开发者可以在自己的硬件上实现此类技术。

核心原理解析

RAG的核心在于两个部分：检索和生成。检索模块负责从大型文档库中找到与用户问题相关的内容，而生成模块则根据检索结果生成回答。本地RAG应用可以利用本地嵌入模型和向量存储实现快速检索，并通过本地LLM生成响应。

代码实现演示

环境搭建

首先，我们需要安装必要的库和工具。请确保在运行以下代码之前，已成功安装Ollama应用并获取了相应的模型。

%pip install -qU langchain langchain_community
%pip install -qU langchain_chroma
%pip install -qU langchain_ollama

文档加载与拆分

我们将加载一个示例文档并进行拆分，以便后续的处理。

from langchain.text_splitter import RecursiveCharacterTextSplitter
from langchain_community.document_loaders import WebBaseLoader

loader = WebBaseLoader("https://lilianweng.github.io/posts/2023-06-23-agent/")
data = loader.load()

text_splitter = RecursiveCharacterTextSplitter(chunk_size=500, chunk_overlap=0)
all_splits = text_splitter.split_documents(data)

向量存储初始化

接下来，我们初始化本地的向量存储以便进行相似度检索：

from langchain_chroma import Chroma
from langchain_ollama import OllamaEmbeddings

local_embeddings = OllamaEmbeddings(model="nomic-embed-text")
vectorstore = Chroma.from_documents(documents=all_splits, embedding=local_embeddings)

设置模型

我们将使用Ollama提供的LLaMA 3.1:8b模型来进行文本生成：

from langchain_ollama import ChatOllama

model = ChatOllama(model="llama3.1:8b")

执行查询

我们可以通过检索和生成模型来回答问题，例如对任务分解的探讨：

from langchain_core.runnables import RunnablePassthrough
from langchain_core.output_parsers import StrOutputParser
from langchain_core.prompts import ChatPromptTemplate

RAG_TEMPLATE = """
You are an assistant for question-answering tasks. Use the following pieces of retrieved context to answer the question. If you don't know the answer, just say that you don't know. Use three sentences maximum and keep the answer concise.

<context>
{context}
</context>

Answer the following question:

{question}"""

rag_prompt = ChatPromptTemplate.from_template(RAG_TEMPLATE)

def format_docs(docs):
    return "\n\n".join(doc.page_content for doc in docs)

chain = (
    RunnablePassthrough.assign(context=lambda input: format_docs(input["context"]))
    | rag_prompt
    | model
    | StrOutputParser()
)

question = "What are the approaches to Task Decomposition?"
docs = vectorstore.similarity_search(question)
chain.invoke({"context": docs, "question": question})

应用场景分析

本地RAG应用可广泛应用于知识管理、智能问答系统、自动化报告生成等领域。特别是在数据安全性要求较高的场景下，使用本地模型能有效避免数据泄露。

实践建议

模型选择：根据自身硬件配置选择合适的LLM和嵌入模型。
向量存储优化：结合业务需求调整向量存储和检索策略，提高响应速度。
持续更新：保持文档库和检索机制的更新，以保证生成结果的准确性和及时性。

如果遇到问题欢迎在评论区交流。

—END—