书生·浦语大模型实战营第三节课 “茴香豆“：搭建你的 RAG 智能助理

本文链接：https://blog.csdn.net/weixin_45483762/article/details/139378987

第三节课 "茴香豆"：搭建你的 RAG 智能助理

读前感：

知识库是当前最希望学习的内容，随着工作和学习，越来越多的积累资料，散落在各个地方，用着用着自己就忘了。而且很多知识查询比较困难。希望AI的知识库可以辅助进行个人知识的管理。

读后感：

整体搭建运行时比较顺利的。但是知识库实际使用上面限制很多，不在知识库中的文件系统直接反馈空值。这点不太友好。官方教材最好给一些可以用的问题方便调试。

我总结了几个问题分享给大家。知识库文档存在：./code/huixiangdou/repodir/huixiangdou/docs的目录下，大家也可以到这里找一些适合问的问题。

知识库问题：

茴香豆如何部署到微信群
如何添加权限
介绍huixiangdou代码结构

0 RAG 概述

RAG技术（Retrieval Augmented Generation）是一种结合检索和生成功能的自然语言处理（NLP）技术，旨在提高问答和文本生成任务的效果。它通过在大规模语料库中检索与输入问题或需求相关的信息，并结合生成模型对这些信息进行理解和处理，从而生成准确、相关的文本。RAG技术的主要优势包括提高内容准确性和相关性、缓解幻觉问题、加快知识更新速度以及增强内容生成的可追溯性。它在医疗健康、药物研发、市场准入和企业内部知识管理等领域具有广泛的应用前景。

RAG技术包括以下几个关键步骤：

数据检索：根据输入的问题或需求，RAG技术会在大规模语料库中进行检索，找到与问题或需求相关的信息。
信息增强：RAG技术会对检索到的信息进行理解和处理，利用生成模型对信息进行增强的处理，以提高信息的准确性和完整性。
生成答案：最后，RAG技术会利用生成模型将处理后的信息整合成完整的答案或文本，并输出。

InternLM2的RAG效果对比：

1 环境配置

还是进入之前的开发机，这里面指导书要求再重新建立虚拟环境。但是各个教程都是从建立虚拟环境开始，开发机上面已经有很多虚拟环境了，而且每次耗时都很长，所以这次尝试用之前的环境来使用。下面的内容可能与原指导书有些差异，主要是目录设置等，请严格按照我这里的指令进行操作。

开发机已有的虚拟环境：

conda env list #检查已有的虚拟环境 conda activate internlm-demo #启动虚拟环境

1.2 下载基础文件

直接从开发机的共享文件中，通过软连接来拷贝文件。7B大模型实际之前已经拷贝到 /root/model/Shanghai_AI_Laboratory/internlm-chat-7b。

# 复制BCE模型
ln -s /root/share/new_models/maidalun1020/bce-embedding-base_v1 /root/model/bce-embedding-base_v1
ln -s /root/share/new_models/maidalun1020/bce-reranker-base_v1 /root/model/bce-reranker-base_v1

# 复制大模型参数（下面的模型，根据作业进度和任务进行**选择一个**就行）
ln -s /root/share/new_models/Shanghai_AI_Laboratory/internlm2-chat-7b /root/model/internlm2-chat-7b

1.3 下载安装茴香豆

# 安装 python 依赖, 大概等待5分钟。
# pip install -r requirements.txt

pip install protobuf==4.25.3 accelerate==0.28.0 aiohttp==3.9.3 auto-gptq==0.7.1 bcembedding==0.1.3 beautifulsoup4==4.8.2 einops==0.7.0 faiss-gpu==1.7.2 langchain==0.1.14 loguru==0.7.2 lxml_html_clean==0.1.0 openai==1.16.1 openpyxl==3.1.2 pandas==2.2.1 pydantic==2.6.4 pymupdf==1.24.1 python-docx==1.1.0 pytoml==0.1.21 readability-lxml==0.8.1 redis==5.0.3 requests==2.31.0 scikit-learn==1.4.1.post1 sentence_transformers==2.2.2 textract==1.6.5 tiktoken==0.6.0 transformers==4.39.3 transformers_stream_generator==0.0.5 unstructured==0.11.2

## 因为 Intern Studio 不支持对系统文件的永久修改，在 Intern Studio 安装部署的同学不建议安装 Word 依赖，后续的操作和作业不会涉及 Word 解析。
## 想要自己尝试解析 Word 文件的同学，uncomment 掉下面这行，安装解析 .doc .docx 必需的依赖
# apt update && apt -y install python-dev python libxml2-dev libxslt1-dev antiword unrtf poppler-utils pstotext tesseract-ocr flac ffmpeg lame libmad0 libsox-fmt-mp3 sox libjpeg-dev swig libpulse-dev

从茴香豆官方仓库下载茴香豆。

cd /root/code
# 克隆代码仓库
git clone https://github.com/internlm/huixiangdou && cd huixiangdou
git checkout 63f2eef0e6e4ac113b05ede0316b193948a42cda

2 使用茴香豆搭建 RAG 助手

2.1 修改配置文件

修改 cd /root/code/huixiangdou/config.ini。我这里使用vs code直接界面上修改。

embedding_model_path = "/root/model/bce-embedding-base_v1"
reranker_model_path = "/root/model/bce-reranker-base_v1"
local_llm_path = "/root/model/internlm2-chat-7b"

2.2 创建知识库

首先，下载 Huixiangdou 语料：

cd /root/code/huixiangdou && mkdir repodir        #创建目录

git clone https://github.com/internlm/huixiangdou --depth=1 repodir/huixiangdou      #复制代码

提取知识库特征，创建向量数据库。数据库向量化的过程应用到了 LangChain 的相关模块，默认嵌入和重排序模型调用的网易 BCE 双语模型，如果没有在 config.ini 文件中指定本地模型路径，茴香豆将自动从 HuggingFace 拉取默认模型。

除了语料知识的向量数据库，茴香豆建立接受和拒答两个向量数据库，用来在检索的过程中更加精确的判断提问的相关性，这两个数据库的来源分别是：

接受问题列表，希望茴香豆助手回答的示例问题

存储在 huixiangdou/resource/good_questions.json 中

拒绝问题列表，希望茴香豆助手拒答的示例问题

存储在 huixiangdou/resource/bad_questions.json 中

其中多为技术无关的主题或闲聊。如："nihui 是谁", "具体在哪些位置进行修改？", "你是谁？", "1+1"

运行下面的命令，增加茴香豆相关的问题到接受问题示例中：

cd /root/code/huixiangdou
mv resource/good_questions.json resource/good_questions_bk.json        #备份老的文件

# 新建文件
echo '[
    "mmpose中怎么调用mmyolo接口",
    "mmpose实现姿态估计后怎么实现行为识别",
    "mmpose执行提取关键点命令不是分为两步吗，一步是目标检测，另一步是关键点提取，我现在目标检测这部分的代码是demo/topdown_demo_with_mmdet.py demo/mmdetection_cfg/faster_rcnn_r50_fpn_coco.py checkpoints/faster_rcnn_r50_fpn_1x_coco_20200130-047c8118.pth   现在我想把这个mmdet的checkpoints换位yolo的，那么应该怎么操作",
    "在mmdetection中，如何同时加载两个数据集，两个dataloader",
    "如何将mmdetection2.28.2的retinanet配置文件改为单尺度的呢？",
    "1.MMPose_Tutorial.ipynb、inferencer_demo.py、image_demo.py、bottomup_demo.py、body3d_pose_lifter_demo.py这几个文件和topdown_demo_with_mmdet.py的区别是什么，\n2.我如果要使用mmdet是不是就只能使用topdown_demo_with_mmdet.py文件，",
    "mmpose 测试 map 一直是 0 怎么办？",
    "如何使用mmpose检测人体关键点？",
    "我使用的数据集是labelme标注的，我想知道mmpose的数据集都是什么样式的，全都是单目标的数据集标注，还是里边也有多目标然后进行标注",
    "如何生成openmmpose的c++推理脚本",
    "mmpose",
    "mmpose的目标检测阶段调用的模型，一定要是demo文件夹下的文件吗，有没有其他路径下的文件",
    "mmpose可以实现行为识别吗，如果要实现的话应该怎么做",
    "我在mmyolo的v0.6.0 (15/8/2023)更新日志里看到了他新增了支持基于 MMPose 的 YOLOX-Pose，我现在是不是只需要在mmpose/project/yolox-Pose内做出一些设置就可以，换掉demo/mmdetection_cfg/faster_rcnn_r50_fpn_coco.py 改用mmyolo来进行目标检测了",
    "mac m1从源码安装的mmpose是x86_64的",
    "想请教一下mmpose有没有提供可以读取外接摄像头，做3d姿态并达到实时的项目呀？",
    "huixiangdou 是什么？",
    "使用科研仪器需要注意什么？",
    "huixiangdou 是什么？",
    "茴香豆 是什么？",
    "茴香豆 能部署到微信吗？",
    "茴香豆 怎么应用到飞书",
    "茴香豆 能部署到微信群吗？",
    "茴香豆 怎么应用到飞书群",
    "huixiangdou 能部署到微信吗？",
    "huixiangdou 怎么应用到飞书",
    "huixiangdou 能部署到微信群吗？",
    "huixiangdou 怎么应用到飞书群",
    "huixiangdou",
    "茴香豆",
    "茴香豆 有哪些应用场景",
    "huixiangdou 有什么用",
    "huixiangdou 的优势有哪些？",
    "茴香豆 已经应用的场景",
    "huixiangdou 已经应用的场景",
    "huixiangdou 怎么安装",
    "茴香豆 怎么安装",
    "茴香豆 最新版本是什么",
    "茴香豆 支持哪些大模型",
    "茴香豆 支持哪些通讯软件",
    "config.ini 文件怎么配置",
    "remote_llm_model 可以填哪些模型?"
]' > /root/code/huixiangdou/resource/good_questions.json

再创建一个测试用的问询列表，用来测试拒答流程是否起效：

cd /root/code/huixiangdou

echo '[
"huixiangdou 是什么？",
"你好，介绍下自己"
]' > ./test_queries.json

在确定好语料来源后，运行下面的命令，创建 RAG 检索过程中使用的向量数据库：

# 创建向量数据库存储目录
cd /root/code/huixiangdou && mkdir workdir 

# 分别向量化知识语料、接受问题和拒绝问题中后保存到 workdir
python3 -m service.feature_store --sample ./test_queries.json

向量数据库的创建需要等待一小段时间，过程约占用 1.6G 显存。

完成后，Huixiangdou 相关的新增知识就以向量数据库的形式存储在 workdir 文件夹下。

检索过程中，茴香豆会将输入问题与两个列表中的问题在向量空间进行相似性比较，判断该问题是否应该回答，避免群聊过程中的问答泛滥。确定的回答的问题会利用基础模型提取关键词，在知识库中检索 top K 相似的 chunk，综合问题和检索到的 chunk 生成答案。

2.3 运行茴香豆知识助手

我们已经提取了知识库特征，并创建了对应的向量数据库。现在，让我们来测试一下效果：

# 填入问题
sed -i '74s/.*/    queries = ["huixiangdou 是什么？", "茴香豆怎么部署到微信群", "今天天气怎么样？"]/' /root/code/huixiangdou/huixiangdou/main.py

# 运行茴香豆
cd /root/code/huixiangdou/
python3 -m huixiangdou.main --standalone

RAG 技术的优势就是非参数化的模型调优，这里使用的仍然是基础模型 InternLM2-Chat-7B，没有任何额外数据的训练。面对同样的问题，我们的茴香豆技术助理能够根据我们提供的数据库生成准确的答案：

资源监控

到此我们就完成了一个茴香豆知识助手的服务器端部署（基础作业）的全部内容。

这里没有WEB页面或CLI命令行，是通过将问题直接写到 /root/code/huixiangdou/huixiangdou/main.py里面。但是超出知识库的问题好像是无法回答。

3 茴香豆进阶（选做）

3.1 加入网络搜索（这部分不推荐使用，由于知识库的问题限制，网上返回的信息基本无法使用）

茴香豆除了可以从本地向量数据库中检索内容进行回答，也可以加入网络的搜索结果，生成回答。

开启网络搜索功能需要用到 Serper 提供的 API：

登录 Serper ，注册：这个需要自行注册。
获取自己的API key

替换 /huixiangdou/config.ini 中的 ${YOUR-API-KEY} 为自己的API-key：

这里要修改一下，使用远程大模型：

enable_local = 0 # 关闭本地模型
enable_remote = 1 # 启用云端模型

3.2 使用远程模型

茴香豆除了可以使用本地大模型，还可以轻松的调用云端模型 API。

目前，茴香豆已经支持 Kimi，GPT-4，Deepseek 和 GLM 等常见大模型API。

想要使用远端大模型，首先修改 /huixiangdou/config.ini 文件中

远端模型配置选项	GPT	Kimi	Deepseek	ChatGLM	xi-api	alles-apin
remote_type	gpt	kimi	deepseek	zhipuai	xi-api	alles-apin
remote_llm_max_text_length 最大值	192000	128000	16000	128000	192000	-
remote_llm_model	"gpt-4-0613"	"moonshot-v1-128k"	"deepseek-chat"	"glm-4"	"gpt-4-0613"	-

这里面我新注册了Deepseek，注册后免费给500万 tokens。

修改config.ini

pip3 install faiss-cpu        #补一个库

3.3 利用 Gradio 搭建网页 Demo

让我们用 Gradio 搭建一个自己的网页对话 Demo，来看看效果。

首先，安装 Gradio 依赖组件：

pip install gradio==4.25.0 redis==5.0.3 flask==3.0.2 lark_oapi==1.2.4

运行脚本，启动茴香豆对话 Demo 服务：

cd /root/code/huixiangdou
python3 -m tests.test_query_gradio

这里面可能需要进行开发机到本地的端口映射，教程里面有我就不复述了。

打开本地网址：http://localhost:7860/

这里面的问题很重要，如果是知识库里面没有的知识，系统直接反馈“空”。

可以使用一下几个问题：

茴香豆如何部署到微信群
如何添加权限
介绍huixiangdou代码结构

其他不在知识库中的内容，反馈如下图

资源监控情况

3.4 配置文件解析

config.ini，这个文件再5月30日有升级，增加了一些配置，添加了很多备注。

比较简单，自行研究吧。

3.5 文件结构

希望问一下，为什么父子目录都叫做“huixiangdou”，建议换个名字，容易混淆。

茴香豆工作流中用到的 Prompt 位于 huixiangdou/service/worker.py 中。可以根据业务需求尝试调整 Prompt，打造你独有的茴香豆知识助手。

基本原理还不是很清楚，以后研究一下。