Elasticsearch 混合检索优化大模型 RAG 任务

本文介绍了如何在Elasticsearch中利用混合检索(全文+ANN)和倒数融合排序技术(RRF)来处理大规模的RAG任务,包括文本向量化、LLM集成、模型部署和查询示例。Elasticsearch的8.9版本提供了强大的相关性排序和向量支持,使得在处理文本、图像等多种模态数据时表现出色。

摘要生成于 C知道 ,由 DeepSeek-R1 满血版支持, 前往体验 >

Elastic 社区在自然语言处理上面做的很不错官方博客更新速度也很快,现阶段大模型的应用场景主要在 Rag 和 Agent 上,国内 Rag(Retrieval-Augmented Generation 检索增强生成) 的尤其多,而搜索对于 Elasticsearch 来说是强项特别是 8.9 之后的版本提供了 ESRE 模块(集成了高级相关性排序如 BM25f、强大的矢量数据库、自然语言处理技术、与第三方模型如 GPT-3 和 GPT-4 的集成,并支持开发者自定义模型与应用),经过我的各种尝试在 Elasticsearch 上做 NLP 是一个很不错的选择,要做大规模的 RAG 任务甚至是针对图像、声音、多模态、关键词等大数据量的向量召回且搭配生成式模型这种复杂的业务场景 Elasticsearch 是天生支持的。此篇文章主要记录混合检索(BM25 +HNSW)倒数融合排序(RRF)完整测试。

官博有几篇不错的文章可以看看:

先说一下 RAG 任务的流程,以民法典为例 LLM 可以在现有资料上分析出确切的回答:
文档分割 -> 文本向量化 -> 问句向量化 -> 向量相似 top k个 -> 拼接 prompt 上下文  -> 提交给 LLM 生成回答。

1.混合检索

全文检索 + ANN 检索。因为全文检索能查找更加准确的文档,直观都会感觉比单一的相似度检索更强。一个混合检索的查询语句例如:

{
  "query": {
    "bool": {
      "must": [
        { "match": {"content": {"query": "结婚领证登记需要双发到场吗?","boost": 1}}}
      ]
    }
  },
  "knn": {
    "field": "content_embed",
    "k": 5,
    "num_candidates": 100,
    "query_vector": []   // 向量、省略
  },
  "size": 5
}

2.倒数融合排序

倒数排序融合 - Reciprocal rank fusion:
由于全文搜索及向量搜索是使用不同的算法进行打分的,这就造成把两个不同搜索结果综合起来统一排名的困难。向量搜索的分数处于 0-1.0 之间,而全文搜索的结果排名分数可能是高于10或者更大的值。我们需要一种方法把两种搜索方法的结果进行综合处理,并得出一个唯一的排名。
倒数排序融合(RRF)是一种将具有不同相关性指标的多个结果集组合成单个结果集的方法。 
RRF 无需调优,不同的相关性指标也不必相互关联即可获得高质量的结果。该方法的优势在于不利用相关分数,而仅靠排名计算。相关分数存在的问题在于不同模型的分数范围差。
针对不同的 RAG 任务有不同的处理方式比如 法律、历史、人文类型的任务还可以加入命名实体识别 。或者使用其他语义转换模型将长文本总结为短文本。将拆分的长文本先调用 embed 转为向量后存储到 index 上。然后执行混合检索。

3.Embedding

第一步是文本向量化,这一步可以放在客户端做也可以放在 Elasticsearch 服务端做,不过模型推理是 Elasticsearch 新版中的重大功能,下面演示如何做。

在抱脸上直接搜索  sentence-similarity 模型,最靠前的就是 bge 由智源开源,基本上从去年开始一直是榜一,输入 zh 筛选中文:

使用 langchain 测试推理,模型输出是  dim=1024:

ElasticSearch支持最大 2048,目前 Es 还不支持非固定长度的向量,Elasticsearch 提供了 Eland 工具用于 pytorch 模型的推理和上传,源码安装该工具:

git clone https://github.com/elastic/eland
pip install -r requirements.txt -i https://mirrors.aliyun.com/pypi/simple/
python setup.py install

然后执行上传脚本:
eland_import_hub_model --url http://192.168.197.128:9200 --hub-model-id .\Langchain-Chatchat-0.2.10\model\bge-large-zh-v1.5 --task-type text_embedding --start --clear-previous

上传过程不太顺利发现源码有一些问题需要修改,大致两处:
eland_import_hub_model.py  =>    上传前会把模型和一些文件放到临时目录,因为我的 windwos user name 是中文会找不到路径。直接将 tmp 写死即可。
            with tempfile.TemporaryDirectory() as tmp_dir:
            tmp_dir = 'C:\\tmp' 
transformers.py    =>        函数里面将 token 这个参数去掉
            # model = AutoModel.from_pretrained(model_id, token=token, torchscript=True)
            model = AutoModel.from_pretrained(model_id, torchscript=True)

等待执行完成:

上传成功后在 kibana 模型管理位置点击 Synchronize your jobs and trained models.,同步一下刚刚上传的模型看到,调用推理接口,复制模型id,可以看到模型输出和前面 embed_demo.py 中测试的一样:
POST _ml/trained_models/m_workspace__langchain-chatchat-0.2.10__model__bge-large-zh-v1.5/_infer
{
  "docs": [
    {"text_field": "你好,请问你在干什么?"}
  ]
}

4.文本分割

向量 dim=1024 是无法将一个超长文本完整的语义全部嵌入的,且大模型 token 的限制需要将文档进行分割,最简单的做法是指定 chunk_size(单个文档token数) 和 chunk_overlap(向量文档重叠token数)对文档进行分割,也有按句分割的做法,更加准确的是使用现成的语义分割模型,可以看看 github 上 Langchain-Chatchat 这个项目,提供了多种分割方式:

5.部署 LLM 做增强生成

对于 RAG 任务,更大参数量的 LLM 对效果并没有显著提升, 即使是最小参数量的大模型也涵盖了基本的理解能力,这里部署清华 ChatGLM-6b  int4 量化模型 6G显存就够,这样可以将 token 开到很大。

git clone https://github.com/THUDM/ChatGLM-6B
pip install -r requirements.txt -i https://mirrors.aliyun.com/pypi/simple/
git clone https://huggingface.co/THUDM/chatglm-6b-int4

模型 README.md 中有测试代码,替换一下模型路径就可以了:

然后写一个 ELasticsearch Query 例子,根据搜索文档拼接 Prompt 做问答,Java 完整代码:

package tool.elk;

import com.alibaba.fastjson.JSON;
import com.alibaba.fastjson.JSONArray;
import com.alibaba.fastjson.JSONObject;
import org.apache.http.HttpEntity;
import org.apache.http.HttpHost;
import org.apache.http.client.methods.CloseableHttpResponse;
import org.apache.http.client.methods.HttpPost;
import org.apache.http.entity.ContentType;
import org.apache.http.entity.StringEntity;
import org.apache.http.impl.client.HttpClients;
import org.apache.http.nio.entity.NStringEntity;
import org.apache.http.util.EntityUtils;
import org.elasticsearch.client.*;
import org.elasticsearch.client.indices.CreateIndexRequest;
import org.elasticsearch.client.indices.GetIndexRequest;
import org.elasticsearch.common.xcontent.XContentType;
import java.io.BufferedReader;
import java.io.FileReader;
import java.nio.charset.StandardCharsets;
import java.util.ArrayList;
import java.util.List;

/**
 *   @desc : elatcisearch rag 测试
 *   @auth : tyf
 *   @date : 2024-04-16 10:06:24
*/
public class RAGDemo {

    public static String es_host = "192.168.197.128";
    public static Integer es_port = 9200;

    public static String llm_host = "http://0.0.0.0:8000";

    public static RestHighLevelClient highLevelClient;
    public static RestClient lowLevelClient;
    static {
        String[] ipArr = es_host.split(",");
        HttpHost[] httpHosts = new HttpHost[ipArr.length];
        for (int i = 0; i < ipArr.length; i++) {
            httpHosts[i] = new HttpHost(ipArr[i], es_port, "http");
        }
        RestClientBuilder builder = RestClient.builder(httpHosts);
        highLevelClient = new RestHighLevelClient(builder);
        lowLevelClient = highLevelClient.getLowLevelClient();
        System.out.println("初始化成功");
    }

    
    // 索引名称
    public static String indexName = "doc_split";
    // 索引 mapping
    public static String indexMapping =
            "{\n" +
                    "  \"settings\": {\n" +
                    "    \"number_of_shards\": 1,\n" +
                    "    \"number_of_replicas\": 0\n" +
                    "  },\n" +
                    "  \"mappings\": {\n" +
                    "    \"properties\": {\n" +
                    "      \"content\": {\n" +
                    "        \"type\": \"text\"\n" +
                    "      },\n" +
                    "      \"timestamp\": {\n" +
                    "        \"type\": \"long\"\n" +
                    "      },\n" +
                    "      \"content_embed\": {\n" +
                    "        \"type\": \"dense_vector\",\n" +
                    "        \"dims\": 1024,\n" +
                    "        \"index\": true,\n" +
                    "        \"similarity\": \"cosine\"\n" +
                    "      }\n" +
                    "    }\n" +
                    "  }\n" +
                    "}";

    // embed 模型编号
    public static String modelId = "m_workspace__langchain-chatchat-0.2.10__model__bge-large-zh-v1.5";

    // 文档召回 _score 阈值
    public static double scoreThreshold = 3d;

    // 本地文档路径
    public static String docPath = "C:\\Users\\唐于凡\\Desktop\\中华人民共和国民法典.txt";



    // 创建索引
    public static void createIndex() throws Exception{
//        System.out.println(indexMapping);
        // 索引不存在则创建
        GetIndexRequest request1 = new GetIndexRequest(indexName);
        boolean response1 = highLevelClient.indices().exists(request1, RequestOptions.DEFAULT);
        if(!response1){
            CreateIndexRequest request2 = new CreateIndexRequest(indexName);
            request2.source(indexMapping, XContentType.JSON);
            highLevelClient.indices().create(request2, RequestOptions.DEFAULT);
        }
    }

    // 读取并拆分文档
    public static List<String> parseDoc(int chunkSize,int chunkOverlap) throws Exception{
        List<String> splitTexts = new ArrayList<>();
        try (BufferedReader br = new BufferedReader(new FileReader(docPath))) {
            StringBuilder sb = new StringBuilder();
            String line;
            while ((line = br.readLine()) != null) {
                // 去掉没用的空格
                line = line.trim();
                if (!line.isEmpty()) {
                    sb.append(line).append(" "); // 可以根据需要调整分隔符
                }
            }
            String fullText = sb.toString().trim();
            // 拆分文本
            for (int i = 0; i < fullText.length(); i += chunkSize - chunkOverlap) {
                if (i + chunkSize < fullText.length()) {
                    splitTexts.add(fullText.substring(i, i + chunkSize));
                } else {
                    splitTexts.add(fullText.substring(i));
                }
            }
        }
        System.out.println("文档总数:"+splitTexts.size());
        return splitTexts;
    }


    // 调用 embed 模型转为向量
    public static Object embedDoc(String text){

        Object rt = null;
        // POST
        try {
            String entity = "{ \"docs\": [{\"text_field\": \""+text+"\"}]}";
            Request req = new Request("POST","_ml/trained_models/"+modelId+"/_infer");
            HttpEntity params = new NStringEntity(entity, ContentType.APPLICATION_JSON);
            req.setEntity(params);
            Response rsp = lowLevelClient.performRequest(req);
            HttpEntity en = rsp.getEntity();
            String body = EntityUtils.toString(en);
            JSONObject data = JSON.parseObject(body);
            rt = data.getJSONArray("inference_results").getJSONObject(0).getJSONArray("predicted_value");
        }
        catch (Exception e){
            e.printStackTrace();
        }
        return rt;
    }

    // 提交 Elasticsearch
    public static void uploadDoc(List<String> docSplits) throws Exception{

        // 遍历每个文档
        for (int i = 0; i < docSplits.size(); i++) {
            // 原始文本
            String content = docSplits.get(i);
            // 转为向量
            Object content_embed = embedDoc(content);
            // 时间
            Long timestamp = System.currentTimeMillis();

            // 上传
            JSONObject data = new JSONObject();
            data.put("content",content);
            data.put("content_embed",content_embed);
            data.put("timestamp",timestamp);

            Request req = new Request("POST","/"+indexName+"/_doc");
            HttpEntity params = new NStringEntity(data.toJSONString(), ContentType.APPLICATION_JSON);
            req.setEntity(params);
            Response res = lowLevelClient.performRequest(req);
            System.out.println("上传第"+i+"条:"+res);
        }

    }

    // 执行混合检索
    public static List<String> search(String q) throws Exception{

        // 转为向量
        Object vector = embedDoc(q);

        // 查询语句
        String query =
                "{\n" +
                        "  \"query\": {\n" +
                        "    \"bool\": {\n" +
                        "      \"must\": [\n" +
                        "        {\n" +
                        "          \"match\": {\n" +
                        "            \"content\": {\n" +
                        "              \"query\": \""+q+"\",\n" +
                        "              \"boost\": 1\n" +
                        "            }\n" +
                        "          }\n" +
                        "        }\n" +
                        "      ]\n" +
                        "    }\n" +
                        "  },\n" +
                        "  \"knn\": {\n" +
                        "    \"field\": \"content_embed\",\n" +
                        "    \"k\": 5,\n" +
                        "    \"num_candidates\": 100,\n" +
                        "    \"query_vector\": "+vector+"\n" +
                        "  },\n" +
                        "  \"size\": 5\n" +
                        "}\n";

//        System.out.println("查询语句:");
//        System.out.println(query);

        // 调用查询
        Request req = new Request("POST","/"+indexName+"/_search?pretty");
        HttpEntity params = new NStringEntity(query, ContentType.APPLICATION_JSON);
        req.setEntity(params);
        Response res = lowLevelClient.performRequest(req);

        // 解析
        String body = EntityUtils.toString(res.getEntity());
        JSONArray data = JSON.parseObject(body).getJSONObject("hits").getJSONArray("hits");

        // 遍历每个文档、将高的分的文档保存
        List<String> contents = new ArrayList<>();
        data.stream().map(n->JSONObject.parseObject(n.toString())).forEach(n->{
            // 得分高的才作为资料避免 llm 幻觉
            Double _score = n.getDouble("_score");
            if(_score >= scoreThreshold){
                // 文本
                String content = n.getJSONObject("_source").getString("content");
                contents.add(content);
                System.out.println("召回文档数据:"+n);
            }
        });

        System.out.println();
        return contents;
    }

    // 拼接 prompt
    public static String prompt(List<String> content,String q){

        StringBuilder question = new StringBuilder();

        question.append("你好,下面是我搜索得到的资料:\n");
        if(content.size()==0){
            question.append("无。\n");
        }
        for (int i = 0; i < content.size() ; i++) {
            question.append("("+(i+1)+")").append(content.get(i)).append("\n");
        }
        question.append("\n");
        question.append("请帮我根据上面的资料分析下面的问题,并帮我根据资料列出相关依据:\n");
        question.append(q).append("\n");
        question.append("\n");
        question.append("如果根据资料无法分析请回复不知道!");

        return question.toString();
    }

    // 调用 LLM 生成回答
    public static String llmAnswer(String question) throws Exception{

        JSONObject data = new JSONObject();
        data.put("prompt",question);
        data.put("history",null);

        HttpPost httpPost = new HttpPost(llm_host);
        httpPost.addHeader("Content-Type", "application/json;charset=utf-8");
        httpPost.setEntity(new StringEntity(data.toString(), StandardCharsets.UTF_8));
        CloseableHttpResponse response = HttpClients.createDefault().execute(httpPost);
        HttpEntity resEntity = response.getEntity();
        String resp = EntityUtils.toString(resEntity,"utf-8");
        return JSONObject.parseObject(resp).getString("response");
    }

    public static void main(String[] args) throws Exception{

        // 创建索引
//        createIndex();

        // 读取并拆分文档、提交 Elasticsearch
//        uploadDoc(parseDoc(500,100));

        // 执行混合检索
        String question = "结婚领证登记需要双发到场吗?";
        List<String> contents = search(question);

        // 执行混合检索并拼接 prompt
        String prompt = prompt(contents,question);

        // 调用 LLM 生成回答
        String answer = llmAnswer(prompt);

        System.out.println("-----------");
        System.out.println("Question:");
        System.out.println(question);
        System.out.println("-----------");
        System.out.println("Prompt:");
        System.out.println(prompt);
        System.out.println("-----------");
        System.out.println("Answer:");
        System.out.println(answer);
    }

}


 
 

<think>好的,用户现在问的是如何做大数据量的RAG知识库技术。首先,我需要确认用户对RAG的理解程度。RAG,也就是检索增强生成,结合了信息检索和生成模型,常用于问答系统等场景。用户提到的是大数据量,所以可能需要处理海量文档,这对系统的扩展性和效率有较高要求。 接下来,用户可能是技术人员,比如工程师或者数据科学家,想要构建一个高效的RAG系统。他们可能遇到的问题包括如何高效检索、处理速度、准确性以及成本控制。需要从数据预处理、检索优化、生成模型选择、工程化部署等方面来解答。 要考虑大数据量的挑战,比如数据分块策略,避免信息丢失。可能需要使用向量数据库,比如Milvus或FAISS,来加速相似性搜索。另外,可能需要分布式计算或者并行处理来提高处理速度。 还要注意模型的上下文窗口限制,比如GPT-4的最大token数,可能需要优化分块大小和重叠策略。另外,混合检索方法,结合关键词和向量搜索,可能提升准确性。 用户可能没有提到的深层需求是系统的实时性、可扩展性以及维护成本。需要建议监控和迭代,持续优化系统。可能还需要提到硬件选型,比如GPU加速,或者使用云计算服务来弹性扩展资源。 总结回答结构:先介绍RAG的基本概念,然后分步骤讲解数据预处理、检索策略、生成模型、工程优化,最后提维护和监控。确保覆盖所有关键点,同时给出实际例子或工具推荐,帮助用户落地实施。</think>构建大数据量的RAG(Retrieval-Augmented Generation,检索增强生成)知识库技术需要综合数据处理、高效检索和生成模型的协同优化。以下是关键步骤和技术要点: --- ### **1. 数据准备与预处理** - **数据收集** 整合多源数据(文档、网页、数据库、API等),需覆盖业务场景需求,注意数据质量和版权合规性。 - **数据清洗** 去重、去噪(如HTML标签、乱码)、结构化处理(表格/文本分离)、实体识别(如日期、人名)。 - **分块(Chunking)** - **策略**:按段落、句子或固定长度分块(如512~2048 tokens),可结合语义边界(如Markdown标题)避免信息割裂。 - **重叠处理**:相邻块间部分重叠(如10%内容),确保上下文连贯。 - **向量化** 使用嵌入模型(如`text-embedding-3-large`、`BGE`、`OpenAI Embeddings`)将文本转换为高维向量,支持后续相似性检索。 --- ### **2. 高效检索系统构建** - **向量数据库选型** 支持大规模向量快速检索,如: - **云服务**:Pinecone、AWS OpenSearch(含k-NN插件)、Azure Cognitive Search。 - **开源**:Milvus、FAISS、Weaviate、Qdrant。 - **混合检索策略** - **多路召回**:结合向量检索(语义相似性)+ 关键词检索(BM25/Elasticsearch)提升覆盖率。 - **重排序(Rerank)**:使用交叉编码器(如Cohere Reranker、BGE Reranker)对初筛结果精排。 - **分布式架构** 对TB级数据,采用分片(Sharding)、并行计算(如Spark预处理)和缓存机制(Redis/Memcached)加速响应。 --- ### **3. 生成模型优化** - **模型选型** - **通用场景**:GPT-4、Claude、DeepSeek-R1。 - **垂直领域**:微调领域适配模型(如Llama-3、Qwen)或使用工具增强(如代码解释器、公式生成)。 - **上下文压缩** 针对长上下文(如100k tokens),采用滑动窗口、关键信息提取(如LangChain的`ContextualCompressionRetriever`)减少冗余。 - **提示工程** - 设计明确指令(如“基于以下资料回答,若未提及则说明未知”)。 - 结构化输出要求(JSON、Markdown表格等)。 --- ### **4. 工程化与性能优化** - **流水线设计** 异步处理数据更新,实现实时/近实时索引更新(如Kafka流处理)。 - **硬件加速** - 向量检索:GPU加速(CUDA+FAISS)或专用硬件(如TPU)。 - 模型推理:量化(GGUF/FP16)、模型剪枝、使用Triton推理服务器。 - **成本控制** - 冷热数据分层存储(如S3+向量数据库)。 - 按需加载索引,限制高成本API调用(如按token计费的模型)。 --- ### **5. 评估与迭代** - **评估指标** - 检索阶段:召回率(Recall@k)、准确率(Precision@k)。 - 生成阶段:ROUGE、BLEU分数,人工评估相关性、事实一致性。 - **持续优化** - 错误分析:挖掘Bad Case(如幻觉、检索遗漏)。 - 数据闭环:收集用户反馈,迭代更新知识库和模型。 --- ### **典型工具链示例** ```plaintext 数据源 → Apache Spark(清洗) → Sentence Transformers(向量化) → Milvus(向量库) ↓ 用户提问 → Elasticsearch(关键词检索) → 混合召回 → Cohere Reranker → GPT-4 → 最终回答 ``` --- ### **挑战与解决方案** - **数据更新延迟**:增量索引(如Delta Lake)+ 版本控制。 - **长尾查询**:引入Few-shot Prompt或少量数据微调。 - **多模态扩展**:结合CLIP(图像)、Whisper(音频)实现跨模态检索。 通过上述步骤,可构建支持海量数据、低延迟、高准确性的RAG系统,适用于智能客服、文档分析等场景。
评论 2
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包

打赏作者

0x13

你的鼓励将是我创作的最大动力

¥1 ¥2 ¥4 ¥6 ¥10 ¥20
扫码支付:¥1
获取中
扫码支付

您的余额不足,请更换扫码支付或充值

打赏作者

实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值