Coco AI 快速构建本地文档知识库增强检索+智能问答系统-CSDN博客

本文为博主原创文章，未经博主书面授权不得转载。书面授权后方可转载，但转载请务必加上原作者：铭毅天下，原文地址：blog.csdn.net/laoyang360

相对比较复杂。

需要部署：Elasticsearch、FSCrawler、通义本地模型、ollama、Gradio 等。

全部前后端代码都需要自己实现，有一定的学习成本。那有没有极简的方式构建呢？

之前一篇文章介绍了：《如何将 Coco AI 与自定义数据源集成？》基于这个自定义数据源的思路，再进一步呢？

其实再进一步就是本文题目的内容了。

数据源唯一id：d1mv5ci6dku3m75bq3tg。

创建完数据源结构如下图所示：

特别说明：目前这里只支持 API 方式生成，0.6 版本不支持通过可视化界面配置生成。

基于 ollama 本地部署的模型进行添加。

应答模型选择好，如下图所示。

数据源头对应好，如下图所示。

代码包括读取、分割文档内容并上传至 Elasticsearch 实例的实用工具。

将《一本书讲透 Elasticsearch 》400页+书稿导入效果如下所示。

详细代码参见：https://articles.zsxq.com/id_5ea0h58pdae2.html

序号	函数名称	参数	返回值	详细说明
1	`read_docx`	`file_path` (字符串): `.docx` 文件路径	字符串列表 (段落)	读取 `.docx` 文件并提取非空段落作为字符串列表。
2	`split_paragraphs`	`paragraphs` (列表): 段落字符串列表 `max_chars` (整数): 每块最大字符数 (默认: 3000)	字符串列表 (分块)	根据最大字符数限制将段落分割成块。
3	`split_by_bytes`	`paragraphs` (列表): 段落字符串列表 `max_bytes` (整数): 每块最大字节数 (默认: 5000)	字符串列表 (分块)	根据最大字节数 (UTF-8 编码) 将段落分割成块。
4	`save_split_docx`	`paragraphs` (列表): 段落字符串列表 `save_path` (字符串): 保存新 `.docx` 文件的路径	无	从段落列表创建新的 `.docx` 文件并保存到指定路径。
5	`process_docx_file`	`file_path` (字符串): 输入 `.docx` 文件路径	字典列表 (文档)	处理 `.docx` 文件，将其分割成块，保存为新 `.docx` 文件，并准备 Elasticsearch 的元数据。
6	`send_to_es`	`document` (字典): 文档元数据和内容	元组: (整数: HTTP 状态码, 字符串: 响应文本)	通过 POST 请求将文档发送到 Elasticsearch 实例。
7	`main`	无	无	主函数，遍历目录中的 `.docx` 文件，处理并上传至 Elasticsearch。