学习资料:https://github.com/datawhalechina/all-in-rag
RAG简介
一、什么是RAG?
1.1 核心定义
- 定义:RAG(检索增强生成)是融合信息检索与文本生成的技术范式。
- 核心逻辑:在大型语言模型(LLM)生成文本前,先从外部知识库检索相关信息,再将检索结果融入生成过程,以提升输出的准确性与时效性。
- 本质:在LLM生成文本之前,先从外部知识库中检索相关信息,作为上下文辅助生成更准确的回答
1.2 技术原理
-
双阶段架构:
1.3 技术演进分类
二、为什么要使用RAG?
2.1 解决LLM的核心局限
2.2 关键优势
2.3 适用场景风险分级
三、如何上手RAG?
3.1 基础工具链选择
3.2 四步构建最小可行系统(MVP)
3.3 新手友好方案
3.4 进阶调优方向
准备工作
一、整体说明
- 环境类型:主推 2 种浏览器端集成开发环境(适配手机 / 平板 / 电脑,移动设备体验有限但可用),另附 Windows 本地配置及项目代码拉取步骤(用前两种云端环境可跳过)。
- 前置要求:需先申请 Deepseek API Key,再进行对应环境配置。
二、关键前置:Deepseek API 配置
- 申请步骤:访问 Deepseek 开放平台 → 登录 / 注册账号 → 进入 “API Keys” 创建密钥(命名需唯一)→ 立即复制保存密钥(仅显示 1 次,关闭后无法查看)。
三、浏览器端环境配置(核心步骤)
1. GitHub Codespaces(推荐,需流畅访问 GitHub)
配置阶段 | 关键操作 |
---|---|
2.1 创建环境 | 访问all-in-rag 项目 → 点击 “Fork” 创建分支 → 点击 “Code”→“Codespaces”→“New codespace”;后续从个人仓库重新进入 |
2.2 Python 环境 | 终端执行sudo apt update/upgrade → 下载安装 Miniconda(默认路径,同意初始化)→ 验证conda --version |
2.3 API 配置 | vim ~/.bashrc → 编辑模式添加export DEEPSEEK_API_KEY=[密钥] → 保存退出→source ~/.bashrc 生效 |
2.4 虚拟环境 | conda create -n all-in-rag python=3.12.7 → 激活conda activate all-in-rag → 进入code 目录执行pip install -r requirements.txt (grpcio 版本错可忽略) |
2. Cloud Studio(国内推荐,50 小时免费 / 月)
配置阶段 | 关键操作 |
---|---|
3.1 创建应用 | 访问 Cloud Studio→ 登录→“创建应用”→“从 Git 仓库导入”(输入项目地址);后续从 “应用管理” 进入 |
3.2 Python 环境 | 终端执行sudo apt update/upgrade → 切换su ubuntu → 同上述 Miniconda 安装步骤 |
3.3 API 配置 | 同 GitHub Codespaces 的 API 配置步骤 |
3.4 虚拟环境 | 同上述虚拟环境步骤,额外执行sudo chown -R ubuntu:ubuntu code models 配置文件权限 |
四、Windows 本地配置(可选,云端环境可跳过)
- API 配置:右键 “此电脑”→“属性”→“高级系统设置”→“环境变量”→ 新建用户变量(名:
DEEPSEEK_API_KEY
,值:个人密钥)。 - Miniconda 安装:从清华镜像站下载 Windows 版→ 按向导安装(选 “Just Me”,不勾选添加 PATH)→ 手动配置系统变量 “Path”,新增 Miniconda 安装目录及
Scripts
、Library\bin
路径。 - Conda 镜像源:终端执行命令添加清华镜像(
conda config --add channels ...
),加快安装速度。
五、项目代码拉取(云端环境可跳过)
- 安装 Git:Windows 从官网下载,macOS 用
brew install git
,Linux 用sudo apt-get install git
,验证git --version
。 - 克隆代码:终端进入目标目录→ 执行
git clone https://github.com/datawhalechina/all-in-rag.git
→ 进入项目目录cd all-in-rag
。 - 虚拟环境:同上述 “创建并激活虚拟环境 + 依赖安装” 步骤。