在RAG(Retrieval-Augmented Generation)流程中,对文本的拆词(Tokenization)是影响检索和生成效果的关键步骤。以下是文本拆词的技术细节及优化方法:
1. 拆词的核心目标
- 检索阶段:确保查询(Query)和文档(Document)的拆词方式一致,提高检索匹配精度。
- 生成阶段:适配大模型的词表,避免生成时的OOV(Out-of-Vocabulary)问题。
2. 常见拆词方法
(1) 基于空格/标点的简单拆分
- 方法:按空格、标点符号(如逗号、句号)分割。
- 示例:
输入:"RAG流程是什么?" 输出:["RAG", "流程", "是", "什么", "?"]
- 缺点:无法处理未登录词(如专业术语"BERTopic"会被错误拆分)。