5.3 文本分割器
在LangChain框架中,文本分割器(Text Splitters)是用于处理和转换文档的工具,可以帮助开发者将长文档分割成更小的、语义上有意义的块,以适应我们的应用程序或模型的上下文窗口。在LangChain的包langchain-text-splitters中提供了多种文本分割器,在本节的内容中将介绍这些文本分割器的知识。
5.3.1 长文本分割器
在LangChain中,RecursiveCharacterTextSplitter 是 LangChain 框架中的一个文本分割器,专门用于将长文本分割成更小的、易于处理的块。RecursiveCharacterTextSplitter通过递归应用字符分隔符列表来分割文本,直到文本块达到指定的大小为止。它的设计目的是尽可能地保持文本的语义相关性,例如,它会尝试将整个段落、句子和单词保持在一起,因为这些通常是文本中最具有语义关联的部分。