使用 HTMLSectionSplitter 进行 HTML 文本分段_html 多个元素合并成一段,如何进行分割-CSDN博客

在处理 HTML 文本数据时，我们常常需要根据文档结构进行分段，以便在后续分析或处理步骤中保持上下文联系。HTMLSectionSplitter 是一个“结构感知”的文本分段工具，能够基于 HTML 文档的元素级别进行分段，并为每个分段添加相应的元数据。这篇文章将深入介绍这种分段技术的核心原理，并提供实用的代码示例。

技术背景介绍

HTML 文档通常包含层次化的标题和段落，使用这些元素有助于将文档内容划分为不同的语义块。HTMLSectionSplitter 利用这些结构特性，通过指定的标题元素进行分段，保证每个分段在语义上相关，并保持原始文档结构的上下文信息。

核心原理解析

HTMLSectionSplitter 的工作原理是扫描整个 HTML 文档，根据用户指定的标题元素（如 <h1>, <h2> 等）将文本分割成不同的段。在分割的同时，它会为每个文本段添加相应的元数据，这些元数据可以帮助我们更好地理解各个文本段的语义关系。

代码实现演示

接下来我们通过一个完整的代码示例来展示如何使用 HTMLSectionSplitter 对 HTML 文本进行分段。

from langchain_text_splitters import HTMLSectionSplitter

# 示例 HTML 文本
html_string = """
    <!DOCTYPE html>
    <html>
    <body>
        <div>
            <h1>Foo</h1>
            <p>Some intro text about Foo.</p>
            <div>
                <h2>Bar main section</h2>
                <p>Some intro text about Bar.</p>
                <h3>Bar subsection 1</h3>
                <p>Some text about the first subtopic of Bar.</p>
                <h3>Bar subsection 2</h3>
                <p>Some text about the second subtopic of Bar.</p>
            </div>
            <div>
                <h2>Baz</h2>
                <p>Some text about Baz</p>
            </div>
            <br>
            <p>Some concluding text about Foo</p>
        </div>
    </body>
    </html>
"""

# 设定分段所需的标题标记
headers_to_split_on = [
    ("h1", "Header 1"),
    ("h2", "Header 2"),
    ("h3", "Header 3"),
]

# 初始化 HTMLSectionSplitter
html_splitter = HTMLSectionSplitter(headers_to_split_on)

# 执行文本分段
html_header_splits = html_splitter.split_text(html_string)

# 输出分段结果
for document in html_header_splits:
    print(document.page_content, document.metadata)