(5-3-03)DeepSeek大模型应用开发实践:文本分割器(3)

5.3.5  Markdown分割器

在LangChain中,MarkdownHeaderTextSplitter用于根据指定的标头分割Markdown文档中的文本,它可以帮助用户将Markdown文档按照标题层级进行划分。用户可以选择是否保留被划分的标题内容,将文档传递给MarkdownHeaderTextSplitter实例的split_text()方法,即可获得按照指定标题层级划分后的文档列表。

假设现在有一个文件README.md,内容如下所示。

# drone_path_planning

A path planning and trajectory generation  ROS package  for collaborating drones flying into formations in 3D space .Obstacle avoidance and Minimum Snap Trajectories

!AAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAA

请看下面的代码,演示了使用MarkdownHeaderTextSplitter分割文件README.md的过程。

实例5-13使用MarkdownHeaderTextSplitter分割指定文档(源码路径:codes\5\Fen07.py

实例文件Fen07.py的具体实现代码如下所示。

from langchain_text_splitters import MarkdownHeaderTextSplitter
# 读取README.md文件内容
with open("README.md", "r", encoding="utf-8") as file:
    readme_content = file.read()

# 指定要分割的标题级别
headers_to_split_on = [
    ("#", "Header 1"),
    ("##", "Header 2"),
    ("###", "Header 3"),
]

# 创建MarkdownHeaderTextSplitter实例
markdown_splitter = MarkdownHeaderTextSplitter(headers_to_split_on=headers_to_split_on)
# 分割Markdown文档
md_header_splits = markdown_splitter.split_text(readme_content)
# 打印分割结果
for chunk in md_header_splits:
    print(chunk)

在上述代码中,首先使用open()函数读取README.md文件的内容,然后创建了一个MarkdownHeaderTextSplitter实例,并使用split_text()方法对README.md文件进行分割。最后,打印输出了分割后的结果,在每个结果中包含了分割后的内容以及相应的元数据。执行后会输出:

page_content='A path planning and trajectory generation  ROS package  for collaborating drones flying into formations in 3D space .Obstacle avoidance and Minimum Snap Trajectories\n!AAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAA' metadata={'Header 1': 'drone_path_planning'}

5.3.6  JSON文本分割器

在LangChain中,JSON文本分割器RecursiveJsonSplitter用于递归地将大型JSON文档分割成较小的片段。RecursiveJsonSplitter能够根据指定的最小块大小和最大块大小来拆分JSON文档,并尽可能保持嵌套的JSON对象完整。请看下面的实例,演示了使用JSON 文本分割器递归地拆分JSON数据的过程。

实例5-14使用JSON 文本分割器拆分JSON数据(源码路径:codes\5\Fen08.py

实例文件Fen08.py的具体实现代码如下所示。

import json
import requests
from langchain_text_splitters import RecursiveJsonSplitter    			# 导入 JSON 文本分割器
json_data = requests.get("https://api.smith.langchain.com/openapi.json").json()	# 从 API 获取 JSON 数据
splitter = RecursiveJsonSplitter(max_chunk_size=300)			# 创建 JSON 文本分割器实例
json_chunks = splitter.split_json(json_data=json_data)			# 递归地分割 JSON 数据
docs = splitter.create_documents(texts=[json_data])				# 也可以创建文档
texts = splitter.split_text(json_data=json_data)					# 或者创建字符串列表
print(texts[0])										# 打印结果的前两个片段
print(texts[1])
print([len(text) for text in texts][:10])						# 打印分割后的片段大小
print(texts[1])										# 打印一个较大的片段
texts = splitter.split_text(json_data=json_data, convert_lists=True)	# 启用列表转换,预处理 JSON 中的列表
print([len(text) for text in texts][:10])						# 打印列表转换后的结果
print(texts[1])										# 打印转换后的较大片段
print(docs[1])										# 也可以查看文档

执行后会打印输出分割后的结果,包括前两个片段的内容以及它们的大小,以及转换列表后的结果。

{"openapi": "3.1.0", "info": {"title": "LangSmith", "version": "0.1.0"}, "paths": {"/api/v1/sessions/{session_id}/dashboard": {"post": {"tags": ["tracer-sessions"], "summary": "Get Tracing Project Prebuilt Dashboard", "description": "Get a prebuilt dashboard for a tracing project."}}}}

{"paths": {"/api/v1/sessions/{session_id}/dashboard": {"post": {"operationId": "get_tracing_project_prebuilt_dashboard_api_v1_sessions__session_id__dashboard_post", "security": [{"API Key": []}, {"Tenant ID": []}, {"Bearer Auth": []}]}}}}

[286, 238, 344, 207, 227, 224, 231, 126, 469, 210]

{"paths": {"/api/v1/sessions/{session_id}/dashboard": {"post": {"operationId": "get_tracing_project_prebuilt_dashboard_api_v1_sessions__session_id__dashboard_post", "security": [{"API Key": []}, {"Tenant ID": []}, {"Bearer Auth": []}]}}}}

[291, 253, 214, 232, 207, 227, 224, 236, 141, 203]

{"paths": {"/api/v1/sessions/{session_id}/dashboard": {"post": {"operationId": "get_tracing_project_prebuilt_dashboard_api_v1_sessions__session_id__dashboard_post", "security": {"0": {"API Key": {}}, "1": {"Tenant ID": {}}, "2": {"Bearer Auth": {}}}}}}}

page_content='{"paths": {"/api/v1/sessions/{session_id}/dashboard": {"post": {"operationId": "get_tracing_project_prebuilt_dashboard_api_v1_sessions__session_id__dashboard_post", "security": [{"API Key": []}, {"Tenant ID"

评论 1
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包

打赏作者

码农三叔

感谢鼓励

¥1 ¥2 ¥4 ¥6 ¥10 ¥20
扫码支付:¥1
获取中
扫码支付

您的余额不足,请更换扫码支付或充值

打赏作者

实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值