以.docx文件为例
导入包
import os
指定需要遍历的目录
path = r'F:\法律文书\Model(1)\Model\Dataset\a'
定义遍历函数
file_paths= []
title=[]
def load(path):
for file in os.listdir(path):
file_path = os.path.join(path, file)
if os.path.splitext(file)[1]=='.docx': #判断文件类型
file_paths.append(os.path.join(file_path)) #文件所在目录
title.append(os.path.splitext(file)[0]) #文件名称
输出指定目录下,目录文件的路径和文件名称
load(path) #调用定义函数
print(file_paths)
print(title)
如果目录下有子目录,定义递归函数,同时遍历目录,子目录下的所有指定类型文件
def load(path):
for file in os.listdir(path):
file_path = os.path.join(path, file)
if os.path.isdir(file_path): #判断是否为子目录
load(file_path) # 调用递归函数
else:
if os.path.splitext(file)[1]=='.docx':
file_paths.append(os.path.join(file_path))
title.append(os.path.splitext(file)[0])
函数使用
os.listdir(path): #将Path目录下文件放入list中
os.path.join(path, file) #连接路径和文件名称,得到文件路径
os.path.isdir(file_path): #判断是否为子目录
os.path.splitext(file)[1]=='.docx': #判断文件类型
该代码段展示了如何使用Python遍历指定目录及其子目录,查找所有的.docx文件,并将它们的路径和文件名存储到列表中。通过os模块的函数,如os.listdir()、os.path.join()和os.path.splitext(),实现文件类型的判断和路径构建。如果目录包含子目录,代码会递归进行遍历。
8762

被折叠的 条评论
为什么被折叠?



