Python打卡第24天-CSDN博客

本文链接：https://blog.csdn.net/2503_90353953/article/details/147934165

OS 模块

随着深度学习项目变得越来越大、数据量越来越多、代码结构越来越复杂，你会越来越频繁地用到 os 模块来管理文件、目录、路径，以及进行一些基本的操作系统交互。虽然深度学习的核心在于模型构建和训练，但数据和模型的有效管理是项目成功的关键环节，而 os 模块为此提供了重要的工具。

在简单的入门级项目中，你可能只需要使用 pd.read_csv() 加载数据，而不需要直接操作文件路径。但是，当你开始处理图像数据集、自定义数据加载流程、保存和加载复杂的模型结构时，os 模块就会变得非常有用。

好的代码组织和有效的文件管理是大型深度学习项目的基石。os 模块是实现这些目标的重要组成部分。

import os
# os是系统内置模块，无需安装

获取当前工作目录的绝对路径


os.getcwd() # get current working directory 获取当前工作目录的绝对路径

获取当前工作目录下的文件列表

os.listdir() # list directory 获取当前工作目录下的文件列表


#    我们使用 r'' 原始字符串，这样就不需要写双反斜杠 \\，因为\会涉及到转义问题
path_a = r'C:\Users\YourUsername\Documents' # r''这个写法是写给python解释器看，他只会读取引号内的内容，不用在意r的存在会不会影响拼接
path_b = 'MyProjectData'
file = 'results.csv'

# 使用 os.path.join 将它们安全地拼接起来，os.path.join 会自动使用 Windows 的反斜杠 '\' 作为分隔符
file_path = os.path.join(path_a , path_b, file)

file_path

环境变量

# os.environ 表现得像一个字典，包含所有的环境变量
os.environ

# 使用 .items() 方法可以方便地同时获取变量名（键）和变量值，之前已经提过字典的items()方法，可以取出来键和值
# os.environ是可迭代对象

for variable_name, value in os.environ.items():
  # 直接打印出变量名和对应的值
  print(f"{variable_name}={value}")

# 你也可以选择性地打印总数
print(f"\n--- 总共检测到 {len(os.environ)} 个环境变量 ---")

目录树

os.walk() 是 Python os 模块中一个非常有用的函数，它用于遍历（或称“行走”）一个目录树。

核心功能：

os.walk(top, topdown=True, οnerrοr=None, followlinks=False) 会为一个目录树生成文件名。对于树中的每个目录（包括 top 目录本身），它会 yield（产生）一个包含三个元素的元组 (tuple)：

(dirpath, dirnames, filenames)

1. dirpath: 一个字符串，表示当前正在访问的目录的路径。
2. dirnames: 一个列表（list），包含了 dirpath 目录下所有子目录的名称（不包括 . 和 ..）。
3. filenames: 一个列表（list），包含了 dirpath 目录下所有非目录文件的名称。

**示例目录结构 (Markdown形式):**

假设你的 `start_directory` (当前工作目录 `.`) 是 `my_project`，其结构如下：

```markdown
my_project/
├── data/
│ ├── processed/
│ └── raw/
│ └── data1.csv
├── src/
│ ├── models/
│ │ └── model_a.py
│ └── utils.py
├── main.py
└── README.md
```

**`os.walk` 的遍历顺序及输出 (模拟):**

*(注意：`dirnames` 和 `filenames` 的顺序可能因操作系统或文件系统而略有不同，但遍历的 *深度优先* 逻辑是一致的)*

```
--- 开始遍历目录: my_project ---

当前访问目录 (dirpath): my_project
子目录列表 (dirnames): ['data', 'src'] # <--- 列出第一层子目录
文件列表 (filenames): ['main.py', 'README.md']

当前访问目录 (dirpath): my_project/data # <--- 深入到 data
子目录列表 (dirnames): ['processed', 'raw'] # <--- 列出 data 下的子目录
文件列表 (filenames): []

当前访问目录 (dirpath): my_project/data/processed # <--- 深入到 processed
子目录列表 (dirnames): []
文件列表 (filenames): []

当前访问目录 (dirpath): my_project/data/raw # <--- 回溯到 data，然后深入到 raw
子目录列表 (dirnames): []
文件列表 (filenames): ['data1.csv']

当前访问目录 (dirpath): my_project/src # <--- 回溯到 my_project，然后深入到 src
子目录列表 (dirnames): ['models']
文件列表 (filenames): ['utils.py']

当前访问目录 (dirpath): my_project/src/models # <--- 深入到 models
子目录列表 (dirnames): []
文件列表 (filenames): ['model_a.py']

# 遍历结束
```

**总结:**

`os.walk` 会首先访问起始目录 (`my_project`)，然后它会选择第一个子目录 (`data`) 并深入进去，访问 `data` 目录本身，然后继续深入它的子目录 (`processed` -> `raw`)。只有当 `data` 分支下的所有内容都被访问完毕后，它才会回到 `my_project` 这一层，去访问下一个子目录 (`src`)，并对 `src` 分支重复深度优先的探索。

它不是按层级（先访问所有第一层，再访问所有第二层）进行的，而是按分支深度进行的。这种策略被称之为深度优先

import os

start_directory = os.getcwd() # 假设这个目录在当前工作目录下

print(f"--- 开始遍历目录: {start_directory} ---")

for dirpath, dirnames, filenames in os.walk(start_directory):
    print(f"  当前访问目录 (dirpath): {dirpath}")
    print(f"  子目录列表 (dirnames): {dirnames}")
    print(f"  文件列表 (filenames): {filenames}")

    # # 你可以在这里对文件进行操作，比如打印完整路径
    # print("    文件完整路径:")
    # for filename in filenames:
    #     full_path = os.path.join(dirpath, filename)
    #     print(f"      - {full_path}")