清风 001-CSDN博客

原创【DCGMI专题2】---DCGMI 常用命令详解与生产实例分析

数据中心及时将该 GPU 从可用资源池中移除，更换了新的 GPU，并对该故障 GPU 进行返厂维修，同时对其他 GPU 进行了预防性的深度检测，避免了类似问题的大规模出现，保证了云计算服务的稳定性和可靠性。在训练过程中，通过查看该文件数据，发现 GPU 温度在训练后期持续升高接近温度阈值，运维人员及时检查服务器散热系统，发现有一个风扇转速异常，及时进行了更换，避免了因 GPU 过热导致降频，保证了训练任务的顺利进行。：在一个云计算数据中心，某用户反馈使用分配的 GPU 进行计算任务时，频繁出现计算错误。

2025-05-20 16:03:19 108

原创【DCGMI专题1】---DCGMI 在 Ubuntu 22.04 上的深度安装指南与原理分析（含架构图解）

DCGMI（Data Center GPU Manager Interface）是 NVIDIA 数据中心 GPU 管理套件的核心工具，基于 **NVIDIA Management Library (NVML)** 构建，提供对 GPU 集群的实时监控、配置管理和故障诊断能力。硬件监控：获取 GPU 温度、功耗、显存利用率等 100 + 指标；服务管理：通过实现 daemon 化运行；远程控制：支持通过 REST API 或 CLI 跨节点管理；生态集成。

2025-05-20 15:34:26 259

原创【GPFS专题5】---IBM Spectrum Scale (GPFS) 日常运维命令大全

掌握这些命令是有效管理 GPFS 集群的基础。实际生产环境中，建议结合自动化脚本和监控系统（如 IBM Storage Insights）实现高效运维。定期备份配置、监控性能指标，并进行灾备演练，是保障数据安全和系统稳定的关键。

2025-05-19 15:12:03 255

原创【GPFS专题4】---IBM Spectrum Scale (GPFS) 原理详解

IBM Spectrum Scale（原名为 GPFS，General Parallel File System）是一种高性能、分布式的集群文件系统，专为大规模数据共享和并行访问设计。它允许多个客户端同时访问共享文件，提供高可用性、容错性和扩展性，广泛应用于高性能计算（HPC）、大数据分析、AI 训练和企业级存储场景。IBM Spectrum Scale 通过分布式架构、并行访问和智能数据管理，为企业提供了高性能、高可用、可扩展的存储解决方案。

2025-05-19 14:42:58 90

原创【GPFS专题3】---GPFS故障实际生产故障处理分析

节点 11 的 RAID 硬件故障是问题的根源节点 15 的 pdisk 状态异常是故障传播和自动恢复机制的结果建议优先处理节点 11 的 RAID 控制器问题（检查物理磁盘、更换故障部件），同时监控节点 15 的 pdisk 状态，确保数据已成功迁移且集群恢复正常。

2025-05-19 14:09:03 136

原创【GPFS专题2】---命令2-IBM Spectrum Scale（以前称为 GPFS）-mmhealth cluster show NATIVE_RAID

是 IBM Spectrum Scale（原 GPFS）中用于监控集群内。

2025-05-19 14:02:21 44

原创【GPFS专题1】---命令1-IBM Spectrum Scale（以前称为 GPFS）-mmvdisk pdisk list

列出物理磁盘信息：该命令用于获取物理磁盘的详细列表。指定存储池--rg all参数表示列出所有存储池中的物理磁盘。如果不指定此参数，命令可能只列出默认存储池中的磁盘。筛选不正常状态--not-ok参数用于筛选出状态不正常的物理磁盘。正常状态的磁盘将不会出现在结果中，这有助于快速定位有问题的磁盘。显示详细信息-L参数用于显示详细的磁盘信息，包括磁盘的各种属性和状态。

2025-05-19 13:58:13 445

原创深度解析 IPMI 电源状态批量检测脚本：设计逻辑、功能优化与企业级实践

该脚本是基于 Bash 的 IPMI 电源状态批量检测工具，主要用于查询局域网内多台设备的电源模块状态（如 PS1 至 PS6），并将结果以表格形式输出到文件。多设备并行检测：支持 128 个 IP 地址（4 个 C 类子网，每个子网 32 台设备）的批量查询。多传感器监控：可同时检测 6 个电源传感器状态，适用于多电源模块设备（如冗余电源服务器）。结构化输出：通过固定列宽的表格格式，清晰展示每个 IP 对应的电源状态，便于人工核查和数据对比。基础错误处理。

2025-05-16 10:38:10 58

原创深入解析 IPMI 电源开启时间查询脚本：架构设计、功能实现与优化方向

该Bash脚本通过IPMI协议批量查询局域网内设备的电源开启时间（POH），并将结果记录到日志文件中。脚本的主要功能包括：批量设备管理、结构化日志记录、错误容错和低侵入性查询。

2025-05-16 10:25:51 175

原创 aptitude 深度教程：从基础到生产实践

某生产服务器运行 Ubuntu 18.04（Bionic Beaver），需升级到 20.04（Focal Fossa），但部分软件包因依赖冲突无法自动升级。是 Debian/Ubuntu 生态中处理复杂软件包管理的核心工具，尤其在依赖冲突解决、版本控制和交互式操作场景中不可替代。的深度解析功能，形成标准化操作流程。通过本文的案例和最佳实践，可有效提升系统稳定性与运维效率，避免因依赖问题导致的生产故障。：存在被手动锁定的软件包或破损依赖。：软件源未更新或不包含目标版本。，但默认软件源中版本不匹配。

2025-05-15 18:36:37 247

原创 diff详解

状态码含义0文件完全相同（没有差异），即两个文件内容完全一致。1文件不同（存在差异），即两个文件内容有至少一处不同。2发生错误（如文件不存在、权限不足等），命令未能正常执行。diff0：文件相同（无差异）1：文件不同（有差异）2：命令执行错误（如文件不存在）在脚本中，通过判断thenecho "文件相同"elseecho "文件不同"fidiff命令本身执行成功时，即使文件不同，状态码1会使if条件为假，进入else分支。

2025-04-28 11:50:47 61

原创用大白话讲透 CPU 的 NUMA 架构：从 “抢内存” 到 “分组协作” 的进化史

当 CPU 核心数量从个位数涨到成百上千，传统 UMA 的 “大一统” 架构失效，必须通过 NUMA “分组管理”，让每个小组自治，减少全局冲突。一个班级 50 人可以统一管理（UMA），但一个学校 5000 人必须分年级、分班（NUMA），每个班有自己的班主任（本地内存控制器），校长（互联总线）只处理跨班事务。

2025-04-17 14:13:50 299

原创查看 GPU 与 NUMA 节点的绑定关系

一步到位：运行，直接查看 GPU 对应的 NUMA 节点（如验证逻辑用确认内核绑定。用hwloc-ls可视化硬件拓扑，交叉验证。

2025-04-17 11:25:43 131

原创 2025年K8s最新高频面试题

Ingress：提供集群外部到服务的HTTP/HTTPS访问的规则集合。TraefikHAProxySidecar是指在Pod中使用辅助容器，增强主容器功能。典型例子：Istio中Envoy代理作为Sidecar，实现流量管理、安全策略、监控等功能。Admission Controller在API Server接收请求时对资源进行准入检查，决定是否允许操作。常用的有：PodSecurityPolicy（已弃用，推荐OPA或Kyverno）

2025-04-16 15:03:40 487

原创为什么 shell 脚本开头要写 #!/bin/bash？用大白话讲透原理和实战案例

本质作用：告诉系统 “请用这个翻译器来运行我”，避免用错工具导致错误。生产意义：在复杂的服务器环境中，确保脚本稳定执行，尤其是涉及批量操作、定时任务、监控报警时，一旦脚本出错可能导致业务中断，而正确的shebang是第一步保障。行业规范：几乎所有成熟的 shell 脚本（比如 Linux 系统自带的脚本、开源项目的部署脚本）都会写shebang，这是约定俗成的规则，就像写作文要开头空两格一样，遵守规则才能让别人看懂，让系统正确执行。下次写脚本时，记得第一行先写上/bin/bash或。

2025-04-16 11:57:26 349

原创 nvidia-H200跑cuda-samples报错二

通过修复依赖，所有 CUDA 示例将正常编译。如果仅需核心 CUDA 功能，可忽略这些警告。‌，但会导致部分依赖 OpenGL/GLUT/FreeImage 的示例（如。等警告表明系统缺少 CUDA 示例所需的图形和图像库依赖。所有依赖 OpenGL/GLUT/FreeImage 的示例将正常构建。若输出显示 OpenGL 窗口并与 CUDA 交互，则依赖问题已解决。此时 OpenGL/GLUT/FreeImage 相关警告应消失。如果不需要图形相关示例，可通过。运行图形相关示例（如。

2025-04-15 15:20:20 78

原创 nvidia-H200跑cuda-samples报错一

而此架构在当前 CUDA 12.4 环境下不兼容 NVIDIA H100 GPU（实际需。通过明确指定与硬件匹配的 CUDA 架构参数，可解决此编译兼容性问题。编译错误源于 CMake 配置中错误指定了 CUDA 架构。以下为排查和解决 CUDA 编译错误。需修正架构参数以匹配硬件支持。H100 GPU 的计算能力为 ‌。

2025-04-15 15:14:44 196

原创 LLDP（Link Layer Discovery Protocol）原理深度解析

【代码】LLDP（Link Layer Discovery Protocol）原理深度解析。

2025-03-26 17:37:12 220

原创 LACP（Link Aggregation Control Protocol）原理深度解析

优势即插即用：动态协商减少人工配置弹性扩展：带宽随物理链路增加而线性扩展高可靠性：自动故障切换保障业务连续性挑战协商延迟：默认 30 秒超时可能影响关键业务哈希算法限制：传统五元组可能导致流量不均跨设备聚合：需与 MLAG 等技术协同工作。

2025-03-26 16:53:57 193

原创 DHCP（Dynamic Host Configuration Protocol）原理深度解析

价值提升效率：减少手动配置工作量增强灵活性：支持动态地址回收与重用优化管理：集中监控地址使用情况挑战地址冲突：需结合 ARP 检测机制网络延迟：跨网段请求增加传输时间安全性：易受伪造请求攻击（需配合 DHCP Snooping）

2025-03-26 16:24:27 101

原创 DHCP 中继配置深度解析（基于 Junos OS）

核心问题：中继代理地址使用虚拟 IP，导致 DHCP 响应路径依赖 MLAG MAC 代理，在 PXE 初始化阶段（无 bonding）时无法及时建立通信。修复方案修正中继源地址：使用交换机真实接口 IP（10.2.1.251/252）固定 MLAG 虚拟 MAC：两台交换机配置相同虚拟 MAC，避免 ARP 震荡启用追踪日志：通过定位具体丢包阶段优化后效果DHCP 请求直接通过真实接口 IP 转发响应报文无需经过 MLAG MAC 代理，缩短传输路径。

2025-03-26 16:09:22 53

原创 MLAG（Multi-Chassis Link Aggregation Group）原理深度解析

高可用性：双节点冗余，消除单点故障线性扩展：带宽随物理链路增加而线性扩展简化管理：上联设备仅需配置一个聚合组协议兼容性：支持 BGP、OSPF、VRRP 等多种协议挑战配置复杂度：需同步多台设备的配置和状态故障排查：跨设备的流量路径难以直观分析性能开销：配置同步和心跳检测消耗系统资源厂商兼容性：不同厂商 MLAG 实现可能存在差异。

2025-03-26 16:02:30 223

原创 Mellanox 网卡的工作模式自动化修改脚本（实战生产，复制即可使用）

目录1. 初始化与日志记录2. 获取所有 Mellanox 网卡设备3. 定义颜色变量4. 标记是否需要重启5. 遍历所有网卡并检查配置6. 判断是否需要重启系统7.生产脚本，复制即可直接使用8. 总结与脚本作用主要功能适用场景注意事项

2025-03-24 10:42:53 315

原创【nvidia-B200 生产环境】NVIDIA 570.124.06+Cuda12.8 Ubuntu22.04 nccl-test 一键部署脚本（免修改复制即用）

目录1. 初始化与日志记录2. 安装基础工具与配置更新3. NVIDIA 驱动安装 570.124.064. 安装 Mellanox OFED 24.10-2.1.8.05. 安装 CUDA 12.86. 安装 NCCL 和测试7. 配置 rc.local 和其他优化8. B200 单独步骤9. 最终测试与重启10. 完整生产脚本，复制即可直接使用总结功能：设置日志目录和日志文件路径。使用命令将标准输出和错误输出同时写入日志文件和终端。记录脚本开始时间，并计算开始的秒数

2025-03-24 10:35:29 1124 1

原创 NVIDIA-B200 OFED安装失败解决步骤，实际生产环境故障一例

，需先卸载这些依赖包，才能继续安装新版驱动。

2025-03-17 15:40:03 178 2

原创【nvidia-H200 生产实战】Ubuntu24.04 NVIDIA 570.124.06+Cuda12.8 nccl-test 一键部署（免修改复制即用）

【代码】Ubuntu 24.04安装nvidia H200 驱动，并进行nccl-test测试，生产实战部署脚本。

2025-03-14 17:39:34 481

原创 ubuntu24.04执行nvidia-smi报错，实际生产报错，处理过程

报错日志。

2025-03-14 10:30:45 469

原创【H100 生产实战】Ubuntu22.04 NVIDIA 550.144.03 全家桶一键部署（CUDA12.1+NCCL2.18+OFED5.1，复制即用）

【代码】ubuntu22.04安装GPU nvidia、nccl-tests、cuda、ofed驱动全家桶(实际生产环境，复制即可使用20250315)

2025-03-13 11:44:59 530

原创 ubuntu-drivers-common 包功能详解

（如 NVIDIA/AMD 显卡驱动、无线网卡驱动等）。该包是 Ubuntu 系统中用于。的核心工具，尤其针对。

2025-03-12 18:37:24 300

原创 NVIDIA-GPU驱动降级-(实际生产故障一例)

按照以上步骤操作，你应该可以解决无法安装指定版本 NVIDIA 驱动的问题。先更新本地的软件包索引，这样系统就能获取到最新的软件包信息。版本，你可以从列出的可用版本中选择一个进行安装。下载对应的驱动，然后按照官方文档的指引进行安装。与 NVIDIA 驱动版本不匹配。若软件源里没有合适的版本，你可以从。，而 NVIDIA 驱动版本是。此命令会列出所有可用的版本。在更新软件源之后，查看。替换成你要安装的版本。你遇到的错误信息表明。

2025-03-12 16:56:37 281

原创 hcia华为路由器静态路由实验配置

拓扑图

2025-03-10 16:04:29 555

原创 centos22.04 dpkg -l 输出状态标识含义

dpkg -l。

2025-02-26 10:27:15 194

原创 CentOS 8 配置bond

CentOS 8 网络配置的详细步骤和对应的配置文件内容。

2025-02-17 15:25:54 333

原创二、OpenSM排障----实战生产

当 OpenSM 服务端故障时，客户端可能无法正常访问 InfiniBand 网络。以下是排障步骤，帮助确认是否是服务器故障，以及如何查看客户端日志。使用测试客户端与服务器之间的连通性：ibping <服务器节点的GUID或LID> 如果无法 ping 通，可能是服务器故障或网络问题。使用查看客户端 InfiniBand 接口状态：ibstat 确保接口状态为 Active，如果状态为 Down，可能是服务器端未正确配置或故障。使用查看当前子网管理

2025-02-14 10:45:30 249

原创一、OpenSM 架构部署及原理详解

OpenSM 是 InfiniBand 网络的核心组件，通过自动化的拓扑发现、路由计算和状态维护，确保网络的高效运行。部署时需关注配置文件参数、路由算法选择和高可用性设计，调试时可借助日志和诊断工具快速定位问题。

2025-02-14 10:35:53 488

原创 nccl-test报错，实际解决过程-实战生产

共享库文件未找到，这通常意味着 OpenMPI 或其他 MPI 实现的库路径没有正确包含在系统的库路径中。：确保使用的 MPI 版本与 NCCL 测试程序兼容。有时不同版本之间可能存在不兼容的情况。为了永久设置该环境变量，可以将其添加到你的 shell 配置文件（例如。：确保在编译时指定了正确的 MPI 路径。如果找不到，请确保你安装的是正确的版本。：确保所有依赖项都已正确安装。将 OpenMPI 的库路径添加到。如果有任何库未找到，请安装相应的包。通过以上步骤，你应该能够解决。通常，该文件应该位于。

2025-02-13 18:57:53 262

原创 modprobe nvidia 报错，-实战生产

没有找到 NVIDIA 驱动模块。这通常是因为驱动程序未为该内核版本正确编译或安装。如果仍然遇到问题，请提供更多的错误信息或日志内容以便进一步诊断。如果仍然无法加载 NVIDIA 模块，可以检查系统日志以获取更多信息。有时，更新 initramfs 文件可以帮助解决问题。如果没有看到当前内核版本对应的条目，可能需要重新构建模块。如果上述方法无效，可以尝试使用 NVIDIA 官方提供的。这些日志可能会提供有关为什么驱动程序无法加载的更多信息。并下载适合你 GPU 型号的驱动程序。如果成功加载，你可以运行。

2025-02-13 18:42:30 724

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

全国计算机等级考试一级试题及答案(25套).pdf

计算机网络实验指导 大学课程

读闪付卡号软件uid cuid

vsftpd-1.1.3-8.i386.rpm

linux-mysql5.6.29

华为路由器故障处理案例集-20090224-C.rar

mail.jar与activation.jar

FlashThief U盘小偷

WIN32API手册

空空如也

计算机网络实验指导大学课程