- 博客(146)
- 资源 (9)
- 收藏
- 关注
原创 【DCGMI专题2】---DCGMI 常用命令详解与生产实例分析
数据中心及时将该 GPU 从可用资源池中移除,更换了新的 GPU,并对该故障 GPU 进行返厂维修,同时对其他 GPU 进行了预防性的深度检测,避免了类似问题的大规模出现,保证了云计算服务的稳定性和可靠性。在训练过程中,通过查看该文件数据,发现 GPU 温度在训练后期持续升高接近温度阈值,运维人员及时检查服务器散热系统,发现有一个风扇转速异常,及时进行了更换,避免了因 GPU 过热导致降频,保证了训练任务的顺利进行。:在一个云计算数据中心,某用户反馈使用分配的 GPU 进行计算任务时,频繁出现计算错误。
2025-05-20 16:03:19
108
原创 【DCGMI专题1】---DCGMI 在 Ubuntu 22.04 上的深度安装指南与原理分析(含架构图解)
DCGMI(Data Center GPU Manager Interface)是 NVIDIA 数据中心 GPU 管理套件的核心工具,基于 **NVIDIA Management Library (NVML)** 构建,提供对 GPU 集群的实时监控、配置管理和故障诊断能力。硬件监控:获取 GPU 温度、功耗、显存利用率等 100 + 指标;服务管理:通过实现 daemon 化运行;远程控制:支持通过 REST API 或 CLI 跨节点管理;生态集成。
2025-05-20 15:34:26
259
原创 【GPFS专题5】---IBM Spectrum Scale (GPFS) 日常运维命令大全
掌握这些命令是有效管理 GPFS 集群的基础。实际生产环境中,建议结合自动化脚本和监控系统(如 IBM Storage Insights)实现高效运维。定期备份配置、监控性能指标,并进行灾备演练,是保障数据安全和系统稳定的关键。
2025-05-19 15:12:03
255
原创 【GPFS专题4】---IBM Spectrum Scale (GPFS) 原理详解
IBM Spectrum Scale(原名为 GPFS,General Parallel File System)是一种高性能、分布式的集群文件系统,专为大规模数据共享和并行访问设计。它允许多个客户端同时访问共享文件,提供高可用性、容错性和扩展性,广泛应用于高性能计算(HPC)、大数据分析、AI 训练和企业级存储场景。IBM Spectrum Scale 通过分布式架构、并行访问和智能数据管理,为企业提供了高性能、高可用、可扩展的存储解决方案。
2025-05-19 14:42:58
90
原创 【GPFS专题3】---GPFS故障实际生产故障处理分析
节点 11 的 RAID 硬件故障是问题的根源节点 15 的 pdisk 状态异常是故障传播和自动恢复机制的结果建议优先处理节点 11 的 RAID 控制器问题(检查物理磁盘、更换故障部件),同时监控节点 15 的 pdisk 状态,确保数据已成功迁移且集群恢复正常。
2025-05-19 14:09:03
136
原创 【GPFS专题2】---命令2-IBM Spectrum Scale(以前称为 GPFS)-mmhealth cluster show NATIVE_RAID
是 IBM Spectrum Scale(原 GPFS)中用于监控集群内。
2025-05-19 14:02:21
44
原创 【GPFS专题1】---命令1-IBM Spectrum Scale(以前称为 GPFS)-mmvdisk pdisk list
列出物理磁盘信息:该命令用于获取物理磁盘的详细列表。指定存储池--rg all参数表示列出所有存储池中的物理磁盘。如果不指定此参数,命令可能只列出默认存储池中的磁盘。筛选不正常状态--not-ok参数用于筛选出状态不正常的物理磁盘。正常状态的磁盘将不会出现在结果中,这有助于快速定位有问题的磁盘。显示详细信息-L参数用于显示详细的磁盘信息,包括磁盘的各种属性和状态。
2025-05-19 13:58:13
445
原创 深度解析 IPMI 电源状态批量检测脚本:设计逻辑、功能优化与企业级实践
该脚本是基于 Bash 的 IPMI 电源状态批量检测工具,主要用于查询局域网内多台设备的电源模块状态(如 PS1 至 PS6),并将结果以表格形式输出到文件。多设备并行检测:支持 128 个 IP 地址(4 个 C 类子网,每个子网 32 台设备)的批量查询。多传感器监控:可同时检测 6 个电源传感器状态,适用于多电源模块设备(如冗余电源服务器)。结构化输出:通过固定列宽的表格格式,清晰展示每个 IP 对应的电源状态,便于人工核查和数据对比。基础错误处理。
2025-05-16 10:38:10
58
原创 深入解析 IPMI 电源开启时间查询脚本:架构设计、功能实现与优化方向
该Bash脚本通过IPMI协议批量查询局域网内设备的电源开启时间(POH),并将结果记录到日志文件中。脚本的主要功能包括:批量设备管理、结构化日志记录、错误容错和低侵入性查询。
2025-05-16 10:25:51
175
原创 aptitude 深度教程:从基础到生产实践
某生产服务器运行 Ubuntu 18.04(Bionic Beaver),需升级到 20.04(Focal Fossa),但部分软件包因依赖冲突无法自动升级。是 Debian/Ubuntu 生态中处理复杂软件包管理的核心工具,尤其在依赖冲突解决、版本控制和交互式操作场景中不可替代。的深度解析功能,形成标准化操作流程。通过本文的案例和最佳实践,可有效提升系统稳定性与运维效率,避免因依赖问题导致的生产故障。:存在被手动锁定的软件包或破损依赖。:软件源未更新或不包含目标版本。,但默认软件源中版本不匹配。
2025-05-15 18:36:37
247
原创 diff详解
状态码含义0文件完全相同(没有差异),即两个文件内容完全一致。1文件不同(存在差异),即两个文件内容有至少一处不同。2发生错误(如文件不存在、权限不足等),命令未能正常执行。diff0:文件相同(无差异)1:文件不同(有差异)2:命令执行错误(如文件不存在)在脚本中,通过判断thenecho "文件相同"elseecho "文件不同"fidiff命令本身执行成功时,即使文件不同,状态码1会使if条件为假,进入else分支。
2025-04-28 11:50:47
61
原创 用大白话讲透 CPU 的 NUMA 架构:从 “抢内存” 到 “分组协作” 的进化史
当 CPU 核心数量从个位数涨到成百上千,传统 UMA 的 “大一统” 架构失效,必须通过 NUMA “分组管理”,让每个小组自治,减少全局冲突。一个班级 50 人可以统一管理(UMA),但一个学校 5000 人必须分年级、分班(NUMA),每个班有自己的班主任(本地内存控制器),校长(互联总线)只处理跨班事务。
2025-04-17 14:13:50
299
原创 查看 GPU 与 NUMA 节点的绑定关系
一步到位:运行,直接查看 GPU 对应的 NUMA 节点(如验证逻辑用确认内核绑定。用hwloc-ls可视化硬件拓扑,交叉验证。
2025-04-17 11:25:43
131
原创 2025年K8s最新高频面试题
Ingress:提供集群外部到服务的HTTP/HTTPS访问的规则集合。TraefikHAProxySidecar是指在Pod中使用辅助容器,增强主容器功能。典型例子:Istio中Envoy代理作为Sidecar,实现流量管理、安全策略、监控等功能。Admission Controller在API Server接收请求时对资源进行准入检查,决定是否允许操作。常用的有:PodSecurityPolicy(已弃用,推荐OPA或Kyverno)
2025-04-16 15:03:40
487
原创 为什么 shell 脚本开头要写 #!/bin/bash?用大白话讲透原理和实战案例
本质作用:告诉系统 “请用这个翻译器来运行我”,避免用错工具导致错误。生产意义:在复杂的服务器环境中,确保脚本稳定执行,尤其是涉及批量操作、定时任务、监控报警时,一旦脚本出错可能导致业务中断,而正确的shebang是第一步保障。行业规范:几乎所有成熟的 shell 脚本(比如 Linux 系统自带的脚本、开源项目的部署脚本)都会写shebang,这是约定俗成的规则,就像写作文要开头空两格一样,遵守规则才能让别人看懂,让系统正确执行。下次写脚本时,记得第一行先写上/bin/bash或。
2025-04-16 11:57:26
349
原创 nvidia-H200跑cuda-samples报错二
通过修复依赖,所有 CUDA 示例将正常编译。如果仅需核心 CUDA 功能,可忽略这些警告。,但会导致部分依赖 OpenGL/GLUT/FreeImage 的示例(如。等警告表明系统缺少 CUDA 示例所需的图形和图像库依赖。所有依赖 OpenGL/GLUT/FreeImage 的示例将正常构建。若输出显示 OpenGL 窗口并与 CUDA 交互,则依赖问题已解决。此时 OpenGL/GLUT/FreeImage 相关警告应消失。如果不需要图形相关示例,可通过。运行图形相关示例(如。
2025-04-15 15:20:20
78
原创 nvidia-H200跑cuda-samples报错一
而此架构在当前 CUDA 12.4 环境下不兼容 NVIDIA H100 GPU(实际需。通过明确指定与硬件匹配的 CUDA 架构参数,可解决此编译兼容性问题。编译错误源于 CMake 配置中错误指定了 CUDA 架构。以下为排查和解决 CUDA 编译错误。需修正架构参数以匹配硬件支持。H100 GPU 的计算能力为 。
2025-04-15 15:14:44
196
原创 LLDP(Link Layer Discovery Protocol)原理深度解析
【代码】LLDP(Link Layer Discovery Protocol)原理深度解析。
2025-03-26 17:37:12
220
原创 LACP(Link Aggregation Control Protocol)原理深度解析
优势即插即用:动态协商减少人工配置弹性扩展:带宽随物理链路增加而线性扩展高可靠性:自动故障切换保障业务连续性挑战协商延迟:默认 30 秒超时可能影响关键业务哈希算法限制:传统五元组可能导致流量不均跨设备聚合:需与 MLAG 等技术协同工作。
2025-03-26 16:53:57
193
原创 DHCP(Dynamic Host Configuration Protocol)原理深度解析
价值提升效率:减少手动配置工作量增强灵活性:支持动态地址回收与重用优化管理:集中监控地址使用情况挑战地址冲突:需结合 ARP 检测机制网络延迟:跨网段请求增加传输时间安全性:易受伪造请求攻击(需配合 DHCP Snooping)
2025-03-26 16:24:27
101
原创 DHCP 中继配置深度解析(基于 Junos OS)
核心问题:中继代理地址使用虚拟 IP,导致 DHCP 响应路径依赖 MLAG MAC 代理,在 PXE 初始化阶段(无 bonding)时无法及时建立通信。修复方案修正中继源地址:使用交换机真实接口 IP(10.2.1.251/252)固定 MLAG 虚拟 MAC:两台交换机配置相同虚拟 MAC,避免 ARP 震荡启用追踪日志:通过定位具体丢包阶段优化后效果DHCP 请求直接通过真实接口 IP 转发响应报文无需经过 MLAG MAC 代理,缩短传输路径。
2025-03-26 16:09:22
53
原创 MLAG(Multi-Chassis Link Aggregation Group)原理深度解析
高可用性:双节点冗余,消除单点故障线性扩展:带宽随物理链路增加而线性扩展简化管理:上联设备仅需配置一个聚合组协议兼容性:支持 BGP、OSPF、VRRP 等多种协议挑战配置复杂度:需同步多台设备的配置和状态故障排查:跨设备的流量路径难以直观分析性能开销:配置同步和心跳检测消耗系统资源厂商兼容性:不同厂商 MLAG 实现可能存在差异。
2025-03-26 16:02:30
223
原创 Mellanox 网卡的工作模式自动化修改脚本(实战生产,复制即可使用)
目录1. 初始化与日志记录2. 获取所有 Mellanox 网卡设备3. 定义颜色变量4. 标记是否需要重启5. 遍历所有网卡并检查配置6. 判断是否需要重启系统7.生产脚本,复制即可直接使用8. 总结与脚本作用主要功能适用场景注意事项
2025-03-24 10:42:53
315
原创 【nvidia-B200 生产环境】NVIDIA 570.124.06+Cuda12.8 Ubuntu22.04 nccl-test 一键部署脚本(免修改复制即用)
目录1. 初始化与日志记录2. 安装基础工具与配置更新3. NVIDIA 驱动安装 570.124.064. 安装 Mellanox OFED 24.10-2.1.8.05. 安装 CUDA 12.86. 安装 NCCL 和测试7. 配置 rc.local 和其他优化8. B200 单独步骤9. 最终测试与重启10. 完整生产脚本,复制即可直接使用总结 功能: 设置日志目录和日志文件路径。 使用 命令将标准输出和错误输出同时写入日志文件和终端。 记录脚本开始时间,并计算开始的秒数
2025-03-24 10:35:29
1124
1
原创 【nvidia-H200 生产实战】Ubuntu24.04 NVIDIA 570.124.06+Cuda12.8 nccl-test 一键部署(免修改复制即用)
【代码】Ubuntu 24.04安装nvidia H200 驱动,并进行nccl-test测试,生产实战部署脚本。
2025-03-14 17:39:34
481
原创 【H100 生产实战】Ubuntu22.04 NVIDIA 550.144.03 全家桶一键部署(CUDA12.1+NCCL2.18+OFED5.1,复制即用)
【代码】ubuntu22.04安装GPU nvidia、nccl-tests、cuda、ofed驱动全家桶(实际生产环境,复制即可使用20250315)
2025-03-13 11:44:59
530
原创 ubuntu-drivers-common 包功能详解
(如 NVIDIA/AMD 显卡驱动、无线网卡驱动等)。该包是 Ubuntu 系统中用于。的核心工具,尤其针对。
2025-03-12 18:37:24
300
原创 NVIDIA-GPU驱动降级-(实际生产故障一例)
按照以上步骤操作,你应该可以解决无法安装指定版本 NVIDIA 驱动的问题。先更新本地的软件包索引,这样系统就能获取到最新的软件包信息。版本,你可以从列出的可用版本中选择一个进行安装。下载对应的驱动,然后按照官方文档的指引进行安装。与 NVIDIA 驱动版本不匹配。若软件源里没有合适的版本,你可以从。,而 NVIDIA 驱动版本是。此命令会列出所有可用的版本。在更新软件源之后,查看。替换成你要安装的版本。你遇到的错误信息表明。
2025-03-12 16:56:37
281
原创 二、OpenSM排障----实战生产
当 OpenSM 服务端故障时,客户端可能无法正常访问 InfiniBand 网络。以下是排障步骤,帮助确认是否是服务器故障,以及如何查看客户端日志。使用 测试客户端与服务器之间的连通性:ibping <服务器节点的GUID或LID> 如果无法 ping 通,可能是服务器故障或网络问题。使用 查看客户端 InfiniBand 接口状态:ibstat 确保接口状态为 Active,如果状态为 Down,可能是服务器端未正确配置或故障。使用 查看当前子网管理
2025-02-14 10:45:30
249
原创 一、OpenSM 架构部署及原理详解
OpenSM 是 InfiniBand 网络的核心组件,通过自动化的拓扑发现、路由计算和状态维护,确保网络的高效运行。部署时需关注配置文件参数、路由算法选择和高可用性设计,调试时可借助日志和诊断工具快速定位问题。
2025-02-14 10:35:53
488
原创 nccl-test报错,实际解决过程-实战生产
共享库文件未找到,这通常意味着 OpenMPI 或其他 MPI 实现的库路径没有正确包含在系统的库路径中。:确保使用的 MPI 版本与 NCCL 测试程序兼容。有时不同版本之间可能存在不兼容的情况。为了永久设置该环境变量,可以将其添加到你的 shell 配置文件(例如。:确保在编译时指定了正确的 MPI 路径。如果找不到,请确保你安装的是正确的版本。:确保所有依赖项都已正确安装。将 OpenMPI 的库路径添加到。如果有任何库未找到,请安装相应的包。通过以上步骤,你应该能够解决。通常,该文件应该位于。
2025-02-13 18:57:53
262
原创 modprobe nvidia 报错,-实战生产
没有找到 NVIDIA 驱动模块。这通常是因为驱动程序未为该内核版本正确编译或安装。如果仍然遇到问题,请提供更多的错误信息或日志内容以便进一步诊断。如果仍然无法加载 NVIDIA 模块,可以检查系统日志以获取更多信息。有时,更新 initramfs 文件可以帮助解决问题。如果没有看到当前内核版本对应的条目,可能需要重新构建模块。如果上述方法无效,可以尝试使用 NVIDIA 官方提供的。这些日志可能会提供有关为什么驱动程序无法加载的更多信息。并下载适合你 GPU 型号的驱动程序。如果成功加载,你可以运行。
2025-02-13 18:42:30
724
原创 nvidia-smi执行失败,报错-实战生产
出现错误通常意味着系统无法与 NVIDIA 驱动程序进行通信。这可能是由于驱动程序未正确安装、内核模块未加载或存在其他配置问题。
2025-02-13 18:38:56
393
原创 MLNX_OFED_LINUX安装失败-实战生产
日志信息来看,脚本在尝试为你的内核版本(6.8.0-1008-nvidia)构建相应的 DEB 包时遇到了一些警告和错误。这些警告主要集中在某些功能不支持当前的内核版本上。
2025-02-13 18:20:29
794
原创 nginx面试题及答案(全网最全)
Nginx是一个开源的高性能HTTP和反向代理服务器,也提供IMAP/POP3代理服务。正向代理为客户端提供服务,隐藏客户端的真实IP;反向代理为服务器端提供服务,隐藏后端服务器的真实地址。
2025-02-10 18:22:16
103
读闪付卡号软件uid cuid
2023-08-14
FlashThief U盘小偷
2010-01-04
WIN32API手册
2008-12-25
空空如也
TA创建的收藏夹 TA关注的收藏夹
TA关注的人