自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+
  • 博客(146)
  • 资源 (9)
  • 收藏
  • 关注

原创 【DCGMI专题2】---DCGMI 常用命令详解与生产实例分析

数据中心及时将该 GPU 从可用资源池中移除,更换了新的 GPU,并对该故障 GPU 进行返厂维修,同时对其他 GPU 进行了预防性的深度检测,避免了类似问题的大规模出现,保证了云计算服务的稳定性和可靠性。在训练过程中,通过查看该文件数据,发现 GPU 温度在训练后期持续升高接近温度阈值,运维人员及时检查服务器散热系统,发现有一个风扇转速异常,及时进行了更换,避免了因 GPU 过热导致降频,保证了训练任务的顺利进行。:在一个云计算数据中心,某用户反馈使用分配的 GPU 进行计算任务时,频繁出现计算错误。

2025-05-20 16:03:19 108

原创 【DCGMI专题1】---DCGMI 在 Ubuntu 22.04 上的深度安装指南与原理分析(含架构图解)

DCGMI(Data Center GPU Manager Interface)是 NVIDIA 数据中心 GPU 管理套件的核心工具,基于 **NVIDIA Management Library (NVML)** 构建,提供对 GPU 集群的实时监控、配置管理和故障诊断能力。硬件监控:获取 GPU 温度、功耗、显存利用率等 100 + 指标;服务管理:通过实现 daemon 化运行;远程控制:支持通过 REST API 或 CLI 跨节点管理;生态集成。

2025-05-20 15:34:26 259

原创 【GPFS专题5】---IBM Spectrum Scale (GPFS) 日常运维命令大全

掌握这些命令是有效管理 GPFS 集群的基础。实际生产环境中,建议结合自动化脚本和监控系统(如 IBM Storage Insights)实现高效运维。定期备份配置、监控性能指标,并进行灾备演练,是保障数据安全和系统稳定的关键。

2025-05-19 15:12:03 255

原创 【GPFS专题4】---IBM Spectrum Scale (GPFS) 原理详解

IBM Spectrum Scale(原名为 GPFS,General Parallel File System)是一种高性能、分布式的集群文件系统,专为大规模数据共享和并行访问设计。它允许多个客户端同时访问共享文件,提供高可用性、容错性和扩展性,广泛应用于高性能计算(HPC)、大数据分析、AI 训练和企业级存储场景。IBM Spectrum Scale 通过分布式架构、并行访问和智能数据管理,为企业提供了高性能、高可用、可扩展的存储解决方案。

2025-05-19 14:42:58 90

原创 【GPFS专题3】---GPFS故障实际生产故障处理分析

节点 11 的 RAID 硬件故障是问题的根源节点 15 的 pdisk 状态异常是故障传播和自动恢复机制的结果建议优先处理节点 11 的 RAID 控制器问题(检查物理磁盘、更换故障部件),同时监控节点 15 的 pdisk 状态,确保数据已成功迁移且集群恢复正常。

2025-05-19 14:09:03 136

原创 【GPFS专题2】---命令2-IBM Spectrum Scale(以前称为 GPFS)-mmhealth cluster show NATIVE_RAID

是 IBM Spectrum Scale(原 GPFS)中用于监控集群内。

2025-05-19 14:02:21 44

原创 【GPFS专题1】---命令1-IBM Spectrum Scale(以前称为 GPFS)-mmvdisk pdisk list

列出物理磁盘信息:该命令用于获取物理磁盘的详细列表。指定存储池--rg all参数表示列出所有存储池中的物理磁盘。如果不指定此参数,命令可能只列出默认存储池中的磁盘。筛选不正常状态--not-ok参数用于筛选出状态不正常的物理磁盘。正常状态的磁盘将不会出现在结果中,这有助于快速定位有问题的磁盘。显示详细信息-L参数用于显示详细的磁盘信息,包括磁盘的各种属性和状态。

2025-05-19 13:58:13 445

原创 深度解析 IPMI 电源状态批量检测脚本:设计逻辑、功能优化与企业级实践

该脚本是基于 Bash 的 IPMI 电源状态批量检测工具,主要用于查询局域网内多台设备的电源模块状态(如 PS1 至 PS6),并将结果以表格形式输出到文件。多设备并行检测:支持 128 个 IP 地址(4 个 C 类子网,每个子网 32 台设备)的批量查询。多传感器监控:可同时检测 6 个电源传感器状态,适用于多电源模块设备(如冗余电源服务器)。结构化输出:通过固定列宽的表格格式,清晰展示每个 IP 对应的电源状态,便于人工核查和数据对比。基础错误处理。

2025-05-16 10:38:10 58

原创 深入解析 IPMI 电源开启时间查询脚本:架构设计、功能实现与优化方向

该Bash脚本通过IPMI协议批量查询局域网内设备的电源开启时间(POH),并将结果记录到日志文件中。脚本的主要功能包括:批量设备管理、结构化日志记录、错误容错和低侵入性查询。

2025-05-16 10:25:51 175

原创 aptitude 深度教程:从基础到生产实践

某生产服务器运行 Ubuntu 18.04(Bionic Beaver),需升级到 20.04(Focal Fossa),但部分软件包因依赖冲突无法自动升级。是 Debian/Ubuntu 生态中处理复杂软件包管理的核心工具,尤其在依赖冲突解决、版本控制和交互式操作场景中不可替代。的深度解析功能,形成标准化操作流程。通过本文的案例和最佳实践,可有效提升系统稳定性与运维效率,避免因依赖问题导致的生产故障。:存在被手动锁定的软件包或破损依赖。:软件源未更新或不包含目标版本。,但默认软件源中版本不匹配。

2025-05-15 18:36:37 247

原创 diff详解

状态码含义0文件完全相同(没有差异),即两个文件内容完全一致。1文件不同(存在差异),即两个文件内容有至少一处不同。2发生错误(如文件不存在、权限不足等),命令未能正常执行。diff0:文件相同(无差异)1:文件不同(有差异)2:命令执行错误(如文件不存在)在脚本中,通过判断thenecho "文件相同"elseecho "文件不同"fidiff命令本身执行成功时,即使文件不同,状态码1会使if条件为假,进入else分支。

2025-04-28 11:50:47 61

原创 用大白话讲透 CPU 的 NUMA 架构:从 “抢内存” 到 “分组协作” 的进化史

当 CPU 核心数量从个位数涨到成百上千,传统 UMA 的 “大一统” 架构失效,必须通过 NUMA “分组管理”,让每个小组自治,减少全局冲突。一个班级 50 人可以统一管理(UMA),但一个学校 5000 人必须分年级、分班(NUMA),每个班有自己的班主任(本地内存控制器),校长(互联总线)只处理跨班事务。

2025-04-17 14:13:50 299

原创 查看 GPU 与 NUMA 节点的绑定关系

一步到位:运行,直接查看 GPU 对应的 NUMA 节点(如验证逻辑用确认内核绑定。用hwloc-ls可视化硬件拓扑,交叉验证。

2025-04-17 11:25:43 131

原创 2025年K8s最新高频面试题

Ingress:提供集群外部到服务的HTTP/HTTPS访问的规则集合。TraefikHAProxySidecar是指在Pod中使用辅助容器,增强主容器功能。典型例子:Istio中Envoy代理作为Sidecar,实现流量管理、安全策略、监控等功能。Admission Controller在API Server接收请求时对资源进行准入检查,决定是否允许操作。常用的有:PodSecurityPolicy(已弃用,推荐OPA或Kyverno)

2025-04-16 15:03:40 487

原创 为什么 shell 脚本开头要写 #!/bin/bash?用大白话讲透原理和实战案例

本质作用:告诉系统 “请用这个翻译器来运行我”,避免用错工具导致错误。生产意义:在复杂的服务器环境中,确保脚本稳定执行,尤其是涉及批量操作、定时任务、监控报警时,一旦脚本出错可能导致业务中断,而正确的shebang是第一步保障。行业规范:几乎所有成熟的 shell 脚本(比如 Linux 系统自带的脚本、开源项目的部署脚本)都会写shebang,这是约定俗成的规则,就像写作文要开头空两格一样,遵守规则才能让别人看懂,让系统正确执行。下次写脚本时,记得第一行先写上/bin/bash或。

2025-04-16 11:57:26 349

原创 nvidia-H200跑cuda-samples报错二

通过修复依赖,所有 CUDA 示例将正常编译。如果仅需核心 CUDA 功能,可忽略这些警告。‌,但会导致部分依赖 OpenGL/GLUT/FreeImage 的示例(如。等警告表明系统缺少 CUDA 示例所需的图形和图像库依赖。所有依赖 OpenGL/GLUT/FreeImage 的示例将正常构建。若输出显示 OpenGL 窗口并与 CUDA 交互,则依赖问题已解决。此时 OpenGL/GLUT/FreeImage 相关警告应消失。如果不需要图形相关示例,可通过。运行图形相关示例(如。

2025-04-15 15:20:20 78

原创 nvidia-H200跑cuda-samples报错一

而此架构在当前 CUDA 12.4 环境下不兼容 NVIDIA H100 GPU(实际需。通过明确指定与硬件匹配的 CUDA 架构参数,可解决此编译兼容性问题。编译错误源于 CMake 配置中错误指定了 CUDA 架构。以下为排查和解决 CUDA 编译错误。需修正架构参数以匹配硬件支持。H100 GPU 的计算能力为 ‌。

2025-04-15 15:14:44 196

原创 LLDP(Link Layer Discovery Protocol)原理深度解析

【代码】LLDP(Link Layer Discovery Protocol)原理深度解析。

2025-03-26 17:37:12 220

原创 LACP(Link Aggregation Control Protocol)原理深度解析

优势即插即用:动态协商减少人工配置弹性扩展:带宽随物理链路增加而线性扩展高可靠性:自动故障切换保障业务连续性挑战协商延迟:默认 30 秒超时可能影响关键业务哈希算法限制:传统五元组可能导致流量不均跨设备聚合:需与 MLAG 等技术协同工作。

2025-03-26 16:53:57 193

原创 DHCP(Dynamic Host Configuration Protocol)原理深度解析

价值提升效率:减少手动配置工作量增强灵活性:支持动态地址回收与重用优化管理:集中监控地址使用情况挑战地址冲突:需结合 ARP 检测机制网络延迟:跨网段请求增加传输时间安全性:易受伪造请求攻击(需配合 DHCP Snooping)

2025-03-26 16:24:27 101

原创 DHCP 中继配置深度解析(基于 Junos OS)

核心问题:中继代理地址使用虚拟 IP,导致 DHCP 响应路径依赖 MLAG MAC 代理,在 PXE 初始化阶段(无 bonding)时无法及时建立通信。修复方案修正中继源地址:使用交换机真实接口 IP(10.2.1.251/252)固定 MLAG 虚拟 MAC:两台交换机配置相同虚拟 MAC,避免 ARP 震荡启用追踪日志:通过定位具体丢包阶段优化后效果DHCP 请求直接通过真实接口 IP 转发响应报文无需经过 MLAG MAC 代理,缩短传输路径。

2025-03-26 16:09:22 53

原创 MLAG(Multi-Chassis Link Aggregation Group)原理深度解析

高可用性:双节点冗余,消除单点故障线性扩展:带宽随物理链路增加而线性扩展简化管理:上联设备仅需配置一个聚合组协议兼容性:支持 BGP、OSPF、VRRP 等多种协议挑战配置复杂度:需同步多台设备的配置和状态故障排查:跨设备的流量路径难以直观分析性能开销:配置同步和心跳检测消耗系统资源厂商兼容性:不同厂商 MLAG 实现可能存在差异。

2025-03-26 16:02:30 223

原创 Mellanox 网卡的工作模式自动化修改脚本(实战生产,复制即可使用)

目录1. 初始化与日志记录2. 获取所有 Mellanox 网卡设备3. 定义颜色变量4. 标记是否需要重启5. 遍历所有网卡并检查配置6. 判断是否需要重启系统7.生产脚本,复制即可直接使用8. 总结与脚本作用主要功能适用场景注意事项

2025-03-24 10:42:53 315

原创 【nvidia-B200 生产环境】NVIDIA 570.124.06+Cuda12.8 Ubuntu22.04 nccl-test 一键部署脚本(免修改复制即用)

目录1. 初始化与日志记录2. 安装基础工具与配置更新3. NVIDIA 驱动安装 570.124.064. 安装 Mellanox OFED 24.10-2.1.8.05. 安装 CUDA 12.86. 安装 NCCL 和测试7. 配置 rc.local 和其他优化8. B200 单独步骤9. 最终测试与重启10. 完整生产脚本,复制即可直接使用总结 功能: 设置日志目录和日志文件路径。 使用 命令将标准输出和错误输出同时写入日志文件和终端。 记录脚本开始时间,并计算开始的秒数

2025-03-24 10:35:29 1124 1

原创 NVIDIA-B200 OFED安装失败解决步骤,实际生产环境故障一例

,需先卸载这些依赖包,才能继续安装新版驱动。

2025-03-17 15:40:03 178 2

原创 【nvidia-H200 生产实战】Ubuntu24.04 NVIDIA 570.124.06+Cuda12.8 nccl-test 一键部署(免修改复制即用)

【代码】Ubuntu 24.04安装nvidia H200 驱动,并进行nccl-test测试,生产实战部署脚本。

2025-03-14 17:39:34 481

原创 ubuntu24.04执行nvidia-smi报错,实际生产报错,处理过程

报错日志。

2025-03-14 10:30:45 469

原创 【H100 生产实战】Ubuntu22.04 NVIDIA 550.144.03 全家桶一键部署(CUDA12.1+NCCL2.18+OFED5.1,复制即用)

【代码】ubuntu22.04安装GPU nvidia、nccl-tests、cuda、ofed驱动全家桶(实际生产环境,复制即可使用20250315)

2025-03-13 11:44:59 530

原创 ubuntu-drivers-common 包功能详解

(如 NVIDIA/AMD 显卡驱动、无线网卡驱动等)。该包是 Ubuntu 系统中用于。的核心工具,尤其针对。

2025-03-12 18:37:24 300

原创 NVIDIA-GPU驱动降级-(实际生产故障一例)

按照以上步骤操作,你应该可以解决无法安装指定版本 NVIDIA 驱动的问题。先更新本地的软件包索引,这样系统就能获取到最新的软件包信息。版本,你可以从列出的可用版本中选择一个进行安装。下载对应的驱动,然后按照官方文档的指引进行安装。与 NVIDIA 驱动版本不匹配。若软件源里没有合适的版本,你可以从。,而 NVIDIA 驱动版本是。此命令会列出所有可用的版本。在更新软件源之后,查看。替换成你要安装的版本。你遇到的错误信息表明。

2025-03-12 16:56:37 281

原创 hcia华为路由器静态路由实验配置

拓扑图

2025-03-10 16:04:29 555

原创 centos22.04 dpkg -l 输出状态标识含义

dpkg -l。

2025-02-26 10:27:15 194

原创 CentOS 8 配置bond

CentOS 8 网络配置的详细步骤和对应的配置文件内容。

2025-02-17 15:25:54 333

原创 二、OpenSM排障----实战生产

当 OpenSM 服务端故障时,客户端可能无法正常访问 InfiniBand 网络。以下是排障步骤,帮助确认是否是服务器故障,以及如何查看客户端日志。使用 测试客户端与服务器之间的连通性:ibping <服务器节点的GUID或LID> 如果无法 ping 通,可能是服务器故障或网络问题。使用 查看客户端 InfiniBand 接口状态:ibstat 确保接口状态为 Active,如果状态为 Down,可能是服务器端未正确配置或故障。使用 查看当前子网管理

2025-02-14 10:45:30 249

原创 一、OpenSM 架构部署及原理详解

OpenSM 是 InfiniBand 网络的核心组件,通过自动化的拓扑发现、路由计算和状态维护,确保网络的高效运行。部署时需关注配置文件参数、路由算法选择和高可用性设计,调试时可借助日志和诊断工具快速定位问题。

2025-02-14 10:35:53 488

原创 nccl-test报错,实际解决过程-实战生产

共享库文件未找到,这通常意味着 OpenMPI 或其他 MPI 实现的库路径没有正确包含在系统的库路径中。:确保使用的 MPI 版本与 NCCL 测试程序兼容。有时不同版本之间可能存在不兼容的情况。为了永久设置该环境变量,可以将其添加到你的 shell 配置文件(例如。:确保在编译时指定了正确的 MPI 路径。如果找不到,请确保你安装的是正确的版本。:确保所有依赖项都已正确安装。将 OpenMPI 的库路径添加到。如果有任何库未找到,请安装相应的包。通过以上步骤,你应该能够解决。通常,该文件应该位于。

2025-02-13 18:57:53 262

原创 modprobe nvidia 报错,-实战生产

没有找到 NVIDIA 驱动模块。这通常是因为驱动程序未为该内核版本正确编译或安装。如果仍然遇到问题,请提供更多的错误信息或日志内容以便进一步诊断。如果仍然无法加载 NVIDIA 模块,可以检查系统日志以获取更多信息。有时,更新 initramfs 文件可以帮助解决问题。如果没有看到当前内核版本对应的条目,可能需要重新构建模块。如果上述方法无效,可以尝试使用 NVIDIA 官方提供的。这些日志可能会提供有关为什么驱动程序无法加载的更多信息。并下载适合你 GPU 型号的驱动程序。如果成功加载,你可以运行。

2025-02-13 18:42:30 724

原创 nvidia-smi执行失败,报错-实战生产

出现错误通常意味着系统无法与 NVIDIA 驱动程序进行通信。这可能是由于驱动程序未正确安装、内核模块未加载或存在其他配置问题。

2025-02-13 18:38:56 393

原创 MLNX_OFED_LINUX安装失败-实战生产

日志信息来看,脚本在尝试为你的内核版本(6.8.0-1008-nvidia)构建相应的 DEB 包时遇到了一些警告和错误。这些警告主要集中在某些功能不支持当前的内核版本上。

2025-02-13 18:20:29 794

原创 nginx面试题及答案(全网最全)

Nginx是一个开源的高性能HTTP和反向代理服务器,也提供IMAP/POP3代理服务。正向代理为客户端提供服务,隐藏客户端的真实IP;反向代理为服务器端提供服务,隐藏后端服务器的真实地址。

2025-02-10 18:22:16 103

全国计算机等级考试一级试题及答案(25套).pdf

计算机考试一级试题及答案,自己整理

2019-11-22

计算机网络实验指导 大学课程

计算机网络实验指导 大学课程 大学课件 实验指导 大学网络基础

2009-12-18

读闪付卡号软件uid cuid

如果我们使用的是10进制卡号,在卡号类型中选10进制卡号。 卡片是UID卡就选UID卡,是CUID卡就选CUID卡,点批量写卡,然后软件就读取了Excel表中的卡号 放卡,就开始写卡,然后自动跳下一行卡号,写下一张卡

2023-08-14

vsftpd-1.1.3-8.i386.rpm

linux的ftp软件包 vsftpd-1.1.3-8.i386.rpm

2008-12-26

linux-mysql5.6.29

mysql5.6.29 linux安装包,rpm包,包含server/client/devel

2018-09-13

华为路由器故障处理案例集-20090224-C.rar

华为路由器故障处理案例集-20090224-C.rar

2009-12-19

mail.jar与activation.jar

mail.jar与activation.jar 希望对大家有帮组啊!

2015-02-12

FlashThief U盘小偷

FlashThief U盘小偷 本程序以服务形式运行。当然,双击它也是开始监听了…… 安装服务:FlashThief.exe -install 卸载服务:FlashThief.exe -uninstall

2010-01-04

WIN32API手册

作为Microsoft 32位平台的应用程序编程接口,Win32 API是从事Windows应用程序开发所必备的。本书首先对Win32 API函数做完整的概述;然后收录五大类函数:窗口管理、图形设备接口、系统服务、国际特性以及网络服务;在附录部分,讲解如何在Visual Basic和Delphi中对其调用。 本书是从事Windows应用程序开发的软件工程师的必备参考手册。

2008-12-25

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除