ubuntu设置GPU功率

前言

上次发了一篇文章,我使用脚本自动根据GPU温度调整服务器风扇转速

但是我实测之后,发现这个方法还是压不住我GPU的温度,暂时不清楚什么原因

所以我准备把GPU功耗压低

先看看gpu的功耗限制

nvidia-smi -q -d POWER

使用上面的命令会输出gpu的功耗的信息,如果出现找不到命令的情况先安装gpu驱动

chen@chen:~$ nvidia-smi -q -d POWER

==============NVSMI LOG==============

Timestamp                                 : Tue Jun 11 10:20:46 2024
Driver Version                            : 470.42.01
CUDA Version                              : 11.4

Attached GPUs                             : 2
GPU 00000000:01:00.0
    Power Readings
        Power Management                  : Supported
        Power Draw                        : 28.20 W
        Power Limit                       : 100.00 W
        Default Power Limit               : 149.00 W
        Enforced Power Limit              : 100.00 W
        Min Power Limit                   : 100.00 W
        Max Power Limit                   : 175.00 W
    Power Samples
        Duration                          : 119.17 sec
        Number of Samples                 : 119
        Max                               : 28.20 W
        Min                               : 27.97 W
        Avg                               : 28.16 W

GPU 00000000:02:00.0
    Power Readings
        Power Management                  : Supported
        Power Draw                        : 30.32 W
        Power Limit                       : 100.00 W
        Default Power Limit               : 149.00 W
        Enforced Power Limit              : 100.00 W
        Min Power Limit                   : 100.00 W
        Max Power Limit                   : 175.00 W
    Power Samples
        Duration                          : 119.16 sec
        Number of Samples                 : 119
        Max                               : 30.32 W
        Min                               : 30.08 W
        Avg                               : 30.23 W

 来看看这张显卡的最低和最高功率限制多少

        Min Power Limit                   : 100.00 W
        Max Power Limit                   : 175.00 W

我这张卡是两个核心的,所以会显示 GPU 00000000:01:00.0 和GPU 00000000:02:00.0

可以看到单个核心最低功率是100W,最高功率的175W

调整功率

sudo nvidia-smi -pl 100

给两个核心都限制100W

chen@chen:~$ sudo nvidia-smi -pl 100
Power limit for GPU 00000000:01:00.0 was set to 100.00 W from 100.00 W.
Power limit for GPU 00000000:02:00.0 was set to 100.00 W from 100.00 W.
All done.

从输出来看,两个核心都已经调整为了100W功率

windows下启动wdmn

nvidia-smi -dm 0

<think>好的,我现在要解决用户在Ubuntu 22.04下遇到的NVIDIA显卡显示最大功率不正确的问题。首先,我需要了解用户可能遇到的具体情况。用户可能使用了类似nvidia-smi或其他监控工具,发现报告的显卡最大功率与官方规格不符,或者动态调整时显示异常。 接下来,我应该考虑可能的原因。首先想到的是驱动问题,Ubuntu的默认驱动可能不是最新版本,或者存在兼容性问题。其次,显卡的电源管理设置可能有误,比如PCIe插槽供电不足,或者BIOS中的相关设置不正确。还有可能是工具本身的显示问题,例如nvidia-smi读取的数据有误。 然后,我需要逐步给出解决方案。第一步通常是建议用户检查驱动版本,并推荐使用官方的最新驱动。因为旧版本的驱动可能存在已知的bug,导致信息读取错误。用户可以通过Ubuntu的“软件和更新”应用来切换驱动,或者使用命令行安装官方驱动。 接下来,如果驱动没有问题,可能需要检查电源相关的设置。比如,使用nvidia-smi中的电源管理命令,调整电源模式,查看是否影响功率显示。同时,建议用户检查BIOS中的PCIe电源管理选项,确保没有限制供电。 另外,工具本身的限制也可能导致显示错误。比如nvidia-smi在某些情况下可能无法正确读取最大功率,特别是在动态调整的情况下。这时候可以建议用户使用其他工具如nvtop或第三方监控软件交叉验证。 如果上述步骤无法解决问题,可能需要检查硬件连接,比如电源线是否插紧,电源供应是否足够支持显卡的最大功率。用户可能需要检查电源单元(PSU)的额定功率是否满足显卡需求,或者尝试更换电源线。 最后,如果所有方法都无效,建议用户查阅NVIDIA的官方文档或社区支持,看看是否有已知的问题和解决方案。也可以在论坛或问答平台上寻求帮助,比如Ask Ubuntu或NVIDIA开发者论坛。 在处理过程中,需要确保用户按照步骤操作,并注意备份数据,避免因驱动更换或BIOS设置导致系统不稳定。同时,提醒用户谨慎操作硬件,防止静电或物理损坏。 总结下来,解决方案大致分为驱动更新、电源设置调整、工具验证、硬件检查以及官方支持这几个步骤。需要逐步排除可能的原因,确保用户能够找到问题根源并解决。</think>在Ubuntu 22.04中遇到NVIDIA显卡显示最大功率不准确的问题,可按照以下步骤排查和解决: --- ### **一、检查驱动版本** 1. **查看当前驱动** ```bash nvidia-smi ``` 记录驱动版本(右上角显示)。 2. **更新官方驱动** - 添加官方仓库: ```bash sudo add-apt-repository ppa:graphics-drivers/ppa sudo apt update ``` - 安装推荐版本: ```bash ubuntu-drivers devices sudo apt install nvidia-driver-XXX # 替换为推荐版本号 ``` - 重启生效。 --- ### **二、验证电源管理设置** 1. **调整电源模式** ```bash sudo nvidia-smi -pm 1 # 启用持久模式 sudo nvidia-smi -pl MAX_POWER # 手动设置功率上限(需≤官方标称值) ``` *示例*:若显卡标称最大功率为250W: ```bash sudo nvidia-smi -pl 250 ``` 2. **检查BIOS设置** - 重启进入BIOS,确认以下选项: - PCIe电源管理:禁用`ASPM`(主动状态电源管理) - PCIe插槽供电:设置为`最大性能` --- ### **三、排除工具显示问题** 1. **使用替代工具验证** - 安装`nvtop`: ```bash sudo apt install nvtop ``` - 运行后对比功率读数。 2. **检查传感器数据** ```bash nvidia-smi -q | grep -i "power" ``` 查看`Max Power`和`Power Limit`字段是否合理。 --- ### **四、排查硬件问题** 1. **检查电源供应** - 确认电源功率(PSU)满足显卡需求。 - 检查PCIe电源线是否插紧。 2. **更换PCIe插槽** - 尝试将显卡安装到其他PCIe插槽(优先选择直连CPU的插槽)。 --- ### **五、高级调试** 1. **查看内核日志** ```bash dmesg | grep -i nvidia ``` 检查是否有电源相关报错(如`power budget exceeded`)。 2. **禁用Nouveau驱动** ```bash sudo bash -c "echo blacklist nouveau > /etc/modprobe.d/blacklist-nvidia-nouveau.conf" sudo update-initramfs -u ``` 重启后确认仅使用官方驱动。 --- ### **六、官方支持** 若问题仍未解决: 1. 访问[NVIDIA开发者论坛](https://forums.developer.nvidia.com/)提交日志。 2. 通过`nvidia-bug-report.sh`生成完整报告: ```bash sudo nvidia-bug-report.sh ``` --- ### **总结流程** $$ \begin{aligned} 1.\ & \text{更新驱动} \rightarrow 2.\ \text{调整电源设置} \rightarrow 3.\ \text{交叉验证读数} \\ 4.\ & \text{检查硬件} \rightarrow 5.\ \text{提交官方支持} \end{aligned} $$ 操作时注意: - 修改功率上限时勿超过显卡标称值,可能触发保护机制。 - BIOS设置错误可能导致系统不稳定,建议记录原始值备用。
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包

打赏作者

java-superchen

你的鼓励将是我创作的最大动力

¥1 ¥2 ¥4 ¥6 ¥10 ¥20
扫码支付:¥1
获取中
扫码支付

您的余额不足,请更换扫码支付或充值

打赏作者

实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值