Python代码中捕捉性能-环境设置

本文介绍了进行Python代码性能分析前的环境配置过程,包括禁用硬件性能特性、设置固定的CPU频率以及调整电源管理等措施,以确保测试结果的准确性和可重复性。

摘要生成于 C知道 ,由 DeepSeek-R1 满血版支持, 前往体验 >

这是“Python代码中的狩猎性能”系列中的第一篇文章。通过每篇文章,我将介绍一些存在于Python代码中的工具和分析器,以及它们如何帮助您更好地发现前端(Python脚本)和/或后端(Python解释器)中的瓶颈。


系列索引

  1. 建立
  2. 内存分析
  3. CPU分析 - Python脚本
  4. CPU分析 - Python解释器

建立

在进行基准测试和分析之前,首先我们需要一个适当的环境。这意味着机器和操作系统都必须配置为执行此任务。

一般来说,我的机器具有以下规格:

  • 处理器:Intel(R)Xeon(R)CPU E5-2699 v3 @ 2.30GHz
  • 内存:32GB
  • 操作系统:Ubuntu 16.04 LTS
  • 内核:4.4.0-75-通用

我们的目标是获得可重复的结果,从而确保我们的数据不受其他后台进程,操作系统配置或任何其他硬件性能增强技术的影响。

我们从配置我们用于分析的机器开始。

硬件功能

首先,禁用任何硬件性能功能。这意味着从BIOS / UEFI禁用Intel Turbo Boost和Hyper Threading。

官方页面所示,Turbo Boost是一种“自动允许处理器内核在低于功率,电流和温度规格限制的条件下工作,运行速度比额定工作频率更快的技术”在另一方面,超线程是“这更有效地使用处理器资源,使多个线程在每个内核运行技术”,如所述在这里

我们付出的好东西,我们真的希望他们在生产。那么为什么在分析/基准测试时启用它们呢?因为我们没有获得可靠和可重复的结果,这转化为运行变化。让我们看一个叫做primes.py的小例子,故意写得不好

import time
import statistics

def primes(n): 
    if n==2:
        return [2]
    elif n<2:
        return []
    s=range(3,n+1,2)
    mroot = n ** 0.5
    half=(n+1)/2-1
    i=0
    m=3
    while m <= mroot:
        if s[i]:
            j=(m*m-3)/2
            s[j]=0
            while j<half:
                s[j]=0
                j+=m
        i=i+1
        m=2*i+3
    return [2]+[x for x in s if x]

def benchmark():
	results = []
	gstart = time.time()
	for _ in xrange(5):
		start = time.time()
		count = len(primes(1000000))
		end = time.time()
		results.append(end-start)
	gend = time.time()
	mean = statistics.mean(results)
	stdev = statistics.stdev(results)
	perc = (stdev * 100)/ mean
	print "Benchmark duration: %r seconds" % (gend-gstart)
	print "Mean duration: %r seconds" % mean
	print "Standard deviation: %r (%r %%)" % (stdev, perc)

benchmark()

代码也可以在GitHub上使用。作为一个依赖项,您需要运行:

pip install statistics


让我们在启用Turbo Boost和Hyper Threading的系统中运行它:

python primes.py
Benchmark duration: 1.0644240379333496 seconds
Mean duration: 0.2128755569458008 seconds
Standard deviation: 0.032928838418120374 (15.468585914964498 %)


现在在同一个系统上,但禁用了Turbo Boost和Hyper Threading:

python primes.py
Benchmark duration: 1.2374498844146729 seconds
Mean duration: 0.12374367713928222 seconds
Standard deviation: 0.000684464852339824 (0.553131172568 %)


在第一种情况下观察标准偏差 - 15%。这是一个巨大的价值!假设你做了一个带来6%加速的优化,你将如何区分运行变化和运行的变化?

相反,在第二种情况下,变化减少到约。0.6%。你闪亮的新的优化将是可见的!

CPU节电

禁用任何CPU节能并使用固定的CPU频率。这可以通过更改Linux电源管理器来intel_pstate完成  acpi_cpufreq

intel_pstate驱动程序使用英特尔酷睿(Sandy Bridge及更新版本)处理器的内部管理器实现了扩展驱动程序。acpi_cpufreq驱动程序使用ACPI处理器性能状态。

先来看看吧!

$ cpupower frequency-info
analyzing CPU 0:
 driver: intel_pstate
 CPUs which run at the same hardware frequency: 0
 CPUs which need to have their frequency coordinated by software: 0
 maximum transition latency: 0.97 ms.
 hardware limits: 1.20 GHz - 3.60 GHz
 available cpufreq governors: performance, powersave
 current policy: frequency should be within 1.20 GHz and 3.60 GHz.
                 The governor "powersave" may decide which speed to use
                 within this range.
 current CPU frequency is 1.20 GHz.
 boost state support:
     Supported: yes
     Active: yes


您会看到使用的调速器设置为powersave,CPU频率在1.20 GHz和3.60 GHz之间变化。这对您的个人电脑或任何其他日常使用有好处,但在做基准测试时会伤害到结果。

州长有什么可能的价值?如果我们浏览文档,我们可以看到我们可以使用以下内容:

  • performance - 以最高频率运行CPU。
  • powersave - 以最低频率运行CPU。
  • userspace - 以用户指定的频率运行CPU。
  • ondemand - 根据当前负载动态调整频率。跳到最高频率,然后随着空闲时间的增加可能退出。
  • conservative - 根据当前负载动态调整频率。比按需更加频繁地调整频率。

我们要使用的是性能调控器,并将频率设置为CPU支持的最大频率。像这样的东西:

$ cpupower frequency-info
analyzing CPU 0:
 driver: acpi-cpufreq
 CPUs which run at the same hardware frequency: 0
 CPUs which need to have their frequency coordinated by software: 0
 maximum transition latency: 10.0 us.
 hardware limits: 1.20 GHz - 2.30 GHz
 available frequency steps: 2.30 GHz, 2.20 GHz, 2.10 GHz, 2.00 GHz, 1.90 GHz, 1.80 GHz, 1.70 GHz, 1.60 GHz, 1.50 GHz, 1.40 GHz, 1.30 GHz, 1.20 GHz
 available cpufreq governors: conservative, ondemand, userspace, powersave, performance
 current policy: frequency should be within 2.30 GHz and 2.30 GHz.
                 The governor "performance" may decide which speed to use
                 within this range.
 current CPU frequency is 2.30 GHz.
 cpufreq stats: 2.30 GHz:100.00%, 2.20 GHz:0.00%, 2.10 GHz:0.00%, 2.00 GHz:0.00%, 1.90 GHz:0.00%, 1.80 GHz:0.00%, 1.70 GHz:0.00%, 1.60 GHz:0.00%, 1.50 GHz:0.00%, 1.40 GHz:0.00%, 1.30 GHz:0.00%, 1.20 GHz:0.00% (174)
 boost state support:
     Supported: no
     Active: no


现在您将使用  performance 调速器,并具有2.3 GHz的固定频率。至强E5-2699 v3上可以使用此值,但无Turbo Boost。

要设置所有内容,请使用管理权限运行以下命令:

cpupower frequency-set -g performance
cpupower frequency-set --min 2300000 --max 2300000


如果没有cpupower,请使用以下命令进行安装:

sudo apt-get install linux-tools-common linux-header-`uname -r` -y​


电源调节器对于如何使用CPU有很大的影响。默认情况下,调速器设置为自动缩放频率以降低功耗。我们不希望在我们的系统上这个,我们继续从GRUB禁用它。只需编辑/boot/grub/grub.cfg(但是如果你在内核升级的时候要小心,这将会消失)或者创建一个新的内核入口/etc/grub.d/40_custom我们的引导行必须包含以下标志:intel_pstate=disable, 

像这样:

linux   /boot/vmlinuz-4.4.0-78-generic.efi.signed root=UUID=86097ec1-3fa4-4d00-97c7-3bf91787be83 ro intel_pstate=disable quiet splash $vt_handoff


ASLR(地址空间布局随机数发生器)

这种情况是有争议的,你也可以在Victor Stinner的书中看到岗位什么时候我第一次建议禁用ASLR在进行基准测试时,是在进一步改进当时CPython中对配置文件引导优化的支持的背景下进行的。

是什么导致我说的是,在上面介绍的特定硬件上,禁用ASLR会将运行变化降低到0.4%!

另一方面,在我的个人计算机上测试(它有一个Intel Core i7 4710MQ),禁用ASLR会导致Victor提出的相同问题。在更小的CPU上测试(比如Intel Atom)让我可以运行更多的变化,而不是取消它。

由于它似乎不是一个普遍的可用事实,而且很大程度上取决于硬件/软件的配置,所以这个结果是让它启用和测量,禁用它并再次测量,然后比较结果。

在我的机器上,我通过添加以下内容使其全局禁用/etc/sysctl.conf申请使用sudo sysctl -p

kernel.randomize_va_space = 0

如果你想在运行时禁用它:

sudo bash -c 'echo 0 >| /proc/sys/kernel/randomize_va_space'


如果你想启用它:

sudo bash -c 'echo 2 >| /proc/sys/kernel/randomize_va_space'



作者:Alecsandru Patrascu,alecsandru.patrascu [at] rinftech [dot] com

原文:https://pythonfiles.wordpress.com/2017/05/15/hunting-python-performance-setup/



评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值