如何预期计算cuda kernel代码的性能水平

最新推荐文章于 2025-04-13 18:26:15 发布

weiwei0319

最新推荐文章于 2025-04-13 18:26:15 发布

阅读量1.7k

点赞数 2

CC 4.0 BY-SA版权

分类专栏： CUDA

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/weiwei0319/article/details/105214548

CUDA 专栏收录该内容

8 篇文章

订阅专栏

本文介绍CGMA(ComputetoGlobalMemoryAccess)值的概念及其在CUDA程序性能评估中的作用。通过矩阵乘法实例，解释CGMA如何反映GPU内核函数的效率，以及如何通过减少全局内存访问来提升性能。

摘要生成于 C知道，由 DeepSeek-R1 满血版支持，前往体验 >

CGMA(Compute to Global Memory Access)

CGMA的定义是在CUDA程序的某一个区域内每次访问全局存储器时，执行浮点运算的次数，通过对某一个区域代码计算CGMA值，大致可以预估出代码的性能水平。

假如矩阵乘法中的核心代码：

for(int k = 0;k<Width;++k)

Pvalue+=d_M[Row*Width+k]*d_N[k*Width+Col];

该循环的每次迭代都要访问两次全局存储器，一次时执行浮点乘法，另一次时执行浮点加法。一次全局存储器访问取出一个d_M[]元素，另一次去除d_N[]元素，一次浮点操作完成d_M*d_N,其它操作将乘积结果累加到Pvalue中。因此，浮点运算与全局存储器访问操作之间的比值是1:1(或者说比值是1.0）。这个就是CGMA值。

CGMA比值 能够比较准确的体现CUDA中kernel函数的性能。假设CUDA设别的全局存储器访问带宽为200GB/s。单精度浮点数占4个字节，因此对单精度数据的加载不会超过50(200/4)GFLOPS.如果CGMA=1.0,则矩阵乘法中kernel函数每秒可执行的浮点操作不会超过50GFLOPS。50GFLOPS相对于GPU来说很低了，GPU的计算峰值随便都可以达到1500GFLOPS.如果要达到1500GFLOPS，则需要将CGMA的值提到到30，也就是一次访问全局存储器，可以做30次浮点运算。

反映出一种性能优化方式：尽可能少的访问显存，如果避免不了访问显存，那么访问一次显存后，尽可能将能够完成的运算全部完成，再加载别的数据。这种方式原理与CPU性能优化如出一辙。

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。