CUDA编程指南3.1中文翻译：并行计算与编程接口解析

PDF文件

4星 · 超过85%的资源 | 下载需积分: 9 | 2.41MB | 更新于2024-08-01 | 70 浏览量 | 举报 1 收藏

立即下载

"CUDA编程指南3.1中文版" CUDA（Compute Unified Device Architecture）是由NVIDIA推出的编程模型，它允许开发者利用GPU（图形处理单元）进行高性能计算，将原本专为图形处理设计的硬件用于通用计算任务。CUDA 3.1是NVIDIA发布的一个版本，提供了对GPU并行计算的更深入支持。 CUDA编程模型的核心概念包括： 1. **内核（Kernel）**：内核是执行在GPU上的函数，它们可以并行地在大量线程上运行。程序员需要定义内核函数来指定GPU上要执行的操作。 2. **线程层次**：CUDA线程组织成多级层次，包括线程块、线程网格和单个线程。线程块中的线程可以共享数据，而线程网格则包含多个线程块。 3. **存储器层次**：CUDA有多种存储器类型，包括全局内存、共享内存、纹理内存和表面内存，每种内存类型都有其特定的访问速度和用途。全局内存是所有线程都能访问的，共享内存则仅限于同一线程块内的线程，纹理和表面内存通常用于优化数据访问。 4. **异构编程**：CUDA编程模型允许同时使用CPU和GPU，通过编程模型中的API调用来协调两者之间的数据传输和任务执行。 5. **计算能力**：计算能力是衡量GPU执行CUDA程序性能的一个指标，它反映了GPU每秒能执行的浮点运算次数。 CUDA编程接口分为两部分：运行时API和驱动API。运行时API主要用于简单易用的编程，适合大部分开发者；驱动API则提供更低级别的控制，对于高级性能优化更有利。 - **运行时API**：提供了方便的函数，如cudaMalloc()分配设备内存，cudaMemcpy()进行数据传输，cudaLaunchKernel()启动内核等。此外，还有错误处理机制和设备模拟模式用于调试。 - **驱动API**：提供了更底层的访问，如创建和管理上下文（Context）、加载模块（Module）、执行内核、管理内存等。驱动API更适合需要精确控制GPU资源和执行流的应用。 CUDA的版本和计算模式决定了GPU的功能和性能。版本升级通常会引入新的特性，而计算模式则定义了GPU的运行环境，例如单一GPU运行、多GPU协同等。硬件实现方面，CUDA基于SIMT（Single Instruction Multiple Thread）架构，硬件多线程技术使得GPU能同时处理大量线程。多设备支持意味着可以跨多个GPU分配任务，进一步提升计算能力。性能优化是CUDA编程的关键，包括最大化设备利用率、存储器吞吐量等。这涉及到对硬件特性的理解，如合理分配线程、优化数据访问模式、减少全局内存延迟等。 CUDA编程指南3.1中文版是学习和掌握CUDA编程的重要参考资料，它涵盖了从基本概念到高级编程技巧，为开发者提供了全面的指导。通过深入理解和实践，开发者可以利用GPU的强大计算能力解决各种高性能计算问题。

第三章编程接口

目前可用两种接口写 CUDA 程序：CUDA C 和 CUDA 驱动 API。一个应用典型的只能使用其

中一种，但是遵守 3.4 节描述的限制时，可以同时使用两种。

CUDA C 将 CUDA 编程模型作为 C 的最小扩展集展示出来。任何包含某些扩展的源文件必

须使用 nvcc 编译，nvcc 的概要在 3.1 节。这些扩展允许程序员像定义 C 函数一样定义内核

和在每次内核调用时，使用新的语法指定网格和块的尺寸。

CUDA 驱动 API 是一个低层次的 C 接口，它提供了从汇编代码或 CUDA 二进制模块中装载

内核、检查内核参数和发射内核的函数。二进制和汇编代码通常可以通过编译使用 C 写的内

核得到。

CUDA C 包含运行时 API，运行时 API 和驱动 API 都提供了分配和释放设备存储器、在主

机和显存间传输数据、管理多设备的系统的函数等等。

运行时 API 是基于驱动 API 的，初始化、上下文和模块管理都是隐式的，而且代码更简

明。

相反，CUDA 驱动 API 要求写更多的代码，难于编程和调试，但是易于控制且是语言无关

的，因为它处理的是二进制或汇编代码。

3.2 节接着第二章介绍 CUDA C。也引入了 CUDA C 和驱动 API 共有的概念：线性存储

器、CUDA 数组、共享存储器、纹理存储器、分页锁定主机存储器、异步执行和与图形学 API

互操作。3.3 节会介绍有关这些概念的知识和描述它们在驱动 API 中是怎样表示的。

3.1 用 nvcc 编译

内核可以使用 PTX 编写，PTX 就是 CUDA 指令集架构，PTX 参考手册中描述了 PTX。通常

PTX 效率高于像 C 一样的高级语言。无论是使用 PTX 还是高级语言，内核都必须使用 nvcc

编译成二进制代码才能在设备上执行。

nvcc 是一个编译器驱动，简化了 C 或 PTX 的编译流程：它提供了简单熟悉的命令行选

项，同时通过调用一系列实现了不同编译步骤的工具集来执行它们。本节简介了 nvcc 的编

译流程和命令选项。完整的描述可在 nvcc 用户手册中找到。

3.1.1 编译流程

nvcc 可编译同时包含主机代码（在主机上执行的代码）和设备代码（在设备上执行的代

码）的源文件。nvcc 的基本流程包括分离主机和设备代码并将设备代码编译成汇编形式

（PTX）或/和二进制形式（cubin 对象）。生成的主机代码要么被输出为 C 代码供其它工具

编译，要么在编译的最后阶段被 nvcc 调用主机编译器输出为目标代码。

应用能够：

 要么在设备上使用 CUDA 驱动 API 装载和执行 PTX 源码或 cubin 对象（参见 3.3 节）

同时忽略生成的主机代码（如果有）；

 要么链接到生成的主机代码；生成的主机代码将 PTX 代码和/或 cubin 对象作为已初

始化的全局数据数组导入，还将 2.1 节引入的<<<„>>>语法转化为必要的函数调用

以加载和发射每个已编译的内核。

应用在运行时装载的任何 PTX 代码被设备驱动进一步编译成二进制代码。这称为即时编

译。即时编译增加了应用装载时间，但是可以享受编译器的最新改进带来的好处。也是当前

应用能够在未来的设备上运行的唯一方式，细节参见 3.1.4 节。

3.1.2 二进制兼容性

二进制代码是由架构确定的。生成 cubin 对象时，使用编译器选项-code 指定目标架

构：例如，用-code=sm_13 编译时，为计算能力 1.3 的设备生成二进制代码。二进制兼容

性保证向后兼容，但不保证向前兼容，也不保证跨越主修订号兼容。换句话说，为计算能力

为 X.y 生成的 cubin 对象只能保证在计算能力为 X.z 的设备上执行，这里，z>=y。

3.1.3 PTX 兼容性

一些 PTX 指令只被高计算能力的设备支持。例如，全局存储器上的原子指令只在计算能

力 1.1 及以上的设备上支持；双精度指令只在 1.3 及以上的设备上支持。将 C 编译成 PTX 代

码时，-arch 编译器选项指定假定的计算能力。因此包含双精度计算的代码，必须使用“-

arch=sm_13”（或更高计算能力）编译，否则双精度计算将被降级为单精度计算。

为某些特殊计算能力生成的 PTX 代码始终能够被编译成相等或更高计算能力设备上的二

进制代码。（译者注：PTX 保证完全的向后兼容，而二进制只保证主修订号相同的向后兼

容）

3.1.4 应用兼容性

为了在特定计算能力的设备上执行代码，应用加载的二进制或 PTX 代码必须满足如

3.1.2 节和 3.1.3 节说明的计算能力兼容性。特别地，为了能在将来更高计算能力（不能产

生二进制代码）的架构上执行，应用必须装载 PTX 代码并为那些设备即时编译。

CUDA C 应用中嵌入的 PTX 和二进制代码，由-arch 和-code 编译器选项或-gencode 编译

器选项控制，详见 nvcc 用户手册。例如，

嵌入与计算能力 1.0 兼容的二进制代码（第一个-gencode 选项）和 PTX 和与计算能力

1.1 兼容的二进制代码（第二个-gencode 选项）。

生成的主机代码在运行时自动选择最合适的代码装载并执行，对于上面例子，将会是：

 1.0 二进制代码为计算能力 1.0 设备，

 1.1 二进制代码为计算能力 1.1,1.2,1.3 的设备，

 通过为计算能力 2.0 或更高的设备编译 1.1PTX 代码获得的二进制代码。

例如，x.cu 可有一个使用原子指令的优化代码途径，只能支持计算能力 1.1 或更高的设

备。__CUDA_ARCH__宏可以基于计算能力用于不同的代码途径。它只为设备代码定义。例

如，当使用“arch=compte_11”编译时，__CUDA_ARCH__等于 110。

使用驱动 API 的应用必须将代码编译成分立的文件，且在运行时显式装载和执行最合适

的文件。

nvcc 用户手册为-arch,-code 和-gencode 编译器选项列出了多种简写。如

“arch=sm_13”是“arch=compute_13 code=compute_13,sm_13”的简写（等价于“-

gencode arch=compute_13,code=\’compute_13,sm_13\’”）。

3.1.5 C/C++兼容性

nvcc x.cu

–gencode arch=compute_10, code=sm_10

–gencode arch=compute_11, code=\’compute_11,sm_11\’

编译器前端依据 C++语法规则处理 CUDA 源文件。主机代码完整支持 C++。设备代码只完

整支持 C++的一个子集，详见附录 D。由于使用了 C++的语法规则，空指针（如 malloc()的

返回值）不能赋值给非空指针，必须转型后才能赋值。

nvcc 也支持特定的关键字和指令，详见附录 E。

3.1.6 64 位兼容性

在计算能力 2.0 的设备上，设备代码可以使用 64 位模式编译（如 64 位的指针）。只有

在主机代码是以 64 位模式编译的时候，设备代码才支持 64 位模式。

nvcc 以 64 位模式编译文件时：

 在 64 位系统上，除非指定-m32 编译选项，否则默认就是，

 使用-m64 编译选项指定。

文件中包含的设备代码和主机代码都是以 64 位模式编译的。如果要设备代码以 32 位模式编

译，主机代码以 64 位模式编译（通常是因为像 5.2.3 节的性能原因），设备代码必须分开

编译，且使用-m32 编译选项和使用驱动 API 加载。

3.2 CUDA C

CUDA C 为熟悉 C 语言的用户提供了一个简单途径，让他们能够轻易的写出能够在设备上

执行的程序。

CUDA C 包含了一个 C 语言的最小扩展集和一个运行时库。语言核心扩展在第二章已经介

绍了。本节继续介绍运行时。所有扩展的完整的描述可在附录 B 找到，CUDA 运行时的完整

描述可在 CUDA 参考手册中找到。

cudart 动态库是运行时的实现，它所有的入口点前缀都是 cuda。

运行时没有显式的初始化函数；在初次调用运行时函数（更精确地，不在参考手册中设

备和版本管理节中的任何函数）时初始化。在计算运行时函数调用时间和解析初次调用运行

时产生的错误码时必须牢记这点。

一旦运行时在主机线程中初始化，在主机线程中通过一些运行时函数调用分配的任何资

源（存储器，流，事件等）只在当前主机线程的上下文中有效。因此只有在这个主机线程中

调用的运行时函数（存储器拷贝，内核发射等）才能操作这些资源。这是因为 CUDA 上下文

（参见 3.3.1 节）作为初始化的一部分建立且成为主机线程的当前上下文，且不能成为其它

主机线程的当前上下文。

在多设备的系统中，内核默认在 0 号设备上执行（译者注：设备必须要工作在默认

上），详见 3.2.3 节。

3.2.1 设备存储器

正如 2.4 节所提到的，CUDA 编程模型假定系统包含主机和设备，它们各有自己独立的存

储器。内核不能操作设备存储器，所以运行时提供了分配，释放，拷贝设备存储器和在设备

和主机间传输数据的函数。

设备存储器可被分配为线性存储器或 CUDA 数组。

CUDA 数组是不透明的存储器层次，为纹理获取做了优化。它们的细节在 3.2.4 节。

计算能力 1.x 的设备，其线性存储器存在于 32 位地址空间内，计算能力 2.0 的设备，

其线性存储器存在于 40 位地址空间内，所以独立分配的实体能够通过指针引用，如，二叉

树。

下面的代码分配了一个尺寸为 width*height*depth 的三维浮点数组，同时演示了怎样

在设备代码中遍历数组元素。

参考手册列出了在 cudaMalloc()分配的线性存储器，cudaMallocPitch()或

cudaMalloc3D()分配的线性存储器，CUDA 数组和为声明在全局存储器和常量存储器空间分

配的存储器之间拷贝的所有各种函数。

下面的例子代码复制了一些主机存储器数组到常量存储器中：

为声明在全局存储器空间的变量分配的存储器的地址，可以使用

cudaGetSymbolAddress()函数检索到。分配的存储器的尺寸可以通过 cudaGetSymbolSize()

函数获得。

3.2.2 共享存储器

共享存储器使用__shared__限定词分配，详见 B.2 节。

正如在 2.2 节提到的，共享存储器应当比全局存储器更快，详见 5.3.2.3 节。任何用访

问共享存储器取代访问全局存储器的机会应当被发掘，如下面的矩阵相乘例子展示的那样。

下面的代码是矩阵相乘的一个直接的实现，没有利用到共享存储器。每个线程读入 A 的

// Host code

cudaPitchedPtr devPitchedPtr;

cudaExtent extent = make_cudaExtent(64, 64, 64);

cudaMalloc3D(&devPitchedPtr, extent);

MyKernel<<<100, 512>>>(devPitchedPtr, extent);

// Device code

__global__ void MyKernel(cudaPitchedPtr devPitchedPtr, cudaExtent extent) {

char* devPtr = devPitchedPtr.ptr;

size_t pitch = devPitchedPtr.pitch;

size_t slicePitch = pitch * extent.height;

for (int z = 0; z < extent.depth; ++z) {

char* slice = devPtr + z * slicePitch;

for (int y = 0; y < extent.height; ++y) {

float* row = (float*)(slice + y * pitch);

for (int x = 0; x < extent.width; ++x) {

float element = row[x];

}

__constant__ float constData[256];

float data[256];

cudaMemcpyToSymbol(constData, data, sizeof(data));

// Host code

int width = 64, height = 64;

float* devPtr;

int pitch;

cudaMallocPitch((void**)&devPtr, &pitch, width * sizeof(float), height);

MyKernel<<<100, 512>>>(devPtr, pitch, width, height);

// Device code

__global__ void MyKernel(float* devPtr, int pitch, int width, int height){

for (int r = 0; r < height; ++r) {

float* row = (float*)((char*)devPtr + r * pitch);

for (int c = 0; c < width; ++c) {

float element = row[c];

}

剩余128页未读，继续阅读

rogyl

粉丝: 39

CUDA编程指南3.1中文翻译：并行计算与编程接口解析

CUDA编程指南3.0中文版

cuda编程指南（中文版）

CUDA编程指南3.1中文翻译版

CUDA编程指南3.1：GPU并行计算解析

CUDA编程入门指南3.1：从零开始学习并行计算

CUDA 编程指南4.0中文版

CUDA编程指南2.0 中文版

CUDA编程指南：nvcc 3.1 编译器详解

CUDA编程指南4.0中文版详解

CUDA编程指南5.0中文版：通用并行计算入门

最新资源