Guía Completa de Programación CUDA

CUDA es una arquitectura de procesamiento paralelo creada por NVIDIA que permite programar las GPU mediante un modelo de programación paralela. Los kernels se definen como funciones globales que se ejecutan en paralelo mediante hilos organizados en bloques y rejillas. Los hilos tienen acceso a diferentes niveles de memoria y pueden cooperar dentro de un bloque. CUDA extiende C para permitir la programación de kernels que se ejecutan en la GPU mientras el CPU ejecuta el código principal.

Cargado por

Melvis Mell

Derechos de autor

Nos tomamos en serio los derechos de los contenidos. Si sospechas que se trata de tu contenido, reclámalo aquí.

Formatos disponibles

Descarga como PDF, TXT o lee en línea desde Scribd

0% encontró este documento útil (0 votos)

120 vistas20 páginas

Guía Completa de Programación CUDA

Cargado por

Melvis Mell

Derechos de autor

Nos tomamos en serio los derechos de los contenidos. Si sospechas que se trata de tu contenido, reclámalo aquí.

Formatos disponibles

Descarga como PDF, TXT o lee en línea desde Scribd

Está en la página 1/ 20

CUDA:

MODELO DE PROGRAMACIN

Autor: Andrs Rondn

Tema: GPUGP: nvidia

CUDA.
Introduccin
En Noviembre de 2006, NVIDIA crea CUDA, una
arquitectura de procesamiento paralelo de
propsito general, con un nuevo modelo de
programacin paralela.
Compute Unified Device Architecture
Pequea curva de aprendizaje.
Escalable a 100s cores y a 1000s hilos
paralelos.
Empez como una pequea extensin de C,
pero ya es soportada por OpenCL, Fortran...
Introduccin
DEFINICIONES

En el mbito CUDA:
Device = GPU
Host = CPU
Kernel = Funcin llamada desde el Host que se ejecuta
en Device
Array de hilos paralelos:
1 CUDA Kernel se ejecuta mediante un array de Threads.
Todos los Threads ejecutan el mismo cdigo.
Cada Thread tiene un ID que se usa para direccionar la
memoria y tomar las decisiones de control.
Jerarqua
de hilos

Unidad bsica de operacin es el thread.

Los hilos estn organizados en bloques de
threads.(Blocks)
Los bloques estn organizados en mallas de
bloques. (Grids).
Un Grid solo puede ejecutar un Kernel.
Jerarqua
de hilos (II)
Jerarqua
de hilos (y III)
Hilos identificados mediante threadIdx: vector de
elementos 3D ( tiene 3 componentes, x, y y z) . Cada
hilo puede venir identificado por un ndice 1, 2 3
dimensiones.
Los hilos de un bloque pueden cooperar entre s
mediante el uso de memoria compartida dentro del
bloque y sincronizando su ejecucin para coordinar
los accesos a memoria.
Los grids pueden ser de 1 o 2 dimensiones, luego cada
block dentro de un grid puede ser direccionado por un
ndice de 1 o 2 dimensiones mediante blockIdx.
Asimismo, la dimensin del bloque tambin se puede
obtener desde dentro del kernel mediante blockDim.
Jerarqua de
memoria
Cuda threads pueden acceder a los datos de
mltiples espacios de memoria durante su
ejecucin.
Cada thread posee su propia memoria local.
Cada block su propia memoria compartida por todos
los threads del bloque y con el mismo tiempo de
vida que los threads que lo componen.
Todos los hilos tienen acceso a la memoria global.
Existen adems otros 2 espacios de memoria
adicionales de slo lectura: constant y texture
memory.
Jerarqa
de memoria
Modelo Hardware
Cooperacin
CPU - GPU

El modelo de programacin de CUDA asume que

los CUDA threads se ejecutan en un device
que acta como coprocesador de un host que
ejecuta un programa.
Tambin asume que host y device poseen su
propia DRAM, host memory y device memory.
Cuda proporciona instrucciones para reservar,
liberar, copiar memoria en la memoria del
device, as como transferir datos entre el host y
el device.
CUDA:
EXTENSIN DE C.
Kernel

// Kernel definition
__global__ void VecAdd(float* A, float* B, float* C)
{
...
} Se define un kernel con la
int main() Primitiva __global__.
Debe devolver void.
{

// Kernel invocation
VecAdd<<<1, N>>>(A, B, C);
}

Al invocarlo se le indica
<<tamao grid, tamao bloque>>
Escalabilidad
Los ndices del elemento de la matriz Cada hilo realiza la operacin
que se va a procesar se definirn pues correspondiente. En este caso, es
en funcin del tamao del bloque, posible que el nmero de threads supere
del id el hilo dentro del bloque actual al nmero de elementos: controlar
y del tamao del id del bloque actual.
// Kernel definition
__global__ void MatAdd(float A[N][N], float B[N][N],float C[N][N])
{
int i = blockIdx.x * blockDim.x + threadIdx.x;
int j = blockIdx.y * blockDim.y + threadIdx.y;
if (i < N && j < N)
C[i][j] = A[i][j] + B[i][j]; Se define la dimensin del
} Bloque. Puede ser de 1 o 2 dimensiones.
int main() Le estamos diciendo que cada bloque
{ Va a tener 16x16=256 threads
...
// Kernel invocation
dim3 dimBlock(16, 16);
dim3 dimGrid((N + dimBlock.x 1) / dimBlock.x,(N + dimBlock.y 1) /
dimBlock.y); Se define la dimensin del
MatAdd<<<dimGrid, dimBlock>>>(A, B, C); Grid. Tambin puede ser de 1 o 2
} y depende del tamao del bloque
y del tamao del array.
Escalabilidad (II)

El tamao del block es elegido aparentemente de

forma arbitraria, y el grid es creado con suficientes
blocks para tener un thread por un elemento de la
matriz.
Todos los Threads de un block se ejecutan dentro del
mismo core. El nmero de threads por block est
limitado por los recursos de memoria del core:
En la misma GPU, actualmente un block puede
contener 512 threads.
Escalabilidad (y III)

El tamao de los datos suele ser ms grande que

el de los hilos:
Independencia de ejecucin entre bloques:
debe dar igual el orden, y si se ejecutan en
paralelo o en serie. Si no: __syncthreads().
Blocks necearios para permitir la escalabilidad
a diferentes nmeros de core
Memoria

CUDA asume que device y host tienen su propia

memoria. En principio, device trabaja con la host
memory. Para que trabaje con su propia memoria,
CUDA proporciona, entre otros:
cudaMalloc(void **, size_t);
cudaMemcpy(void *,void *,
size_t,cudaMemcpyHostToDevice|
cudaMemcpyDeviceToHost);
cudaFree(void *);
COMPILACIN
Tenemos cdigo que se va a ejecutar
en el host y cdigo que se va a ejecutar
en el device.

Nvcc se va a encargar de separarlos.

Una vez separados, el cdigo del host

se compilar con su compilador
habitual, pej. Cc, y el cdigo del
device lo transformar en cdigo
binario (cubin) o ensamblador (PTX)

Por ltimo, para cargarlo y

ejecutarlo en el device la aplicacin
se ayuda de las APIS proporcinadas
por los drivers de CUDA
Apndice

Interoperatividad con Directx y OpenGL.

Versin 2.3.1 (26/08/2009)
Muy extendido: Resultados google del orden de
1 M en nvidia cuda y de 1 K en nvidia cuda
programming guide.
Arquitectura actual: nvidia FERMI: 512 cuda
cores.
228 universidades ensean cuda actualmente. (4
de ellas Espaolas)
Documentacin

http://www.nvidia.com/object/cuda_home.html#
http://es.wikipedia.org/wiki/CUDA

También podría gustarte

I Cuda
Aún no hay calificaciones
I Cuda
15 páginas
Guía de Programación CUDA
Aún no hay calificaciones
Guía de Programación CUDA
9 páginas
Programación Paralela Con Cuba, C++ y Unidades de GPU
Aún no hay calificaciones
Programación Paralela Con Cuba, C++ y Unidades de GPU
31 páginas
Pycuda
Aún no hay calificaciones
Pycuda
6 páginas
Pycuda PDF
100% (1)
Pycuda PDF
6 páginas
CUDA Tutorial ECAR
Aún no hay calificaciones
CUDA Tutorial ECAR
34 páginas
T4 Mem+Prog+Ejec CUDA
Aún no hay calificaciones
T4 Mem+Prog+Ejec CUDA
75 páginas
Introducción a CUDA para GPUs
Aún no hay calificaciones
Introducción a CUDA para GPUs
19 páginas
Guia de Instalacion de CUDA C
Aún no hay calificaciones
Guia de Instalacion de CUDA C
39 páginas
Grupo102 Ramírez Rodríguez Iván
Aún no hay calificaciones
Grupo102 Ramírez Rodríguez Iván
4 páginas
Modelo de Programacion CUDA
Aún no hay calificaciones
Modelo de Programacion CUDA
10 páginas
Introducción a CUDA para GPUs
Aún no hay calificaciones
Introducción a CUDA para GPUs
88 páginas
Wuolah Free ASD L5
Aún no hay calificaciones
Wuolah Free ASD L5
7 páginas
Control Lectura CUDA
Aún no hay calificaciones
Control Lectura CUDA
8 páginas
Resumen A
Aún no hay calificaciones
Resumen A
24 páginas
Arquitectura CUDA
Aún no hay calificaciones
Arquitectura CUDA
10 páginas
Arqii - 11 Gpu 2015
Aún no hay calificaciones
Arqii - 11 Gpu 2015
17 páginas
Bibliografia
Aún no hay calificaciones
Bibliografia
21 páginas
Dominguez RM 5BM2 CPIA Tarea1
Aún no hay calificaciones
Dominguez RM 5BM2 CPIA Tarea1
3 páginas
Introducción a CUDA y Programación Paralela
Aún no hay calificaciones
Introducción a CUDA y Programación Paralela
10 páginas
Introducción a GPU y CUDA
Aún no hay calificaciones
Introducción a GPU y CUDA
39 páginas
Cud A
Aún no hay calificaciones
Cud A
24 páginas
Introducción a Arquitecturas GPU
100% (1)
Introducción a Arquitecturas GPU
36 páginas
Procesadores Gráficos GPU
Aún no hay calificaciones
Procesadores Gráficos GPU
5 páginas
Clase 7 - Parte 1 - 2025
Aún no hay calificaciones
Clase 7 - Parte 1 - 2025
12 páginas
Miguel - Erick - Leal - Gil - Memorias y Perifericos
Aún no hay calificaciones
Miguel - Erick - Leal - Gil - Memorias y Perifericos
6 páginas
01 Introduccion GPGPU CUDA 2en1 MartinezZarzuela
Aún no hay calificaciones
01 Introduccion GPGPU CUDA 2en1 MartinezZarzuela
29 páginas
CUDA en Fortran
100% (1)
CUDA en Fortran
55 páginas
Clase 6 - ProgramacionCUDA2 - 2025
Aún no hay calificaciones
Clase 6 - ProgramacionCUDA2 - 2025
55 páginas
Examen 11dic2023 Es Sol Moodle
Aún no hay calificaciones
Examen 11dic2023 Es Sol Moodle
4 páginas
Examen 3
Aún no hay calificaciones
Examen 3
6 páginas
Open CL
Aún no hay calificaciones
Open CL
11 páginas
Computation On The Gpu
100% (1)
Computation On The Gpu
21 páginas
Arch - 2023 10 26
Aún no hay calificaciones
Arch - 2023 10 26
4 páginas
Trabajo CUDA
Aún no hay calificaciones
Trabajo CUDA
12 páginas
Clase 5 - ProgramacionCUDA - 2025
Aún no hay calificaciones
Clase 5 - ProgramacionCUDA - 2025
38 páginas
T4 Operaciones Reduccion
Aún no hay calificaciones
T4 Operaciones Reduccion
10 páginas
Clase 4 - Arquitectura - 2025
Aún no hay calificaciones
Clase 4 - Arquitectura - 2025
53 páginas
Modelos de Arquitectura de Cómputo
100% (1)
Modelos de Arquitectura de Cómputo
11 páginas
Arquitectura Clásica de Computadoras
100% (1)
Arquitectura Clásica de Computadoras
8 páginas
Clase 4 - 5 Intro Programacion Paralela
Aún no hay calificaciones
Clase 4 - 5 Intro Programacion Paralela
50 páginas
Actividad 1.1.1
Aún no hay calificaciones
Actividad 1.1.1
14 páginas
Talle GPU
Aún no hay calificaciones
Talle GPU
19 páginas
Algoritmos Paralelos y CUDA GPU
Aún no hay calificaciones
Algoritmos Paralelos y CUDA GPU
25 páginas
Clase 8 - OpenCL - 2025
Aún no hay calificaciones
Clase 8 - OpenCL - 2025
21 páginas
Resumen Investigación 1.1 - Modelos de Arquitecturas de Cómputo
Aún no hay calificaciones
Resumen Investigación 1.1 - Modelos de Arquitecturas de Cómputo
8 páginas
Resumen Arq de Computadoras Up
Aún no hay calificaciones
Resumen Arq de Computadoras Up
25 páginas
Calculo de Pi
Aún no hay calificaciones
Calculo de Pi
14 páginas
GPUs y Computación Paralela
100% (1)
GPUs y Computación Paralela
73 páginas
Cómo Instalar y Configurar Cuda en Windows
100% (1)
Cómo Instalar y Configurar Cuda en Windows
5 páginas
Arquitectura de Computadoras
Aún no hay calificaciones
Arquitectura de Computadoras
19 páginas
Implementación RTL de Un Procesador de Shader de GPU
Aún no hay calificaciones
Implementación RTL de Un Procesador de Shader de GPU
109 páginas
Resumen Capítulo I - Programming Massively Parallel Processors
Aún no hay calificaciones
Resumen Capítulo I - Programming Massively Parallel Processors
5 páginas
Arquitectura de Computadoras - Alexis Emanuel Castillo Chuil
Aún no hay calificaciones
Arquitectura de Computadoras - Alexis Emanuel Castillo Chuil
7 páginas
Programacion Paralela
Aún no hay calificaciones
Programacion Paralela
31 páginas
Ttrasp 2
Aún no hay calificaciones
Ttrasp 2
32 páginas
Arquitectura de Computadoras y Modelos de Arquitecturas
Aún no hay calificaciones
Arquitectura de Computadoras y Modelos de Arquitecturas
15 páginas
Syllabus Del Curso Arquitectura
Aún no hay calificaciones
Syllabus Del Curso Arquitectura
14 páginas
Levi Castro - 62221152 - Tarea 2
Aún no hay calificaciones
Levi Castro - 62221152 - Tarea 2
5 páginas
Cuadro Comparativo de Plataformas de Desarrollo Visual
Aún no hay calificaciones
Cuadro Comparativo de Plataformas de Desarrollo Visual
5 páginas
Documentación SAMBA
100% (1)
Documentación SAMBA
12 páginas
Guía de Actividades y Rúbrica de Evaluación - Fase 5 - Entrega Proyecto de Software
Aún no hay calificaciones
Guía de Actividades y Rúbrica de Evaluación - Fase 5 - Entrega Proyecto de Software
7 páginas
Desarrollando Un Carrito de Compras
Aún no hay calificaciones
Desarrollando Un Carrito de Compras
7 páginas
Práctica 1 - ProgramaciónII 1-2025v2
Aún no hay calificaciones
Práctica 1 - ProgramaciónII 1-2025v2
5 páginas
Cuestionario 1 A o Cens N 452 Actv N 1
Aún no hay calificaciones
Cuestionario 1 A o Cens N 452 Actv N 1
5 páginas
Taller - Laboratorio 1
Aún no hay calificaciones
Taller - Laboratorio 1
7 páginas
Historia y Ventajas de la POO
Aún no hay calificaciones
Historia y Ventajas de la POO
11 páginas
Tema 4
Aún no hay calificaciones
Tema 4
19 páginas
Lab03 - Macros I
Aún no hay calificaciones
Lab03 - Macros I
20 páginas
Lab1 Redes2 2016
Aún no hay calificaciones
Lab1 Redes2 2016
7 páginas
AREM User Manual (Buttons and Descriptions) .V101.es
Aún no hay calificaciones
AREM User Manual (Buttons and Descriptions) .V101.es
3 páginas
Eliminar TROJAN - VBS - MUTUODO.A (Solución Fácil) - Junta de Malware
Aún no hay calificaciones
Eliminar TROJAN - VBS - MUTUODO.A (Solución Fácil) - Junta de Malware
5 páginas
Perfil de Alexis Mamani
Aún no hay calificaciones
Perfil de Alexis Mamani
2 páginas
Evaluacion Final
Aún no hay calificaciones
Evaluacion Final
2 páginas
Fundamentos de Programación para Principiantes
Aún no hay calificaciones
Fundamentos de Programación para Principiantes
9 páginas
Desarrollo Tecnológico e Histórico de Los Compiladores Mejorado - Syanya
Aún no hay calificaciones
Desarrollo Tecnológico e Histórico de Los Compiladores Mejorado - Syanya
4 páginas
Instructivo SFTP Web Entidades (Actualizado)
Aún no hay calificaciones
Instructivo SFTP Web Entidades (Actualizado)
13 páginas
Modelo Objeto Relacional SNM
Aún no hay calificaciones
Modelo Objeto Relacional SNM
43 páginas
SOM03 Tarea
100% (2)
SOM03 Tarea
14 páginas
Tailwind Css Notes
Aún no hay calificaciones
Tailwind Css Notes
6 páginas
091 Funciones
Aún no hay calificaciones
091 Funciones
19 páginas
Guía de Instalación de Software
Aún no hay calificaciones
Guía de Instalación de Software
24 páginas
4pr3nd3r A Pr0gr4m4r Con C# - Un - Hect0r de L30n Guev4r4
100% (3)
4pr3nd3r A Pr0gr4m4r Con C# - Un - Hect0r de L30n Guev4r4
136 páginas
Librerías C++: Tipos y Funciones
100% (1)
Librerías C++: Tipos y Funciones
22 páginas
Clase Rectangulo
Aún no hay calificaciones
Clase Rectangulo
4 páginas
Sílabo Herramientas de Programación 1
Aún no hay calificaciones
Sílabo Herramientas de Programación 1
7 páginas
Características y Filosofía de elementary OS
100% (1)
Características y Filosofía de elementary OS
2 páginas
Manual Wix: Guía Completa para Crear Sitios Web
Aún no hay calificaciones
Manual Wix: Guía Completa para Crear Sitios Web
8 páginas