Introducción A La Programación Paralela Con GPU

coadv38 de Junio de 2012

2.734 Palabras (11 Páginas)1.157 Visitas

Página 1 de 11

Índice:

1. GPU

2. PARALELISMO

3. GPGPU

4. Introducción a CUDA

5. Aplicaciones

1. GPU

La unidad de procesamiento gráfico o GPU es un procesador de varios núcleos que ofrecen alto rendimiento. Este tipo de procesadores de emplea en el procesamiento de gráficos o en operaciones en como flotante, así mientras la GPU se encarga de procesar gran parte de lo relacionado con los gráficos, el procesador central puede dedicarse a otro tipo de cálculos aliviando la carga de procesamiento de este.

Hoy en día las GPU son muy potentes, pudiendo superar la frecuencia de reloj de una CPU antigua (más de 800Mhz). La potencia de las GPU y su gran aumento de desarrollo se debe a dos factores diferentes. El primer factor es la alta especialización de las GPU, ya que al estar pensadas en desarrollar una sola tarea es posible emplear más silicio en su diseño para poder llevar a cabo esa tarea más eficientemente. Por ejemplo, las GPU están optimizadas en el cálculo en coma flotante predominante en los gráficos 3D. El otro factor a tener en cuenta, es que muchas aplicaciones gráficas emplean un alto grado de paralelismo inherente, siendo una buena razón el uso de la fuerza bruta en las GPU para completar más cálculos en menos tiempo.

Una de las mayores diferencias entre CPU y GPU radica en su arquitectura que tiene una arquitectura de von Neumann, la GPU se basa en el Modelo Circulante. Este modelo facilita el procesamiento en paralelo, y la gran segmentación que posee la GPU para sus tareas.

2. PARALELISMO

El paralelismo es una forma de computación en la cual varios cálculos pueden realizarse a la vez. Se basa en el principio de dividir los problemas grandes para la obtención de varios más pequeños, que son posteriormente solucionados en paralelo.

Dentro de la taxonomía de Flynn, se puede clasificar a las GPU como SIMD, una instrucción múltiples datos. Esto produce que todos los núcleos ejecutan la misma instrucción al mismo tiempo, solo es necesario decodificar la instrucción una única vez para todos los núcleos. Por ejemplo, esto se usa en el calculo de sumas, cálculos vectoriales, etc.

3. GPGPU

Las siglas GPGPU hacen referencia a GPU de propósito general. GPGPU intenta aprovechar la gran potencia de las GPU para aplicaciones no relacionadas con los gráficos y tradicionalmente ejecutadas por CPU, como son por ejemplo: grandes vectores de datos, paralelismo de grano fino SIMD, baja latencia en operaciones en punto flotante, etc.

Históricamente las GPGPU han sufrido una serie de restricciones como empleo de API’s gráficas complejas, capacidad de los Shader reducida, comunicación limitada entre los pixeles, escaso conjunto de instrucciones como por ejemplo falta de operaciones en enteros.

Las GPGPU han ido evolucionando a lo largo de los años, como a continuación podemos observar:

- Ordenadores sin tarjetas gráficas.

- Aparición de GPU para la representación en pantalla.

- GPU para procesamiento gráfico (Industria del videojuego).

- En el 2004 surge la idea de usar las GPU para computación de alto rendimiento.

- En el 2007 NVIDIA ve la oportunidad de la computación de alto rendimiento y desarrolla CUDA con tal fin.

- Actualmente NVIDIA ha tenido éxito en la computación GPGPU. Los supercomputadores top utilizan clústeres de GPU para aumentar su potencia computacional.

Las GPGPU se han abierto paso en el mercado, a manos de las grandes compañías, que ven como pueden explotarlas para ganar dinero.

La evolución de las tarjetas gráficas ha venido acompañado de un gran crecimiento principalmente en el mundo de los videojuegos y las aplicaciones 3D.

Los principales productores de chips gráficos son:

- NVIDIA

- AMD (ATI)

- IBM (Desarrollo de procesadores CELL)

- Intel (GPU Larrabee)

Comparación entre CPU y GPU

Intel Core 2 /Xeon / i7

- 4-6 núcleos MIMD

- Pocos registros, cache multi-nivel

- 10-30 GB/s ancho de banda hacia la memoria principal.

NVIDIA GTX480

- 512 núcleos, organizados en 16 unidades SM cada una con 32 nucleos.

- Muchos registros, inclusión cachés nivel 1 y 2.

- 5 GB/s ancho de banda hacia el procesador.

- 180 GB/s ancho de banda memoria tarjeta gráfica.

Podemos observar como las GPU respecto a las CPU poseen mayor número de núcleos, más registros con caché de hasta nivel 2, un gran ancho de banda para el acceso a su propia memoria.

Debido a las diferencias fundamentales entre las arquitecturas de la GPU y la CPU, no cualquier problema se puede beneficiar de una implementación en la GPU. En concreto, el acceso a memoria plantea las mayores dificultades. Las CPU están diseñadas para el acceso aleatorio a memoria. Esto favorece la creación de estructuras de datos complejas, con punteros a posiciones arbitrarias en memoria. En cambio, en una GPU, el acceso a memoria está mucho más restringido. Por ejemplo, en un procesador de vértices (la parte de una GPU diseñada para transformar vértice en aplicaciones 3D), se favorece el modelo scatter, en el que el programa lee en una posición predeterminada de la memoria, pero escribe en una o varias posiciones arbitrarias. En cambio, un procesador de píxeles, o fragmentos, favorece el modelo gather, pudiendo el programa leer de varias posiciones arbitrarias, pero escribir en sólo una posición predeterminada.

La tarea del diseñador de algoritmos GPGPU consiste principalmente en adaptar los accesos a memoria y las estructuras de datos a las características de la GPU. Generalmente, la forma de almacenar datos es en un buffer 2D, en lugar de lo que normalmente sería una textura. El acceso a esas estructuras de datos es el equivalente a una lectura o escritura de una posición en la textura. Puesto que generalmente no se puede leer y escribir en la misma textura, si esta operación es imprescindible para el desarrollo del algoritmo, éste se debe dividir en varias pasadas.

4. INTRODUCCION A CUDA

La GPU se sitúa sobre una placa gráfica pci-e dentro de un computador con uno o varios nucleos. La GPU dedica más transistores al procesamiento de datos.

A nivel de GPU, los detalles dependen de la generación de los chips. Las primeras generaciones que aparecen podemos encontrar las GeForce Series 8,9GTX2XX y Tesla C1060,S1070 para HPC, sin salida gráfica, mas memoria.

Las principales características de las primeras generaciones son: Compuestas de SM “Streaming Multiprocessor”. Compuestos por procesadores de 8 núcleos, cada uno con 2048 registros, que alcanzan hasta 128 hilos por núcleo. Y poseen 16 KB de memoria compartida y 8 KB de caché para constantes.

Diferentes chips tienen distinto número de SM. Por ejemplo, el modelo GTX260 tiene un número de 27 SM,s y alcanza un ancho de banda de 110 GB/s. El modelo GTX285 posee un ancho de banda de 160 GB/s con 30 SM,s. Y el modelo Tesla C1060 con 30 SM,s tiene un ancho de banda de 102 GB/s.

En las generaciones actuales encontramos con nueva arquitectura Fermi, y podemos encontrar los siguientes modelos : las GeForce GTX4XX y las Tesla C2050,S2050 para HPC.

Las principales características de esta generación es que cada SM posee 32 núcleos con 1024 registros por cada núcleo, con 48 hilos por núcleo. Posee una memoria compartida de 64 KB de nivel 1 y una cache de nivel 2 compartida a los SM. También posee una caché de 8 KB para constantes.

La principal característica de los núcleos dentro de un SM, es que ejecuten todos la misma instrucción simultáneamente pero con distintos datos, similar a los supercomputadores CRAY. Como mínimo habrá 32 hilos realizando la misma tarea al mismo tiempo. Esta técnica tradicionalmente se usa en el procesamiento gráfico y en muchas aplicaciones científicas.

Con múltiples hilos obtenemos un alto rendimiento. No se penaliza los cambios de contexto, ya que cada hilo tiene sus propios registros lo cual limita el número máximo de hilos activos. Los hilos se ejecutan en los SM en grupos de 32 denominados “WARPS”. La ejecución alterna entre “warps” activos y temporalmente inactivos.

nVidia asegura que los programas desarrollados para la serie GeForce 8 también funcionarán en las futuras tarjetas gráficas sin sufrir ninguna modificación.

CUDA (Compute Unified Device ARchitecture) hace referencia tanto a un compilador como a un conjunto de herramientas de desarrollo creadas por NVIDIA. Se basa en el lenguaje C con algunas extensiones, también soporta C++ y Fortran. Existen envoltorios para otros lenguajes como .NET, Python, Java, etc. Existen una gran cantidad de ejemplos y buena documentación, lo que permite reducir la curva de aprendizaje para aquellos con experiencia en otros lenguajes como OpenMPI y MPI. También existe una extensa comunidad de usuarios en los foros de NVIDIA.

Un programa en CUDA tiene dos partes: Código Host en la CPU que hace interfaz con la GPU.

...

Descargar como (para miembros actualizados) txt (17 Kb)

Leer 10 páginas más »

Leer documento completo Guardar

Disponible sólo en Clubensayos.com