Download Maxwell y memoria unificada Contenidos [12 diapositivas] I

Document related concepts
no text concepts found
Transcript
Maxwell y memoria unificada
IX Curso de Verano de la UMA “Programación de GPUs con CUDA”
Contenidos [12 diapositivas]
Málaga, del 15 al 24 de Julio, 2015
1. Maxwell [7 diapositivas]
2. Memoria unificada [4]
3. NV-Link [1]
Manuel Ujaldón
Associate Professor @ Univ. of Malaga (Spain)
Conjoint Senior Lecturer @ Univ. of Newcastle (Australia)
CUDA Fellow @ Nvidia
2
Maxwell
Debut en 2014. Fabricada a distancia de integración de 20
nm.
Rediseñada para albergar un core ARM adicional.
2.6 veces mejor en operaciones por vatio consumido.
A partir de ella se desarrollan productos Tesla y Tegra
(proyecto Denver).
Plantea un espacio virtual y unificado de direcciones para
la CPU y la GPU.
I. Maxwell
4
Consumo energético:
Pasado, presente y futuro
El coste del movimiento de datos
La comunicación gasta más energía que la aritmética.
Fabricación del procesador
40 nm.
(2005)
10 nm.
(2020)
Voltaje (nominal)
0.9 v.
0.7 v.
Factor de
reducción
global
Consumo de un DFMA (double fused multiply-add)
50 pJ.
7.6 pJ.
6.57 x
Lectura de 64 bits en una caché de 8 Kbytes
14 pJ.
2.1 pJ.
6.66 x
Consumo del transporte de 256 bits a 1 cm.
310 pJ.
174.0 pJ.
1.78 x
Fabricación de la memoria
45 nm.
16 nm.
Ancho de banda de un pin en el
interfaz DRAM
4 Gbps.
50 Gbps.
Consumo del interface DRAM (ancho de
banda para lectura y escritura)
20-30 pJ/bit
2 pJ/bit
Consumo en el acceso a DRAM (latencia)
8-15 pJ/bit
2.5 pJ/bit
Factor de
reducción
global
10-15 x
3-6 x
A regular floating-point operation requires a minimum of 4 pJ.
Values for 32 nm. manufacturing process.
Source: Vogelsang [Micro 2010], Keckler [Micro2011]
5
Optimizaciones en el consumo:
Kepler vs. Maxwell
6
Cambios locales
Se puede ahorrar la mayor parte del consumo energético
reorganizando los elementos ya existentes (layout).
changes:
7
8
Consecuencias en rendimiento y consumo
La evolución del consumo energético
9
10
Hoy
GPU
PCIe
16 GB/s
GDDR5
250-350 GB/s
II. Memoria unificada
GDDR5
CPU
DDR4
50-75 GB/s
DDR4
12
En cuatro años:
Todas las comunicaciones internas al chip 3D
En dos años
GPU
NVLINK
80 GB/s
3D-DRAM
Límites
del área
de silicio
CPU
SRAM
DDR4
100 GB/s
Memoria apilada en
4 capas: 1 TB/s
Memoria 2.5D
GPU
DDR4
CPU
13
La idea: Tenemos que acostumbrar al
programador a ver así a la memoria
CUDA 2007-2014
CPU
DDR3
GPU
PCI-express
Memoria principal
14
NV-Link:
Interconexión de alta velocidad entre GPUs
CUDA en lo sucesivo
CPU
NVLink
Maxwell
GPU
POWER CPU
GDDR5
Memoria de video
El viejo modelo software
y hardware:
Differentes memorias,
prestaciones y
espacio de direcciones.
DDR3
Memoria
unificada
GDDR5
El nuevo API:
Misma memoria,
un solo espacio
de direcciones.
Rendimiento sensible a
la proximidad de los datos.
NVLink
PCIe
15
PCIe
X86 ARM64
POWER CPU
POWER CPU
2014/15: Kepler
2016/17: Pascal
16
Resumen final
Kepler contribuye a la computación irregular, CUDA llega a
más aplicaciones y dominios. Aporta: Funcionalidad.
Maxwell simplifica el modelo de GPU para reducir energía
y esfuerzo de programación. Aporta: Bajo consumo y
memoria amigable.
NV-Link ayuda a comunicar las CPUs y las GPUs en una
fase de transición hacia el SoC (System-on-Chip), donde los
principales componentes de un computador se integran en
un solo chip: CPU, GPU, SRAM, DRAM y todos los
controladores.
17