Download Maxwell y memoria unificada Contenidos [12 diapositivas] I
Document related concepts
no text concepts found
Transcript
Maxwell y memoria unificada IX Curso de Verano de la UMA “Programación de GPUs con CUDA” Contenidos [12 diapositivas] Málaga, del 15 al 24 de Julio, 2015 1. Maxwell [7 diapositivas] 2. Memoria unificada [4] 3. NV-Link [1] Manuel Ujaldón Associate Professor @ Univ. of Malaga (Spain) Conjoint Senior Lecturer @ Univ. of Newcastle (Australia) CUDA Fellow @ Nvidia 2 Maxwell Debut en 2014. Fabricada a distancia de integración de 20 nm. Rediseñada para albergar un core ARM adicional. 2.6 veces mejor en operaciones por vatio consumido. A partir de ella se desarrollan productos Tesla y Tegra (proyecto Denver). Plantea un espacio virtual y unificado de direcciones para la CPU y la GPU. I. Maxwell 4 Consumo energético: Pasado, presente y futuro El coste del movimiento de datos La comunicación gasta más energía que la aritmética. Fabricación del procesador 40 nm. (2005) 10 nm. (2020) Voltaje (nominal) 0.9 v. 0.7 v. Factor de reducción global Consumo de un DFMA (double fused multiply-add) 50 pJ. 7.6 pJ. 6.57 x Lectura de 64 bits en una caché de 8 Kbytes 14 pJ. 2.1 pJ. 6.66 x Consumo del transporte de 256 bits a 1 cm. 310 pJ. 174.0 pJ. 1.78 x Fabricación de la memoria 45 nm. 16 nm. Ancho de banda de un pin en el interfaz DRAM 4 Gbps. 50 Gbps. Consumo del interface DRAM (ancho de banda para lectura y escritura) 20-30 pJ/bit 2 pJ/bit Consumo en el acceso a DRAM (latencia) 8-15 pJ/bit 2.5 pJ/bit Factor de reducción global 10-15 x 3-6 x A regular floating-point operation requires a minimum of 4 pJ. Values for 32 nm. manufacturing process. Source: Vogelsang [Micro 2010], Keckler [Micro2011] 5 Optimizaciones en el consumo: Kepler vs. Maxwell 6 Cambios locales Se puede ahorrar la mayor parte del consumo energético reorganizando los elementos ya existentes (layout). changes: 7 8 Consecuencias en rendimiento y consumo La evolución del consumo energético 9 10 Hoy GPU PCIe 16 GB/s GDDR5 250-350 GB/s II. Memoria unificada GDDR5 CPU DDR4 50-75 GB/s DDR4 12 En cuatro años: Todas las comunicaciones internas al chip 3D En dos años GPU NVLINK 80 GB/s 3D-DRAM Límites del área de silicio CPU SRAM DDR4 100 GB/s Memoria apilada en 4 capas: 1 TB/s Memoria 2.5D GPU DDR4 CPU 13 La idea: Tenemos que acostumbrar al programador a ver así a la memoria CUDA 2007-2014 CPU DDR3 GPU PCI-express Memoria principal 14 NV-Link: Interconexión de alta velocidad entre GPUs CUDA en lo sucesivo CPU NVLink Maxwell GPU POWER CPU GDDR5 Memoria de video El viejo modelo software y hardware: Differentes memorias, prestaciones y espacio de direcciones. DDR3 Memoria unificada GDDR5 El nuevo API: Misma memoria, un solo espacio de direcciones. Rendimiento sensible a la proximidad de los datos. NVLink PCIe 15 PCIe X86 ARM64 POWER CPU POWER CPU 2014/15: Kepler 2016/17: Pascal 16 Resumen final Kepler contribuye a la computación irregular, CUDA llega a más aplicaciones y dominios. Aporta: Funcionalidad. Maxwell simplifica el modelo de GPU para reducir energía y esfuerzo de programación. Aporta: Bajo consumo y memoria amigable. NV-Link ayuda a comunicar las CPUs y las GPUs en una fase de transición hacia el SoC (System-on-Chip), donde los principales componentes de un computador se integran en un solo chip: CPU, GPU, SRAM, DRAM y todos los controladores. 17