Download tema 9.2
Document related concepts
no text concepts found
Transcript
Arquitecturas paralelas 9. Herramientas para la programación de aplicaciones paralelas: OpenMP y MPI (introducción). Computadores de alta velocidad (la lista top500). Arkitektura Paraleloak IF - EHU Arquitectura de los sistemas paralelos 9 59 P fl. instrucciones 1 SMP C N flujo datos bus 1 N memoria compartida SISD MP P SIMD MIMD MPP/NUMA C M Clusters Array Vectorial Arquitecturas Paralelas FI - EHU red general memoria distribuida Evolución de las arquitecturas 9 Un procesador (vectorial) Sistemas SMP / sistemas SIMD Sistemas masivamente paralelos MPP Las mejores prestaciones (velocidad de cálculo): comunicación de baja latencia y elevado ancho de banda, en algunos casos procesadores con diseño específico, software de control muy optimizado, etc. Pero coste muy elevado. Clusters Arquitecturas Paralelas FI - EHU 60 Top500 (www.top500.org) 9 Lista de los 500 supercomputadores más rápidos del mundo ejecutando el banco de pruebas LINPACK. Sistemas de ecuaciones lineales densos (cálculo matricial). Permite obtener velocidades muy altas (un máximo virtual). Se mide el valor de Rmax, Nmax y N1/2. También se empieza a medir la potencia consumida. Arquitecturas Paralelas FI - EHU 61 Top500 Cada 6 meses desde 1993 (junio/noviembre) Lista nº 40 - noviembre 2012 Más o menos aceptado por todos los fabricantes. Análisis de tendencias / evolución del mercado. Arquitecturas Paralelas FI - EHU 9 62 Top500 Evolución de la velocidad de cálculo Top5+ Fabricantes Procesador: arquitectura / familia / número Sistema: arquitectura / red / S.O. Utilización Arquitecturas Paralelas FI - EHU 9 63 Top500 9 162,1 PF/s 14.885.800 cores (29.771 c. - 10,9 GF/s) Titan K-computer RoadRunne r ×1,9/año Intel ASCI Red SandiA Sequoia Tianhe1A Jaguar BlueGene IBM ASCI White LLNL NEC Earth Sim. 1 PF/s → 2008 10 PF/s → 2011 100 PF/s → 2015 Arquitecturas Paralelas FI - EHU 64 Top5 (diciembre 12) Rank Computer 9 Cores Rmax Rpeak (Pflop/s) 1 mpp 2 mpp 3 cluster 6 cluster 8 mpp Titan, Cray XK7 Opteron 6274, 16 core 2,2 GHz Cray Gemini, NVIDIA K20x Sequoia, BlueGene/Q Power BQC, 16c – 1,60 GHz Custom (torus 5D) 560.640 17,6 27,1 1.572.864 16,3 (96x1024x16) 20,1 K computer, Fujitsu SPARC67 viiifx - 2 GHz Tofu interc., 6D torus/mesh 705.027 SuperMUC, IDataPlex DX360M4 Xeon E5-2680 - 2,7 MHz Infiniband FDR 147.456 Tianhe-1A NUDT-MPP Intel EM64T Xeon X5670 - 2,93 GHz Propietary 186.368 10,5 11,3 2,9 3,2 2,6 4,7 Power (kW) Installation site Country/year Type 8.209 Oak Ridge N.L. USA / 2012 - 7.890 DOE/NNSA/LLNL USA/ 2012 Research 12.660 RIKEN AICS Japonia/ 2011 Research 3.433 Leibnitz R. Alemania/ 2012 Academic 4.040 Tianjin NSC Txina / 2010 Research Más BueGene/Q: (4): Mira, 48x, USA; (5) JUQUEEN, 24x, Juelich; (9) Fermi, 10x, Bologna Arquitecturas Paralelas FI - EHU 65 Top500 9 fabricante del sistema Cant. % Rmax (PF/s) Cores IBM 193 38,6 66,2 6.769.140 HP 146 29,2 18,1 2.300.904 Cray Inc. 31 6,2 28,2 1.908.880 Appro 24 4,8 5,1 373.200 SGI 19 3,8 5,1 434.406 Fujitsu 10 2 13,8 921.048 500 100 162,1 14.885.800 Total (+) Arquitecturas Paralelas FI - EHU 66 Top500 Arquitecturas Paralelas FI - EHU 9 67 Top500 9 arquitectura del procesador Cant. % Rmax (PF/s) Cores Escalar 499 99,4 162 14.884.520 Vectorial 1 0,2 0,12 1.280 500 100 162,1 14.885.800 Total 217: Earth Simulator 2, NEC – 0,12 PF/s – 1.280 cores Arquitecturas Paralelas FI - EHU 68 Top500 Arquitecturas Paralelas FI - EHU 9 69 Top500 9 familia de procesadores 76,2 Rmax (PF/s) 70,7 6.786.414 61 12,2 32 2.620.330 Power 53 10,6 46,9 4.606.112 NEC 1 0,2 122 1.280 500 100 162,1 14.885.800 Cant. % Xeon 381 Opteron Total (+) Arquitecturas Paralelas FI - EHU Cores 70 Top500 9 Num. cores (mpp / cluster) Arquitecturas Paralelas FI - EHU 71 Top500 9 Sequoia ASCI Red Titan Earth Sim. CM5 T3D T3E Blue Gene Paragon CM2 Y-MP C90 RoadRunner SP2 Sun HPC Jaguar Tianhe-1A K computer VP500 Arquitecturas Paralelas FI - EHU 72 Top500 9 arquitectura del sistema Cant. % Rmax (PF/s) Cores Clusters 411 82,2 83,4 8.060.460 MPP 89 17,8 78,7 6.825.340 500 100 162,1 14.885.800 Total un año → x 2,20 Arquitecturas Paralelas FI - EHU x 1,6 73 Top500 Arquitecturas Paralelas FI - EHU 9 74 Top500 9 Red de conexión Cant. % Rmax (PF/s) Cores Infiniband 224 44,8 52,7 4.284.249 Gigabit Eth. 189 37,8 20.4 3.161.618 Custom 53 10.6 59,6 5.228.512 Proprietary 15 3 6,4 954.256 Cray 15 3 22,6 1.206.240 Myrinet 3 0,6 0,3 49.645 Fat tree 1 0,2 0,12 1.280 500 100 162,1 14.885.800 Total (+) Arquitecturas Paralelas FI - EHU 75 Top500 Arquitecturas Paralelas FI - EHU 9 76 Top500 Arquitecturas Paralelas FI - EHU 9 77 Top500 9 área de utilización Cant. % Rmax (PF/s) Cores Industry 247 49,4 28,5 3.933.385 Research 121 24,2 96,2 7.837.116 Academic 97 19,4 29,5 2.507.471 Government 18 3,6 3,4 299.860 Vendor 13 2,6 3,7 229.632 Classified 4 0,8 0,9 78.366 500 100 162,1 14.885.800 Total Arquitecturas Paralelas FI - EHU 78 Top500 Arquitecturas Paralelas FI - EHU 9 79 Top500 Arquitecturas Paralelas FI - EHU 9 80 Top500: España/Francia (dic. - 12) 36 Mare Nostrum IBM iDataPlex, 9 Xeon E5 (8c), Infiniband FDR 33.664 cores – 637 TF/s Bull, cluster (Infin.) – 5.544 cores – 290 BSC 11 >> 39.208 cores – 0,7 PF/s Curie thin nodes, CEA (0,3%) Bullx B510 Xeon E5 (8c), Infniband, 77.184 c. – 1.359 TF/s Tera-100, CEA 20 103 TF/s Bullx super-node S6010/S6030, Infniband, 138.368 c. – 1.050 TF/s 31/32 BlueGene/Q Power BQC, 65.536 c. - 690 TF/s … Total: 21 sistemas (EDF, Airbus, CINES, Total,…) >> 620.248 c.- 6,5 PF/s (4%) >> Europa: Alemania (19 - 10,2 PF/s), G.B. (24 – 7,3 PF/s), Italia (7 - 2,4 PF/s) Total: 31,2 PF/s (20%) Arquitecturas Paralelas FI - EHU 81 El cluster ARINA de la UPV/EHU Arina, Arinaz (260 núcleos, Itanium2) Guinness (440 núcleos, Xeon) Maiz (40 núcleos, Opteron) Sistema paralelo de ficheros (SFS) 4 servidores 4,7 TB / 7,1 TB Infiniband, 1 GB/s Arquitecturas Paralelas FI - EHU 9 82 El cluster ARINA de la UPV/EHU Arquitecturas Paralelas FI - EHU 9 83 El cluster ARINA de la UPV/EHU Aplicaciones En general, de química, física y biología. Software adquirido: CFX, dinámica de fluidos MOLCAS, estructura molecular ADF, estr. electrónica de las moleculas WIEN2K, estr. electrónica de sólidos Qsite, proteínas NBO5-NBOView, enlaces moleculares Arquitecturas Paralelas FI - EHU 9 84 Laboratorio de Paralelismo Cluster del laboratorio 32 + 3×4 procesadores (Pentium IV) Gigabit Ethernet OpenMP, MPI, UPC Arquitecturas Paralelas FI - EHU 9 85 Titan Arquitecturas Paralelas FI - EHU 9 86 Cray Jaguar Arquitecturas Paralelas FI - EHU 9 87 Cray Jaguar Arquitecturas Paralelas FI - EHU 9 88 K computer Arquitecturas Paralelas FI - EHU 9 89 Tianhe-1A Arquitecturas Paralelas FI - EHU 9 90 Tianhe-1A Arquitecturas Paralelas FI - EHU 9 91 Nebulae Arquitecturas Paralelas FI - EHU 9 92 Hopper Arquitecturas Paralelas FI - EHU 9 93 Tera-100 Arquitecturas Paralelas FI - EHU 9 94 RoadRunner Cell Arquitecturas Paralelas FI - EHU 9 95 RoadRunner Arquitecturas Paralelas FI - EHU 9 96 RoadRunner Arquitecturas Paralelas FI - EHU 9 97 RoadRunner Arquitecturas Paralelas FI - EHU 9 98 RoadRunner Arquitecturas Paralelas FI - EHU 9 99 RoadRunner Arquitecturas Paralelas FI - EHU 9 100 RoadRunner Arquitecturas Paralelas FI - EHU 9 101 JuGene - BlueGene/P Arquitecturas Paralelas FI - EHU 9 102 JuGene - BlueGene/P Arquitecturas Paralelas FI - EHU 9 103 BlueGene/L 9 15 way fully assoc. pref. caches 11 GB/s 27 GB/s 5,5 GB/s 22 GB/s 5,5 GB/s Arquitecturas Paralelas FI - EHU 104 BlueGene/L Arquitecturas Paralelas FI - EHU 9 105 BlueGene/L 9 32 x 32 x 64 1,4 Gb/s (x2) 5,6 Tb/s bisección tr (max) = 69 ns cut-through adaptativo deadlock-free active messages Arquitecturas Paralelas FI - EHU 106 BlueGene/L Arquitecturas Paralelas FI - EHU 9 107 JuGene - BlueGene/P Arquitecturas Paralelas FI - EHU 9 108 JuGene - BlueGene/P Arquitecturas Paralelas FI - EHU 9 109 JuGene - BlueGene/P Arquitecturas Paralelas FI - EHU 9 110 JuGene - BlueGene/Q Arquitecturas Paralelas FI - EHU 9 111 Earth Simulator 2 Arquitecturas Paralelas FI - EHU 9 112 Earth Simulator 2 Peak performance: Shared memory: ES → ES2: Arquitecturas Paralelas FI - EHU 9 102,4 GF/s × 8 × 160 CPU = 131 TF/s 128 GB × 160 = 20 TB proz: 1/4; mem: x2; perform: ×3,2; sarea: cross → fat tree 113 Earth Simulator 2 1 Chip LSI : 102,4 Gflops 65 nm CMOS 11 Layers copper interconnection 21,04 mm x 19,84 mm 350 million transistors 8.960 pins Clock Cycle: 3,2 GHz Power Consumption: 240 W (Typ.) Arquitecturas Paralelas FI - EHU 9 114 Earth Simulator 2 Arquitecturas Paralelas FI - EHU 9 115 Earth Simulator 2 Internode Crossbar Switch (IXS) Arquitecturas Paralelas FI - EHU 9 116 Earth Simulator 2 Arquitecturas Paralelas FI - EHU 9 117 Earth Simulator 2 Arquitecturas Paralelas FI - EHU 9 118 Mare Nostrum (www.bsc.org.es) Arquitecturas Paralelas FI - EHU 9 119 Mare Nostrum Arquitecturas Paralelas FI - EHU 9 120 Mare Nostrum Arquitecturas Paralelas FI - EHU 9 121 Mare Nostrum Arquitecturas Paralelas FI - EHU 9 122 Mare Nostrum Arquitecturas Paralelas FI - EHU 9 123 Mare Nostrum Arquitecturas Paralelas FI - EHU 9 124