Download tema 9.2

Document related concepts
no text concepts found
Transcript
Arquitecturas paralelas
9.
Herramientas para la programación de
aplicaciones paralelas: OpenMP y MPI
(introducción).
Computadores de alta velocidad (la
lista top500).
Arkitektura Paraleloak
IF - EHU
Arquitectura de los sistemas paralelos
9
59
P
fl. instrucciones
1
SMP
C
N
flujo datos
bus
1
N
memoria compartida
SISD
MP
P
SIMD
MIMD
MPP/NUMA
C
M
Clusters
Array
Vectorial
Arquitecturas Paralelas
FI - EHU
red general
memoria distribuida
Evolución de las arquitecturas
9
 Un procesador (vectorial)
 Sistemas SMP / sistemas SIMD
 Sistemas masivamente paralelos MPP
Las mejores prestaciones (velocidad de cálculo):
comunicación de baja latencia y elevado ancho de banda,
en algunos casos procesadores con diseño específico,
software de control muy optimizado, etc.
Pero coste muy elevado.
 Clusters
Arquitecturas Paralelas
FI - EHU
60
Top500 (www.top500.org)
9
 Lista de los 500 supercomputadores más rápidos del
mundo ejecutando el banco de pruebas LINPACK.
 Sistemas de ecuaciones lineales densos (cálculo
matricial). Permite obtener velocidades muy altas (un
máximo virtual).
 Se mide el valor de Rmax, Nmax y N1/2.
También se empieza a medir la potencia consumida.
Arquitecturas Paralelas
FI - EHU
61
Top500
 Cada 6 meses desde 1993 (junio/noviembre)
 Lista nº 40 - noviembre 2012
 Más o menos aceptado por todos los fabricantes.
 Análisis de tendencias / evolución del mercado.
Arquitecturas Paralelas
FI - EHU
9
62
Top500






Evolución de la velocidad de cálculo
Top5+
Fabricantes
Procesador: arquitectura / familia / número
Sistema: arquitectura / red / S.O.
Utilización
Arquitecturas Paralelas
FI - EHU
9
63
Top500
9
162,1 PF/s
14.885.800 cores
(29.771 c. - 10,9 GF/s)
Titan
K-computer
RoadRunne
r
×1,9/año
Intel ASCI
Red SandiA
Sequoia
Tianhe1A
Jaguar
BlueGene
IBM ASCI
White
LLNL
NEC
Earth
Sim.
1 PF/s → 2008
10 PF/s → 2011
100 PF/s → 2015
Arquitecturas Paralelas
FI - EHU
64
Top5 (diciembre 12)
Rank
Computer
9
Cores
Rmax
Rpeak
(Pflop/s)
1
mpp
2
mpp
3
cluster
6
cluster
8
mpp
Titan, Cray XK7
Opteron 6274, 16 core 2,2 GHz
Cray Gemini, NVIDIA K20x
Sequoia, BlueGene/Q
Power BQC, 16c – 1,60 GHz
Custom (torus 5D)
560.640
17,6
27,1
1.572.864
16,3
(96x1024x16)
20,1
K computer, Fujitsu
SPARC67 viiifx - 2 GHz
Tofu interc., 6D torus/mesh
705.027
SuperMUC, IDataPlex DX360M4
Xeon E5-2680 - 2,7 MHz
Infiniband FDR
147.456
Tianhe-1A NUDT-MPP
Intel EM64T Xeon X5670 - 2,93 GHz
Propietary
186.368
10,5
11,3
2,9
3,2
2,6
4,7
Power
(kW)
Installation site
Country/year
Type
8.209
Oak Ridge N.L.
USA / 2012
-
7.890
DOE/NNSA/LLNL
USA/ 2012
Research
12.660
RIKEN AICS
Japonia/ 2011
Research
3.433
Leibnitz R.
Alemania/ 2012
Academic
4.040
Tianjin NSC
Txina / 2010
Research
Más BueGene/Q: (4): Mira, 48x, USA; (5) JUQUEEN, 24x, Juelich; (9) Fermi, 10x, Bologna
Arquitecturas Paralelas
FI - EHU
65
Top500
9
fabricante del sistema
Cant.
%
Rmax
(PF/s)
Cores
IBM
193
38,6
66,2
6.769.140
HP
146
29,2
18,1
2.300.904
Cray Inc.
31
6,2
28,2
1.908.880
Appro
24
4,8
5,1
373.200
SGI
19
3,8
5,1
434.406
Fujitsu
10
2
13,8
921.048
500
100
162,1
14.885.800
Total (+)
Arquitecturas Paralelas
FI - EHU
66
Top500
Arquitecturas Paralelas
FI - EHU
9
67
Top500
9
arquitectura del procesador
Cant.
%
Rmax
(PF/s)
Cores
Escalar
499
99,4
162
14.884.520
Vectorial
1
0,2
0,12
1.280
500
100
162,1
14.885.800
Total
217: Earth Simulator 2, NEC – 0,12 PF/s – 1.280 cores
Arquitecturas Paralelas
FI - EHU
68
Top500
Arquitecturas Paralelas
FI - EHU
9
69
Top500
9
familia de procesadores
76,2
Rmax
(PF/s)
70,7
6.786.414
61
12,2
32
2.620.330
Power
53
10,6
46,9
4.606.112
NEC
1
0,2
122
1.280
500
100
162,1
14.885.800
Cant.
%
Xeon
381
Opteron
Total (+)
Arquitecturas Paralelas
FI - EHU
Cores
70
Top500
9
Num. cores (mpp / cluster)
Arquitecturas Paralelas
FI - EHU
71
Top500
9
Sequoia
ASCI Red
Titan
Earth Sim.
CM5
T3D
T3E
Blue Gene
Paragon
CM2
Y-MP C90
RoadRunner
SP2
Sun HPC
Jaguar
Tianhe-1A
K computer
VP500
Arquitecturas Paralelas
FI - EHU
72
Top500
9
arquitectura del sistema
Cant.
%
Rmax
(PF/s)
Cores
Clusters
411
82,2
83,4
8.060.460
MPP
89
17,8
78,7
6.825.340
500
100
162,1
14.885.800
Total
un año → x 2,20
Arquitecturas Paralelas
FI - EHU
x 1,6
73
Top500
Arquitecturas Paralelas
FI - EHU
9
74
Top500
9
Red de conexión
Cant.
%
Rmax
(PF/s)
Cores
Infiniband
224
44,8
52,7
4.284.249
Gigabit Eth.
189
37,8
20.4
3.161.618
Custom
53
10.6
59,6
5.228.512
Proprietary
15
3
6,4
954.256
Cray
15
3
22,6
1.206.240
Myrinet
3
0,6
0,3
49.645
Fat tree
1
0,2
0,12
1.280
500
100
162,1
14.885.800
Total (+)
Arquitecturas Paralelas
FI - EHU
75
Top500
Arquitecturas Paralelas
FI - EHU
9
76
Top500
Arquitecturas Paralelas
FI - EHU
9
77
Top500
9
área de utilización
Cant.
%
Rmax
(PF/s)
Cores
Industry
247
49,4
28,5
3.933.385
Research
121
24,2
96,2
7.837.116
Academic
97
19,4
29,5
2.507.471
Government
18
3,6
3,4
299.860
Vendor
13
2,6
3,7
229.632
Classified
4
0,8
0,9
78.366
500
100
162,1
14.885.800
Total
Arquitecturas Paralelas
FI - EHU
78
Top500
Arquitecturas Paralelas
FI - EHU
9
79
Top500
Arquitecturas Paralelas
FI - EHU
9
80
Top500: España/Francia (dic. - 12)
36
Mare Nostrum
IBM
iDataPlex,
9
Xeon
E5
(8c),
Infiniband FDR
33.664 cores – 637 TF/s
Bull, cluster (Infin.) – 5.544 cores –
290
BSC
11
>> 39.208 cores – 0,7 PF/s
Curie thin nodes, CEA
(0,3%)
Bullx
B510 Xeon E5 (8c), Infniband, 77.184 c. – 1.359 TF/s
Tera-100, CEA
20
103 TF/s
Bullx super-node S6010/S6030, Infniband, 138.368 c. – 1.050 TF/s
31/32 BlueGene/Q Power BQC, 65.536 c. - 690 TF/s
…
Total: 21 sistemas (EDF, Airbus, CINES, Total,…)
>> 620.248 c.- 6,5 PF/s (4%)
>> Europa: Alemania (19 - 10,2 PF/s), G.B. (24 – 7,3 PF/s), Italia (7 - 2,4 PF/s)
Total: 31,2 PF/s (20%)
Arquitecturas Paralelas
FI - EHU
81
El cluster ARINA de la UPV/EHU
 Arina, Arinaz (260 núcleos, Itanium2)
Guinness (440 núcleos, Xeon)
Maiz (40 núcleos, Opteron)
 Sistema paralelo de ficheros (SFS)
4 servidores
4,7 TB / 7,1 TB
 Infiniband, 1 GB/s
Arquitecturas Paralelas
FI - EHU
9
82
El cluster ARINA de la UPV/EHU
Arquitecturas Paralelas
FI - EHU
9
83
El cluster ARINA de la UPV/EHU
 Aplicaciones
En general, de química, física y
biología.
Software adquirido:
CFX, dinámica de fluidos
MOLCAS, estructura molecular
ADF, estr. electrónica de las moleculas
WIEN2K, estr. electrónica de sólidos
Qsite, proteínas
NBO5-NBOView, enlaces moleculares
Arquitecturas Paralelas
FI - EHU
9
84
Laboratorio de Paralelismo
 Cluster del laboratorio
32 + 3×4 procesadores (Pentium IV)
Gigabit Ethernet
OpenMP, MPI, UPC
Arquitecturas Paralelas
FI - EHU
9
85
Titan
Arquitecturas Paralelas
FI - EHU
9
86
Cray Jaguar
Arquitecturas Paralelas
FI - EHU
9
87
Cray Jaguar
Arquitecturas Paralelas
FI - EHU
9
88
K computer
Arquitecturas Paralelas
FI - EHU
9
89
Tianhe-1A
Arquitecturas Paralelas
FI - EHU
9
90
Tianhe-1A
Arquitecturas Paralelas
FI - EHU
9
91
Nebulae
Arquitecturas Paralelas
FI - EHU
9
92
Hopper
Arquitecturas Paralelas
FI - EHU
9
93
Tera-100
Arquitecturas Paralelas
FI - EHU
9
94
RoadRunner
Cell
Arquitecturas Paralelas
FI - EHU
9
95
RoadRunner
Arquitecturas Paralelas
FI - EHU
9
96
RoadRunner
Arquitecturas Paralelas
FI - EHU
9
97
RoadRunner
Arquitecturas Paralelas
FI - EHU
9
98
RoadRunner
Arquitecturas Paralelas
FI - EHU
9
99
RoadRunner
Arquitecturas Paralelas
FI - EHU
9
100
RoadRunner
Arquitecturas Paralelas
FI - EHU
9
101
JuGene - BlueGene/P
Arquitecturas Paralelas
FI - EHU
9
102
JuGene - BlueGene/P
Arquitecturas Paralelas
FI - EHU
9
103
BlueGene/L
9
15 way fully assoc.
pref. caches
11 GB/s
27 GB/s
5,5 GB/s
22 GB/s
5,5 GB/s
Arquitecturas Paralelas
FI - EHU
104
BlueGene/L
Arquitecturas Paralelas
FI - EHU
9
105
BlueGene/L
9
32 x 32 x 64
1,4 Gb/s (x2)
5,6 Tb/s bisección
tr (max) = 69 ns
cut-through
adaptativo
deadlock-free
active messages
Arquitecturas Paralelas
FI - EHU
106
BlueGene/L
Arquitecturas Paralelas
FI - EHU
9
107
JuGene - BlueGene/P
Arquitecturas Paralelas
FI - EHU
9
108
JuGene - BlueGene/P
Arquitecturas Paralelas
FI - EHU
9
109
JuGene - BlueGene/P
Arquitecturas Paralelas
FI - EHU
9
110
JuGene - BlueGene/Q
Arquitecturas Paralelas
FI - EHU
9
111
Earth Simulator 2
Arquitecturas Paralelas
FI - EHU
9
112
Earth Simulator 2
Peak performance:
Shared memory:
ES → ES2:
Arquitecturas Paralelas
FI - EHU
9
102,4 GF/s × 8 × 160 CPU = 131 TF/s
128 GB × 160 = 20 TB
proz: 1/4; mem: x2; perform: ×3,2; sarea: cross → fat tree
113
Earth Simulator 2
1 Chip LSI : 102,4 Gflops
65 nm CMOS
11 Layers copper interconnection
21,04 mm x 19,84 mm
350 million transistors
8.960 pins
Clock Cycle: 3,2 GHz
Power Consumption: 240 W (Typ.)
Arquitecturas Paralelas
FI - EHU
9
114
Earth Simulator 2
Arquitecturas Paralelas
FI - EHU
9
115
Earth Simulator 2
Internode Crossbar Switch (IXS)
Arquitecturas Paralelas
FI - EHU
9
116
Earth Simulator 2
Arquitecturas Paralelas
FI - EHU
9
117
Earth Simulator 2
Arquitecturas Paralelas
FI - EHU
9
118
Mare Nostrum (www.bsc.org.es)
Arquitecturas Paralelas
FI - EHU
9
119
Mare Nostrum
Arquitecturas Paralelas
FI - EHU
9
120
Mare Nostrum
Arquitecturas Paralelas
FI - EHU
9
121
Mare Nostrum
Arquitecturas Paralelas
FI - EHU
9
122
Mare Nostrum
Arquitecturas Paralelas
FI - EHU
9
123
Mare Nostrum
Arquitecturas Paralelas
FI - EHU
9
124