Download Análisis Estadístico de Datos Climáticos

Document related concepts

Cuantil wikipedia , lookup

Parámetro estadístico wikipedia , lookup

Función cuantil wikipedia , lookup

Análisis de frecuencia acumulada wikipedia , lookup

Estadísticos de orden wikipedia , lookup

Transcript
Análisis Estadístico
de
Datos Climáticos
Revisión de probabilidad y aplicaciones
Análisis exploratorio de datos univariados
M. Barreiro – M. Bidegain – A. Díaz
Facultad de Ciencias – Facultad de Ingeniería
2009
Revisión de conceptos sobre
probabilidad
• Utilizamos
las
probabilidades
para
cuantificar la incertidumbre
• Eventos o sucesos, espacio muestral Ω,
partición de Ω
Ω
A
Diagramas de Venn
B
C
Axiomas de probabilidad
1) P(A) ≥ 0 si A є Ω
2) P(Ω) = 1
3) Si A1, A2,….An son disjuntos dos a dos,
P(A1 U A2 U…..U An) = P(A1) + P(A2) +…+ P(An)
Interpretaciones de la probabilidad
• Interpretación frecuencista
Frecuencia: “Casos favorables” / “Casos posibles”
Ley de los grandes números
(Ley “débil”)
Es el fundamento para estimar probabilidades
a partir de las frecuencias.
• Interpretación bayesiana (subjetiva)
Algunas propiedades:
0 ≤ P(A) ≤ 1
Si A  B  P(A)  P(B)
P(A )  1  P(A)
c
P(A U B) = P(A) + P(B) – P(A ∩ B)
Probabilidad condicional
Es un concepto especialmente importante porque en el clima
hay muchas variables interaccionando.
Es la probabilidad de que ocurra un suceso A, dada la
ocurrencia de otro suceso B, de probabilidad no nula.
Def: P(A | B) = P (A ∩ B) / P(B)
con P(B)≠ 0
Ω
A∩B
Ejemplos
1) P(llueva mañana | hoy llovió)
2) P(TSM promedio en el Pacífico ecuatorial
sea > 27,5 ºC mañana | hoy es > 28 ºC)
3) P(ocurra un evento meteorológico | fue
pronosticado)
4) P(en Uruguay llueva por encima de “lo
normal” en noviembre | en setiembre
la TSM en el Pacífico ecuatorial está 1ºC
por encima del promedio)
No confundir relaciones estadísticas con
relaciones causa-efecto!!
DATOS ESTACIÓN METEOROLÓGICA CARRASCO
Humedad Relativa y Precipitación
Diciembre 1997
DIA
HR (%)
PP (mm)
DIA
HR (%)
PP (mm)
1
71
0
17
70
0
2
54
0
18
75
0
3
61
23.88
19
92
0
4
52
0
20
86
0
5
70
0
21
74
0
6
67
0
22
89
13.97
7
85
23.11
23
88
84.07
8
65
0
24
81
0
9
81
0
25
80
0
10
91
3.05
26
94
5.08
11
89
2.03
27
77
29.97
12
98
0
28
67
0
13
97
8.89
29
81
0
14
82
27.94
30
73
1.02
15
72
7.11
31
63
0
16
65
0
Estimar:
a) P( PP > 1 mm)
b) P( PP > 1 mm mañana | PP > 1 mm hoy)
c) P(HR > 75%)
d) P( PP > 1 mm | HR > 75 %)
e) P( PP > 1 mm | HR <= 75 %)
Independencia
• Concepto: Dos sucesos E1 y E2 son
independientes si la ocurrencia de uno no
afecta la ocurrencia del otro.
Independencia ↔ P(E1∩E2) =
P(E1).P(E2)
o P(E1|E2)=P(E1), o P(E2|E1)=P(E2)
Ej: 1) fenómenos naturales
2) pronósticos
Aplicación: Persistencia (o “memoria”)
• Es la existencia de dependencia estadística
positiva entre valores sucesivos de una misma
variable.
• La persistencia se da en diferentes escalas,
dependiendo del fenómeno que se trate. Ej,
TSM y presión atmosférica.
• Está asociada a la probabilidad condicional, y
tiene consecuencias estadísticas.
Ley de probabilidad total
Si los eventos Ei forman una partición de Ω:
Ω
A
Teorema de Bayes
Sirve para “invertir” probabilidades condicionales, combinando información
previa con información nueva
Ω
A
Ejercicio:
Estimar
P(HR>75 % | PP> 1 mm),
usando Bayes y los resultados
anteriores.
Verificar por cálculo directo.
Datos univariados
Análisis exploratorio de datos
Datos climáticos
 Observaciones (datos
interpolados)
medidos;
 Salidas de modelos numéricos:
Simulaciones o pronósticos
(posibilidad de variar condiciones
iniciales o de borde)
datos
Análisis exploratorio de datos univariados
• Robustez y resistencia
• Cuantiles (percentiles)
• Medidas numéricas de resumen
• Técnicas gráficas de resumen
Robustez y resistencia
Es deseable que un método de análisis de datos sea poco
sensible a suposiciones sobre la naturaleza de los datos.
P. ej., que los resultados no dependan esencialmente de que
los datos sigan una distribución gaussiana.
Un método es robusto cuando sus resultados no dependen
esencialmente de cuál sea la distribución de los datos.
Un método es resistente si no es influido considerablemente
por unos pocos datos atípicos (“outliers”)
Ejemplo:
dados los conjuntos
{11 12 13 14 15 16 17 18 19}
y
{11 12 13 14 15 16 17 18 91}
Distintas medidas de “tendencia central”:
En ambos casos, el valor central es 15, pero
los promedios son 15 y 23 respectivamente.
Estadísticos de orden de una muestra
aleatoria
Sea { x1, x2, ..., xn } una muestra aleatoria de datos
Se ordenan en forma ascendente:
{ x(1), x(2) , ..., x(n) } son los estadísticos de orden
( cumpliéndose que x(1) ≤ x(2) ≤ …≤ x(n) )
Ej:
{7 -2 1 7 -3 4 0}

{-3 -2 0 1 4 7 7}
Cuantiles de una muestra aleatoria
(percentiles)
Ej.: 1) Sea la muestra aleatoria
{7 -2 2 7 -3 4 0}
¿Cómo podemos estimar un valor central que, en sentido
amplio, deje probabilidad ½ a ambos lados?
 {-3 -2 0 2 4 7 7}
Parece natural tomar un valor que deje la misma cantidad de
datos a cada lado, en este caso el 2:
{-3 -2 0 2 4 7 7}.
2.
Se dice que la mediana de la muestra es
q0.5 = 2
“percentil 50”
Cuantiles…
Ej. 2) Sea ahora la muestra {7 1 7 -3 4 0}
¿Cuál será la mediana?
 {-3 0 1 4 7 7}
Convencionalmente, se suele tomar el promedio entre los dos valores
centrales, o sea
(1 + 4) /2 = 2.5.
Pero, si no se tiene más información, podría elegirse cualquier valor en ese
intervalo (1,4)
Generalizando, sea p tal que 0 < p < 1.
Los p-quantiles (qp) ( o percentiles) son valores
que dejan,en cierto sentido, probabilidad p a su
izquierda, y probabilidad 1-p a su derecha.
qp
• ••
•
•
•• • •
•
•
p
P(X ≤ qp) = p
1- p
P(X ≥ qp) = 1 - p
Estimación de los cuantiles
En general, los percentiles no son únicos y por lo tanto, no hay
una única forma de estimarlos.
Una forma posible para una muestra aleatoria de tamaño n es:
1)tomar los estadísticos de orden como los cuantiles
(0.5/n), (1.5/n), ..., ([n-0.5]/n) respectivamente
2) para los cuantiles con probabilidades entre (0.5/n) y
([n-0.5]/n), se interpola linealmente.
3) los valores mínimo o máximo de la muestra se asignan
a los cuantiles para probabilidades fuera de ese rango.
Principales medidas numéricas de resumen
de un conjunto de datos
1) Localización: valor de “tendencia
central” del conjunto
2) Dispersión: alrededor del valor
central
3) Simetría: cómo están distribuidos los
datos respecto del valor central
4)…
Localización
N
Media
Mediana
_
x 
x
i
i 1
N
q0.50
La media está comprendida entre el mínimo y el máximo
de la muestra.
La mediana “divide el conjunto de datos en
dos subconjuntos ordenados con igual
cantidad de datos” .
Importante: la mediana permite trabajar
con estimaciones de probabilidades
Localización
Ejemplo: (con muy pocos datos!!)
_
2
4
9
11
14
x  8
_
2
4
9
11
7004
x  1406
(outlier) ??
La media no es robusta ni resistente
Se puede estimar que P (X ≥ 9) ~ 0.5 ~ P(X ≤ 9)
Localización
Los cuantiles más
usados…
• Mediana q0.5
• Terciles, q0.33 , q0.66
• Cuartiles, q0.25 , q0.75
• Quintiles, deciles,
• q0.05
q0.95
Trimedia
q0 . 2 5  2q0 . 5 q 0 . 7 5
4
Robustez vs. Eficiencia
¿Por qué se usa más la media que la mediana?
Porque en el caso (“muy frecuente”) de una
distribución gaussiana es un estimador más
eficiente que la mediana:
es decir que tiene menos dispersión alrededor del
valor a estimar,
o de otra forma, con menos valores (una muestra
más pequeña) se obtiene la misma dispersión.
Además, la media es más fácil de tratar
matemáticamente, y es única para una muestra
dada.
Matlab
Variable
Comando
media
mean
cuantil
quantile
percentil
prctile
mediana
median
Dispersión
• Intervalo intercuartil
IQR = q0.75 - q0.25
“No usa” el 25% superior e inferior
de los datos
(Robusto y resistente)
Dispersión
• Desviación estándar muestral
s
1
N 1
N
(Ni robusta ni resistente)
_
2
(x
i

x
)
σ

(σ2 = varianza de la población)
i 1
• Desviación absoluta de la mediana
MAD = median |xi – q0.5|
Simetría
Coeficiente de asimetría
de la muestra
Indice de Yule-Kendall
Ambos son adimensionados
γ>0
γ<0
Técnicas gráficas de resumen
• Boxplots
• Histogramas
• Distribuciones de frecuencia acumulada
Boxplots (“barritas”)
Boxplots (“barritas”)
Min = 3.20
q0.50 = 60.345
q0.25 = 43.645
.
. .
Max = 124.27
q0.75 = 84.96
.
.
0 10 20 30 40 50 60 70 80 90 100 110 120 130
Temperatura diaria máxima en Melbourne
Se destacan valores extremos inusuales
Histogramas
Además
de
la
localización,
la
dispersión, y la simetría, también
muestran
si
los
datos
son
multimodales
Histogramas
Precipitación Rivera agosto 1914-1997
Precipitación Rivera agosto 1914-1997
25
mediana=78.5 mm
No. de ocurrencias
20
15
media = 97.9 mm
10
5
0
0
50
100
150
200
250
300
Histogramas
Precipitación Rivera abril 1914-1997
mediana=110.5 mm
media = 141.7 mm
Histogramas
Distribuciones empíricas de frecuencia acumulada
110.5 mm
mediana=110.5 mm
P(X≤110.5) = 0.5
P (X ≤ x)
Distribuciones empíricas de frecuencia acumulada
Matlab
“Variable”
Comando
Desviación
estándar,
varianza
std
var
Intervalo
intercuartil
iqr
Desv. abs.
de la
mediana
histograma
mad
Distr. de
frecuencia
acumulada
ecdf
hist