Download Estadística Parte 1

Document related concepts

Parámetro estadístico wikipedia , lookup

Error estándar wikipedia , lookup

Desviación típica wikipedia , lookup

Distribución normal wikipedia , lookup

Error cuadrático medio wikipedia , lookup

Transcript
Estadística
Parte 1
Francisco J. Carrera Troyano
Instituto de Física de Cantabria
Consejo Superior de Investigaciones Científicas
y Universidad de Cantabria
Octubre 2014
Estadística
•  There are lies, damned lies, and statistics
Benjamin Disraeli
•  If you need statistics, you ought to have done a
better experiment
Ernest Rutherford
•  Diálogo entre P. Scheuer y un estudiante:
–  How are the data?
–  We did a Kolmogorov-Smirnov test...
–  Ah! That bad.
Estadística
•  La estadística es una herramienta habitual en muchas
disciplinas científicas
•  Puede ayudar a:
–  Cuantificar nuestras impresiones subjetivas sobre los datos
experimentales
–  Extraer información de los datos, cuantificando la incertidumbre con
un grado determinado de confianza
–  Especialmente importante cuando las circunstancias no permiten
hacer un experimento mejor
–  ...
•  Pero no puede sustituir al sentido común y al sentido crítico
•  Nunca se puede probar que una teoría es cierta, sólo que es
falsa, con un determinado grado de confianza
Índice
1.  Incertidumbres y errores
– 
Incertidumbres en las medidas
• 
– 
Errores en la medida: sistemáticos y estadísticos. Incertidumbres.
Distribuciones original y de la muestra. Momentos de una distribución.
Medidas del valor central. Medidas de la dispersión. Puntos aislados.
Análisis de errores
• 
Propagación de errores. Barras de error asimétricas.
2.  Contrastes de hipótesis paramétricos y no paramétricos
– 
Comparación de dos distribuciones
• 
• 
• 
– 
Comparación de las medias. Comparación de las varianzas. Test χ2.
Test de Kolmogorov-Smirnov. Comparación de distribuciones
bidimensionales
Análisis de varianza: ANOVA
Correlación lineal. Test no-paramétricos. Correlaciones parciales.
Variables con límites superiores e inferiores
Significancia de una detección
• 
Cociente señal-ruido.
3.  Modelado estadístico de datos
– 
Métodos de máxima verosimilitud
• 
• 
Modelos frente a datos. Verosimilitud. χ2: Introducción, Estimación de
parámetros. Bondad del ajuste. Incertidumbre en los parámetros. Regresión
lineal.
Verosimilitud en régimen Poissoniano
Bibliografía
•  "Data reduction and error analysis for the physical sciences"
Bevington & Robinson, 1992, McGraw-Hill
•  "Numerical Recipes" Press et al., 1994, CUP
•  “Estadística básica para estudiantes de Ciencias” J. Gorgas,
N. Cardiel, J. Zamorano, 2009,
http://pendientedemigracion.ucm.es/info/Astrof/users/jaz/estadistica.html!
•  "Probability and statistics in engineering and management
science" Hines & Montgomery, 1990, J. Wiley & Sons (tb.
version en castellano)
•  "Practical Statistics for Astronomers" Wall & Jenkins, 2003,
CUP
•  “Modern statistical methods for Astronomy” Feigelson & Babu,
2012, CUP
•  Astronomy Methods H. Bradt, 2004, CUP
Incertidumbres en las medidas
(Bevington & Robinson 92)
•  Errores de medida:
–  Error: diferencia entre el valor observado (o calculado) y el valor
verdadero
•  Problema: no sabemos el valor verdadero: necesitamos acotarlo a partir de
los datos obtenidos
•  Dos conceptos importantes:
–  Exactitud: cercanía entre el resultado de un experimento y el valor
verdadero
–  Precisión: bondad en la determinación del resultado, reproducibilidad.
Sin referencia al valor verdadero
•  Generalmente: incertidumbre ~ precisión
Incertidumbres en las medidas
(Bevington & Robinson 92)
•  Errores de medida:
–  Error: diferencia entre
el valor observado (oImpreciso
calculado) y el valor
Preciso
verdadero
Inexacto
Exacto
•  Problema: no sabemos el valor verdadero: necesitamos acotarlo a partir de
los datos obtenidos
•  Dos conceptos importantes:
–  Exactitud: cercanía entre el resultado de un experimento y el valor
verdadero
–  Precisión: bondad en la determinación del resultado, reproducibilidad.
Sin referencia al valor verdadero
•  Generalmente: incertidumbre ~ precisión
Errores sistemáticos
•  Inexactitud reproducible introducida por fallos del
equipo, de su calibración, o de la técnica utilizada
–  Afectan a la exactitud
–  Difíciles de detectar y de estudiar de manera estadística
•  Se evitan/detectan:
–  Diseñando el experimento con cuidado
–  Cuidando las condiciones en las que se realiza el
experimento
–  Midiendo las mismas cantidades con métodos distintos
Errores estadísticos
•  Indefinición del resultado introducida por la precisión
finita de la medida. Medida de la fluctuación al repetir
el experimento
–  Afectan a la precisión
–  Debidos a fluctuaciones en las observaciones que producen
resultados distintos en experimentos distintos
–  Requieren observaciones repetidas para mejorar su
precisión
•  Dos tipos:
–  Instrumentales: imperfecciones en el equipo, o en la lectura.
•  Se evitan con mejoras en la precisión y fiabilidad de los instrumentos
–  Fluctuaciones estadísticas: inevitables, debidas a la propia
naturaleza física de la medida
•  Se pueden reducir con más medidas, pero no indefinidamente
Incertidumbres
•  Magnitud del error que se estima que se ha cometido en la
determinación de los resultados
–  Nivel de confianza de que otra medida caerá dentro de un intervalo con
determinada probabilidad (Ej. 1σ, 68.3%, 99%...)
•  Dos tipos:
–  Fluctuaciones en las medidas
–  Descripción teórica (Ej. Medida tamaño mesa elíptica)
•  Nos interesa estimar los errores inherentes en el experimento,
lo que haremos a partir de las incertidumbres en las medidas
•  También nos interesa averiguar si el modelo que estamos
aplicando es el que mejor caracteriza el sistema (Secciones 2 y
3 del curso)
Distribuciones original y de la muestra
•  Si medimos una cantidad x obtenemos {xi}
•  Si hiciéramos infinitas medidas de la distribución de los {xi},
seguiría la distribución teórica de los valores esperados de {xi}
(gaussiana, poissoniana...)
•  En casos reales:
–  Distribución original≡esperada
–  Distribución de la muestra≡{xi}
•  Cuantas más medidas se efectúen más se parecerán, pero no
serán idénticas:
(parámetro original) = limN→∞(parámetro experimental)
Distribuciones original y de la muestra
Original
Número de medidas
Muestra
•  Si medimos una cantidad x obtenemos {xi}
Modelo
•  Si hiciéramos
infinitas medidas de la distribución de los {xi},
muestra
seguiría la distribución
teórica de los valores esperados de {xi}
(gaussiana, poissoniana...)
•  En casos reales:
–  Distribución original≡esperada
–  Distribución de la muestra≡{xi}
•  Cuantas más medidas se efectúen más se parecerán, pero no
serán idénticas:
(parámetro original) = limN→∞(parámetro experimental)
Caracterizando una muestra
•  Idealmente queremos conocer la distribución completa
•  No siempre es posible/deseable, así que intentamos
“resumirla” en unos pocos parámetros:
"
k
-  Momentos de una distribución mk (a) = dx P(x)(x ! a)
!"
•  Cualitativamente:
1.  Valor central
2.  Dispersión
3.  Asimetría (sesgo, “skewness”)
4.  Curtosis
•  Normalmente se usan sólo los dos primeros:
-  Razones históricas (Poissoniana -1-, gaussiana -1,2-...)
-  Más robustas
-  Suelen ser las más útiles
#
Caracterizando una muestra
•  Idealmente queremos conocer la distribución completa
•  No siempre es posible/deseable, así que intentamos
“resumirla” en unos pocos parámetros:
–  Momentos de una distribución
•  Cualitativamente:
1.  Valor central
2.  Dispersión
3.  Asimetría (sesgo, “skewness”)
4.  Curtosis
•  Normalmente se usan sólo las dos primeras:
-  Razones históricas (Poissoniana -1-, gaussiana -1,2-...)
-  Más robustas
-  Suelen ser las más útiles
Medidas del valor central
•  Tienen sentido si la distribución de valores tiende a agruparse
en torno a un valor particular
1
•  Media, centroide o valor promedio: x =
N
N
∑x
i
de la muestra
i =1
⎛ 1 N ⎞
µ = lim ⎜ ∑ xi ⎟ original
N →∞ N
⎝ i =1 ⎠
–  Si P(x) simétrica en torno a x0: µ=x0
–  El error estándar en la media: σ/√N , N nº puntos
–  En general:
∞
f = ∫ dxP( x) f ( x)
−∞
∞
x = ∫ dxP( x ) x
−∞
Medidas del valor central
•  Mediana
µ1/2
P( x ≥ µ1/ 2 ) = P( x < µ1/ 2 ) = 1 / 2
•  Tantos valores por encima como por debajo
–  Si N impar: µ1/2~xint(N/2)+1
–  Si N par: µ1/2~(xN/2+xN/2+1)/2
•  Menos sensible a puntos aislados muy fuera de la distribución
•  Si P(x) simétrica respecto µ ⇒ media=mediana
•  La media falla como estimador si las colas son largas, mientras
que la mediana falla sólo si el área bajo las colas es grande
Medidas del valor central
•  Moda: Valor más probable µmax: P(µmax)≥P(x≠µmax)
–  El más probable de ser observado
–  Pico de la distribución
•  Puede haber más de uno: en este caso µ, µ1/2 no muy útiles
•  Si sólo hay uno y la distribución es simétrica: µ=µmax=µ1/2
–  Distribución asimétrica: generalmente
µmax<µ1/2<µ ó µmax>µ1/2>µ
•  ¿Cuál usar?
–  Depende de lo que se quiera y de la forma de la distribución
–  Importante hacer histograma
Medidas del valor central
•  Moda: Valor más probable µmax: P(µmax)≥P(x≠µmax)
–  El más probable de ser observado
–  Pico de la distribución
•  Puede haber más de uno: en este caso µ, µ1/2 no muy útiles
•  Si sólo hay uno y la distribución es simétrica: µ=µmax=µ1/2
–  Distribución asimétrica: generalmente
µmax<µ1/2<µ ó µmax>µ1/2>µ
•  ¿Cuál usar?
–  Depende de lo que se quiera y de la forma de la distribución
–  Importante hacer histograma
Medidas de la dispersión
•  Desviaciones:
di = xi − x lim d = 0
N →∞
•  Desviación promedio: ADev ó α promedio valores
absolutos de las desviaciones
1
⎡ 1
⎤
α = lim ⎢ ∑ xi − x ⎥
ADev =
xi − x
N →∞ N
⎣
⎦
N
∑
–  Valor absoluto complica tratamiento analítico
–  A veces se usa mediana en lugar de media, esto minimiza
ADev
–  No muy usada, pero útil en el caso de distribuciones con
muchos puntos aislados fuera de la distribución
Medidas de la dispersión
•  Varianza:
⎡ 1
2
⎤
⎛ 1
⎞
σ 2 = (x − µ )2 = lim ⎢ ∑ (x − x ) ⎥ = lim ⎜ ∑ xi2 ⎟ − µ 2
N →∞ N
⎣
⎦ N →∞⎝ N
⎠
–  Desviación estándar:
σ = Varianza > α
∞
2
σ = ∫ dxP( x)( x − µ ) 2
−∞
–  Varianza de la muestra:
s2 =
1
2
(
)
x
−
x
∑ i
N −1
•  Se usa N-1 en lugar de N porque para calcular s se utiliza la media, que se
obtiene con la propia distribución
–  Hay distribuciones de probabilidad para las que σ no existe:
•  Si P(x) cae como 1/x2 o más despacio esta expresión →∞
–  Por ejemplo la lorentziana
P( x; µ , Γ) =
–  α es un parámetro más robusto
1
Γ/2
π ( x − µ ) 2 − (Γ / 2) 2
Otras medidas de la dispersión
•  Cuando hay muchos puntos: percentiles
–  Valores de {xi} que engloban una fracción determinada
de las observaciones:
•  Cuartiles: Q1 (25%), Q2 (50%≡µ1/2), Q3 (75%)
–  Relacionados con la mediana
–  Útiles cuando la distribución no sigue una forma clara
(modelo teórico desconocido) o cuando hay muchos
puntos aislados
–  Por ejemplo: en unas simulaciones para ver si una
función es una buena aproximación: se usa un
estadístico (función de los datos) y se mira qué
porcentaje de las simulaciones producen un valor del
estadístico que cae por debajo del valor observado
Medidas del valor central
•  Media ponderada: cuando se combinan datos {xi}
con errores individuales {σi}
xi
x =
∑σ
i
2
i
1
∑σ
j
2
j
σ
2
x
1
=
1
∑σ
i
2
i
–  Relacionada con χ2 (gaussiana): equivale a ajuste a
constante
–  No tiene en cuenta la dispersión en los valores
Medidas del valor central
•  Media ponderada teniendo en cuenta la dispersión
en los valores: cuando se combinan datos con
errores y dispersión intrínseca
–  Supone distribución gaussiana de los valores respecto de
<x>, con dispersión intrínseca σ
–  Se busca mínimo de la verosimilitud (log-likelihood
=-2LnP, Sección 3 del curso)
!="
i
(x ! x )
i
! i2 + ! 2
2
+ " Ln #$2" (! i2 + ! 2 )%&
i
–  Se puede encontrar el error en ‹x› buscando en torno al
mínimo
Medidas del valor central. Ejemplo I
Se toman medidas del número de galaxias en N=1000
zonas diferentes del cielo (fichero datCounts.dat) y
se desea comprobar si la densidad de fuentes es
compatible con ser constante o si hay alguna
dispersión intrínseca
•  Primer paso: histograma
(línea negra continua)
–  Pico ~100
•  Segundo paso: cálculo de
media y medidas dispersión:
–  〈x〉=100.3
–  s = 2 2 ( l í n e a a z u l p u n t o s )
> √〈x〉~10 (línea roja trazos)
–  s/√1000=0.7
Medidas del valor
central. Ejemplo II
•  Tercer paso: asignar barras
de error individuales ~√x
•  Cuarto paso: dibujar los
puntos y sus barras de rror:
–  Dispersión entre puntos >
barras de error
⇒ Dispersión intrínseca?
•  Quinto paso: Ajustamos una
media con dispersión
intrínseca (“+” en diagrama
de contornos)
–  Media=99.34
–  Dispersión intrínseca=19.77
–  Significancia?
–  Incertidumbres?
⇒ contornos χ2 (ver Sección 3)
Significado del valor central
y de la dispersión
•  Media (moda, mediana): estimación del valor del
parámetro que queremos determinar
•  Varianza (desviación promedio, percentiles):
estimación de la incertidumbre de nuestro método
en la determinación de ese parámetro
•  Distribución gaussiana: media y varianza
determinan distribución
–  Por razones históricas siguen dominando
–  Además, momentos mayores no siempre útiles (poco
robustos)
Puntos aislados fuera de la distribución I
• 
• 
Son mucho más frecuentes en la vida real que en
las distribuciones teóricas
Eliminación con juicio y sentido crítico
–  Sólo si se entiende el origen de las discrepancias
• 
Técnica: el sigma clipping
1. 
2. 
3. 
4. 
Definición de límite ns (n>2-3) ó en probabilidad (95%, 99%...)
Cálculo de 〈x〉, s
Si |xi-〈x〉| >ns rechazamos el punto i
Si se ha rechazado algún punto, se vuelve a 2 (a veces límite en el
número de bucles)
5.  Si no se ha rechazado ninguno, muestra limpia
Puntos aislados
fuera de la
distribución II
• 
• 
Método más robusto usando el rango intercuartil:
IQR≡Q3-Q1
Se definen límites: Lo que quede fuera outlier
– 
– 
Q1-1.5 IQR
Q3+1.5 IQR
Propagación de errores
•  Función A(x,y,...), si se conocen los errores en x (σx), y (σy)...
¿Cuál es el error en A (σA)?
–  Si se conoce la distribución estadística de las distintas variables, se
puede calcular
2
2
⎛
⎞
∂
A
∂
A
–  Si no es así, y σx ,σy...<<: σ A2 = ⎛⎜ ⎞⎟ σ x2 + ⎜⎜ ⎟⎟ σ y2 + ...
⎝ ∂x ⎠
⎝ ∂y ⎠
•  A partir de las propiedades de la distribución gaussiana
•  También hay términos de correlaciones cruzadas
–  deberían anularse si las medidas de x,y... no están relacionadas
–  Lo que siempre hay que comprobar
–  Ejemplos:
A = ax + by ⇒ σ A2 = a 2σ x2 + b 2σ y2
(
2
)
A = ax b ⇒ σ A2 = abxb −1 σ x2
A = a bx ⇒ σ A = b ln a a bxσ x
⎛ ∂ 2 A ⎞
⎜⎜
⎟⎟σ xσ y
∂
x
∂
y
⎝
⎠
Barras de error asimétricas
(Barlow arXiv: physics/0306138,0406120)
•  Caso típico: µ +σ1 -σ2
–  Interpretación? Gaussiana con errores asimétricos no tiene sentido
•  Parametrización de la P(x) con alguna función:
–  Bien comportada : continua y con colas controlables
–  Parámetros del problema:
•  Máximo en µ
•  =-2lnPmin±1 correspondan con σ1, σ2 (ver parte 3 del curso)
•  Equivalentemente
•  Dos aproximaciones:
µ +! 1
1
" dx N(0,1) = "
dx P(x)
µ !! 2
!1
–  Barlow (2003,2004): distribución de probabilidad asimétrica, mejores resultados
con gaussiana de varianza variable. Implementado en
http://www.slac.stanford.edu/~barlow/java/statistics.html
2
"
%
x!µ
2! 1! 2
! 1! ! 2
! = !2 ln P(x) = $
,
!
=
,
!
'
=
'
! 1+ ! 2
! 1+ ! 2
# ! ! ! '(x ! µ ) &
–  Buscar N(µ,σ) simétrica con σ entre σ1 y σ2 que cumpla:
µ +! 1
# (x ! µ )2 &
1
" dx N(0,1) = " dx ! 2" exp %$! 2! 2 ('
!1
µ !! 2
1
Ejercicio 1
•  Archivos dat1.dat,dat2.dat,dat3.dat en
http://venus.ifca.unican.es/~carreraf/Estadistica/Ejercicios
•  Calcular:
–  La moda
–  La media y la desviación estándar
–  La mediana
–  Histograma
•  ¿Qué distribuciones son?¿Por qué?
Histogramas I
•  Muestran el número de datos en intervalos de una variable bin:
–  Útiles para ver la frecuencia relativa de los diversos valores
–  Si no son discretos: agrupación en n intervalos Δx
–  Para compararlos: normalizarlos a área unidad, mismos intervalos
•  A la hora de decidir sobre los intervalos:
– 
– 
– 
– 
Demasiados dan lugar a muchas fluctuaciones
Pocos pierden detalle de la distribución
Deben cubrir el rango de los datos, ¡pero no más!
Si discretos deben centrarse los intervalos en los valores
•  Reglas sobre n,Δx: no universal, mejor probar
–  n=N1/2
–  Freedman-Diaconis: Δx=2 IQR/N1/3 , IQR≡Q3-Q1
–  Intervalos no uniformes?
Histogramas I
•  Muestran el número de datos en intervalos de una variable bin:
–  Útiles para ver la frecuencia relativa de los diversos valores
–  Si no son discretos: agrupación en n intervalos Δx
–  Para compararlos: normalizarlos a área unidad, mismos intervalos
•  A la hora de decidir sobre los intervalos:
– 
– 
– 
– 
Demasiados dan lugar a muchas fluctuaciones
Pocos pierden detalle de la distribución
Deben cubrir el rango de los datos, ¡pero no más!
Si discretos deben centrarse los intervalos en los valores
•  Reglas sobre n,Δx: no universal, mejor probar
–  n=N1/2
–  Freedman-Diaconis: Δx=2 IQR/N1/3 , IQR≡Q3-Q1
–  Intervalos no uniformes?
Histogramas II
•  ¿Cómo tratar los datos si tienen barras de error σi?
–  Si σi<<Δx: se pueden seguir usando métodos anteriores
–  Si no es así:
•  Si las barras de error son simétricas y datos ~gaussianos: se define
P(x)=ΣiN(xi, σi)/N : normalizada a la unidad
•  Si se conocen las distribuciones individuales Pi(x): se define
P(x)=ΣiPi(x)/N : normalizada a la unidad
•  Los valores del histograma en el bin j serían ∫ΔxjdxP(x)