Download Estadística Parte 1
Document related concepts
Transcript
Estadística
Parte 1
Francisco J. Carrera Troyano
Instituto de Física de Cantabria
Consejo Superior de Investigaciones Científicas
y Universidad de Cantabria
Octubre 2014
Estadística
• There are lies, damned lies, and statistics
Benjamin Disraeli
• If you need statistics, you ought to have done a
better experiment
Ernest Rutherford
• Diálogo entre P. Scheuer y un estudiante:
– How are the data?
– We did a Kolmogorov-Smirnov test...
– Ah! That bad.
Estadística
• La estadística es una herramienta habitual en muchas
disciplinas científicas
• Puede ayudar a:
– Cuantificar nuestras impresiones subjetivas sobre los datos
experimentales
– Extraer información de los datos, cuantificando la incertidumbre con
un grado determinado de confianza
– Especialmente importante cuando las circunstancias no permiten
hacer un experimento mejor
– ...
• Pero no puede sustituir al sentido común y al sentido crítico
• Nunca se puede probar que una teoría es cierta, sólo que es
falsa, con un determinado grado de confianza
Índice
1. Incertidumbres y errores
–
Incertidumbres en las medidas
•
–
Errores en la medida: sistemáticos y estadísticos. Incertidumbres.
Distribuciones original y de la muestra. Momentos de una distribución.
Medidas del valor central. Medidas de la dispersión. Puntos aislados.
Análisis de errores
•
Propagación de errores. Barras de error asimétricas.
2. Contrastes de hipótesis paramétricos y no paramétricos
–
Comparación de dos distribuciones
•
•
•
–
Comparación de las medias. Comparación de las varianzas. Test χ2.
Test de Kolmogorov-Smirnov. Comparación de distribuciones
bidimensionales
Análisis de varianza: ANOVA
Correlación lineal. Test no-paramétricos. Correlaciones parciales.
Variables con límites superiores e inferiores
Significancia de una detección
•
Cociente señal-ruido.
3. Modelado estadístico de datos
–
Métodos de máxima verosimilitud
•
•
Modelos frente a datos. Verosimilitud. χ2: Introducción, Estimación de
parámetros. Bondad del ajuste. Incertidumbre en los parámetros. Regresión
lineal.
Verosimilitud en régimen Poissoniano
Bibliografía
• "Data reduction and error analysis for the physical sciences"
Bevington & Robinson, 1992, McGraw-Hill
• "Numerical Recipes" Press et al., 1994, CUP
• “Estadística básica para estudiantes de Ciencias” J. Gorgas,
N. Cardiel, J. Zamorano, 2009,
http://pendientedemigracion.ucm.es/info/Astrof/users/jaz/estadistica.html!
• "Probability and statistics in engineering and management
science" Hines & Montgomery, 1990, J. Wiley & Sons (tb.
version en castellano)
• "Practical Statistics for Astronomers" Wall & Jenkins, 2003,
CUP
• “Modern statistical methods for Astronomy” Feigelson & Babu,
2012, CUP
• Astronomy Methods H. Bradt, 2004, CUP
Incertidumbres en las medidas
(Bevington & Robinson 92)
• Errores de medida:
– Error: diferencia entre el valor observado (o calculado) y el valor
verdadero
• Problema: no sabemos el valor verdadero: necesitamos acotarlo a partir de
los datos obtenidos
• Dos conceptos importantes:
– Exactitud: cercanía entre el resultado de un experimento y el valor
verdadero
– Precisión: bondad en la determinación del resultado, reproducibilidad.
Sin referencia al valor verdadero
• Generalmente: incertidumbre ~ precisión
Incertidumbres en las medidas
(Bevington & Robinson 92)
• Errores de medida:
– Error: diferencia entre
el valor observado (oImpreciso
calculado) y el valor
Preciso
verdadero
Inexacto
Exacto
• Problema: no sabemos el valor verdadero: necesitamos acotarlo a partir de
los datos obtenidos
• Dos conceptos importantes:
– Exactitud: cercanía entre el resultado de un experimento y el valor
verdadero
– Precisión: bondad en la determinación del resultado, reproducibilidad.
Sin referencia al valor verdadero
• Generalmente: incertidumbre ~ precisión
Errores sistemáticos
• Inexactitud reproducible introducida por fallos del
equipo, de su calibración, o de la técnica utilizada
– Afectan a la exactitud
– Difíciles de detectar y de estudiar de manera estadística
• Se evitan/detectan:
– Diseñando el experimento con cuidado
– Cuidando las condiciones en las que se realiza el
experimento
– Midiendo las mismas cantidades con métodos distintos
Errores estadísticos
• Indefinición del resultado introducida por la precisión
finita de la medida. Medida de la fluctuación al repetir
el experimento
– Afectan a la precisión
– Debidos a fluctuaciones en las observaciones que producen
resultados distintos en experimentos distintos
– Requieren observaciones repetidas para mejorar su
precisión
• Dos tipos:
– Instrumentales: imperfecciones en el equipo, o en la lectura.
• Se evitan con mejoras en la precisión y fiabilidad de los instrumentos
– Fluctuaciones estadísticas: inevitables, debidas a la propia
naturaleza física de la medida
• Se pueden reducir con más medidas, pero no indefinidamente
Incertidumbres
• Magnitud del error que se estima que se ha cometido en la
determinación de los resultados
– Nivel de confianza de que otra medida caerá dentro de un intervalo con
determinada probabilidad (Ej. 1σ, 68.3%, 99%...)
• Dos tipos:
– Fluctuaciones en las medidas
– Descripción teórica (Ej. Medida tamaño mesa elíptica)
• Nos interesa estimar los errores inherentes en el experimento,
lo que haremos a partir de las incertidumbres en las medidas
• También nos interesa averiguar si el modelo que estamos
aplicando es el que mejor caracteriza el sistema (Secciones 2 y
3 del curso)
Distribuciones original y de la muestra
• Si medimos una cantidad x obtenemos {xi}
• Si hiciéramos infinitas medidas de la distribución de los {xi},
seguiría la distribución teórica de los valores esperados de {xi}
(gaussiana, poissoniana...)
• En casos reales:
– Distribución original≡esperada
– Distribución de la muestra≡{xi}
• Cuantas más medidas se efectúen más se parecerán, pero no
serán idénticas:
(parámetro original) = limN→∞(parámetro experimental)
Distribuciones original y de la muestra
Original
Número de medidas
Muestra
• Si medimos una cantidad x obtenemos {xi}
Modelo
• Si hiciéramos
infinitas medidas de la distribución de los {xi},
muestra
seguiría la distribución
teórica de los valores esperados de {xi}
(gaussiana, poissoniana...)
• En casos reales:
– Distribución original≡esperada
– Distribución de la muestra≡{xi}
• Cuantas más medidas se efectúen más se parecerán, pero no
serán idénticas:
(parámetro original) = limN→∞(parámetro experimental)
Caracterizando una muestra
• Idealmente queremos conocer la distribución completa
• No siempre es posible/deseable, así que intentamos
“resumirla” en unos pocos parámetros:
"
k
- Momentos de una distribución mk (a) = dx P(x)(x ! a)
!"
• Cualitativamente:
1. Valor central
2. Dispersión
3. Asimetría (sesgo, “skewness”)
4. Curtosis
• Normalmente se usan sólo los dos primeros:
- Razones históricas (Poissoniana -1-, gaussiana -1,2-...)
- Más robustas
- Suelen ser las más útiles
#
Caracterizando una muestra
• Idealmente queremos conocer la distribución completa
• No siempre es posible/deseable, así que intentamos
“resumirla” en unos pocos parámetros:
– Momentos de una distribución
• Cualitativamente:
1. Valor central
2. Dispersión
3. Asimetría (sesgo, “skewness”)
4. Curtosis
• Normalmente se usan sólo las dos primeras:
- Razones históricas (Poissoniana -1-, gaussiana -1,2-...)
- Más robustas
- Suelen ser las más útiles
Medidas del valor central
• Tienen sentido si la distribución de valores tiende a agruparse
en torno a un valor particular
1
• Media, centroide o valor promedio: x =
N
N
∑x
i
de la muestra
i =1
⎛ 1 N ⎞
µ = lim ⎜ ∑ xi ⎟ original
N →∞ N
⎝ i =1 ⎠
– Si P(x) simétrica en torno a x0: µ=x0
– El error estándar en la media: σ/√N , N nº puntos
– En general:
∞
f = ∫ dxP( x) f ( x)
−∞
∞
x = ∫ dxP( x ) x
−∞
Medidas del valor central
• Mediana
µ1/2
P( x ≥ µ1/ 2 ) = P( x < µ1/ 2 ) = 1 / 2
• Tantos valores por encima como por debajo
– Si N impar: µ1/2~xint(N/2)+1
– Si N par: µ1/2~(xN/2+xN/2+1)/2
• Menos sensible a puntos aislados muy fuera de la distribución
• Si P(x) simétrica respecto µ ⇒ media=mediana
• La media falla como estimador si las colas son largas, mientras
que la mediana falla sólo si el área bajo las colas es grande
Medidas del valor central
• Moda: Valor más probable µmax: P(µmax)≥P(x≠µmax)
– El más probable de ser observado
– Pico de la distribución
• Puede haber más de uno: en este caso µ, µ1/2 no muy útiles
• Si sólo hay uno y la distribución es simétrica: µ=µmax=µ1/2
– Distribución asimétrica: generalmente
µmax<µ1/2<µ ó µmax>µ1/2>µ
• ¿Cuál usar?
– Depende de lo que se quiera y de la forma de la distribución
– Importante hacer histograma
Medidas del valor central
• Moda: Valor más probable µmax: P(µmax)≥P(x≠µmax)
– El más probable de ser observado
– Pico de la distribución
• Puede haber más de uno: en este caso µ, µ1/2 no muy útiles
• Si sólo hay uno y la distribución es simétrica: µ=µmax=µ1/2
– Distribución asimétrica: generalmente
µmax<µ1/2<µ ó µmax>µ1/2>µ
• ¿Cuál usar?
– Depende de lo que se quiera y de la forma de la distribución
– Importante hacer histograma
Medidas de la dispersión
• Desviaciones:
di = xi − x lim d = 0
N →∞
• Desviación promedio: ADev ó α promedio valores
absolutos de las desviaciones
1
⎡ 1
⎤
α = lim ⎢ ∑ xi − x ⎥
ADev =
xi − x
N →∞ N
⎣
⎦
N
∑
– Valor absoluto complica tratamiento analítico
– A veces se usa mediana en lugar de media, esto minimiza
ADev
– No muy usada, pero útil en el caso de distribuciones con
muchos puntos aislados fuera de la distribución
Medidas de la dispersión
• Varianza:
⎡ 1
2
⎤
⎛ 1
⎞
σ 2 = (x − µ )2 = lim ⎢ ∑ (x − x ) ⎥ = lim ⎜ ∑ xi2 ⎟ − µ 2
N →∞ N
⎣
⎦ N →∞⎝ N
⎠
– Desviación estándar:
σ = Varianza > α
∞
2
σ = ∫ dxP( x)( x − µ ) 2
−∞
– Varianza de la muestra:
s2 =
1
2
(
)
x
−
x
∑ i
N −1
• Se usa N-1 en lugar de N porque para calcular s se utiliza la media, que se
obtiene con la propia distribución
– Hay distribuciones de probabilidad para las que σ no existe:
• Si P(x) cae como 1/x2 o más despacio esta expresión →∞
– Por ejemplo la lorentziana
P( x; µ , Γ) =
– α es un parámetro más robusto
1
Γ/2
π ( x − µ ) 2 − (Γ / 2) 2
Otras medidas de la dispersión
• Cuando hay muchos puntos: percentiles
– Valores de {xi} que engloban una fracción determinada
de las observaciones:
• Cuartiles: Q1 (25%), Q2 (50%≡µ1/2), Q3 (75%)
– Relacionados con la mediana
– Útiles cuando la distribución no sigue una forma clara
(modelo teórico desconocido) o cuando hay muchos
puntos aislados
– Por ejemplo: en unas simulaciones para ver si una
función es una buena aproximación: se usa un
estadístico (función de los datos) y se mira qué
porcentaje de las simulaciones producen un valor del
estadístico que cae por debajo del valor observado
Medidas del valor central
• Media ponderada: cuando se combinan datos {xi}
con errores individuales {σi}
xi
x =
∑σ
i
2
i
1
∑σ
j
2
j
σ
2
x
1
=
1
∑σ
i
2
i
– Relacionada con χ2 (gaussiana): equivale a ajuste a
constante
– No tiene en cuenta la dispersión en los valores
Medidas del valor central
• Media ponderada teniendo en cuenta la dispersión
en los valores: cuando se combinan datos con
errores y dispersión intrínseca
– Supone distribución gaussiana de los valores respecto de
<x>, con dispersión intrínseca σ
– Se busca mínimo de la verosimilitud (log-likelihood
=-2LnP, Sección 3 del curso)
!="
i
(x ! x )
i
! i2 + ! 2
2
+ " Ln #$2" (! i2 + ! 2 )%&
i
– Se puede encontrar el error en ‹x› buscando en torno al
mínimo
Medidas del valor central. Ejemplo I
Se toman medidas del número de galaxias en N=1000
zonas diferentes del cielo (fichero datCounts.dat) y
se desea comprobar si la densidad de fuentes es
compatible con ser constante o si hay alguna
dispersión intrínseca
• Primer paso: histograma
(línea negra continua)
– Pico ~100
• Segundo paso: cálculo de
media y medidas dispersión:
– 〈x〉=100.3
– s = 2 2 ( l í n e a a z u l p u n t o s )
> √〈x〉~10 (línea roja trazos)
– s/√1000=0.7
Medidas del valor
central. Ejemplo II
• Tercer paso: asignar barras
de error individuales ~√x
• Cuarto paso: dibujar los
puntos y sus barras de rror:
– Dispersión entre puntos >
barras de error
⇒ Dispersión intrínseca?
• Quinto paso: Ajustamos una
media con dispersión
intrínseca (“+” en diagrama
de contornos)
– Media=99.34
– Dispersión intrínseca=19.77
– Significancia?
– Incertidumbres?
⇒ contornos χ2 (ver Sección 3)
Significado del valor central
y de la dispersión
• Media (moda, mediana): estimación del valor del
parámetro que queremos determinar
• Varianza (desviación promedio, percentiles):
estimación de la incertidumbre de nuestro método
en la determinación de ese parámetro
• Distribución gaussiana: media y varianza
determinan distribución
– Por razones históricas siguen dominando
– Además, momentos mayores no siempre útiles (poco
robustos)
Puntos aislados fuera de la distribución I
•
•
Son mucho más frecuentes en la vida real que en
las distribuciones teóricas
Eliminación con juicio y sentido crítico
– Sólo si se entiende el origen de las discrepancias
•
Técnica: el sigma clipping
1.
2.
3.
4.
Definición de límite ns (n>2-3) ó en probabilidad (95%, 99%...)
Cálculo de 〈x〉, s
Si |xi-〈x〉| >ns rechazamos el punto i
Si se ha rechazado algún punto, se vuelve a 2 (a veces límite en el
número de bucles)
5. Si no se ha rechazado ninguno, muestra limpia
Puntos aislados
fuera de la
distribución II
•
•
Método más robusto usando el rango intercuartil:
IQR≡Q3-Q1
Se definen límites: Lo que quede fuera outlier
–
–
Q1-1.5 IQR
Q3+1.5 IQR
Propagación de errores
• Función A(x,y,...), si se conocen los errores en x (σx), y (σy)...
¿Cuál es el error en A (σA)?
– Si se conoce la distribución estadística de las distintas variables, se
puede calcular
2
2
⎛
⎞
∂
A
∂
A
– Si no es así, y σx ,σy...<<: σ A2 = ⎛⎜ ⎞⎟ σ x2 + ⎜⎜ ⎟⎟ σ y2 + ...
⎝ ∂x ⎠
⎝ ∂y ⎠
• A partir de las propiedades de la distribución gaussiana
• También hay términos de correlaciones cruzadas
– deberían anularse si las medidas de x,y... no están relacionadas
– Lo que siempre hay que comprobar
– Ejemplos:
A = ax + by ⇒ σ A2 = a 2σ x2 + b 2σ y2
(
2
)
A = ax b ⇒ σ A2 = abxb −1 σ x2
A = a bx ⇒ σ A = b ln a a bxσ x
⎛ ∂ 2 A ⎞
⎜⎜
⎟⎟σ xσ y
∂
x
∂
y
⎝
⎠
Barras de error asimétricas
(Barlow arXiv: physics/0306138,0406120)
• Caso típico: µ +σ1 -σ2
– Interpretación? Gaussiana con errores asimétricos no tiene sentido
• Parametrización de la P(x) con alguna función:
– Bien comportada : continua y con colas controlables
– Parámetros del problema:
• Máximo en µ
• =-2lnPmin±1 correspondan con σ1, σ2 (ver parte 3 del curso)
• Equivalentemente
• Dos aproximaciones:
µ +! 1
1
" dx N(0,1) = "
dx P(x)
µ !! 2
!1
– Barlow (2003,2004): distribución de probabilidad asimétrica, mejores resultados
con gaussiana de varianza variable. Implementado en
http://www.slac.stanford.edu/~barlow/java/statistics.html
2
"
%
x!µ
2! 1! 2
! 1! ! 2
! = !2 ln P(x) = $
,
!
=
,
!
'
=
'
! 1+ ! 2
! 1+ ! 2
# ! ! ! '(x ! µ ) &
– Buscar N(µ,σ) simétrica con σ entre σ1 y σ2 que cumpla:
µ +! 1
# (x ! µ )2 &
1
" dx N(0,1) = " dx ! 2" exp %$! 2! 2 ('
!1
µ !! 2
1
Ejercicio 1
• Archivos dat1.dat,dat2.dat,dat3.dat en
http://venus.ifca.unican.es/~carreraf/Estadistica/Ejercicios
• Calcular:
– La moda
– La media y la desviación estándar
– La mediana
– Histograma
• ¿Qué distribuciones son?¿Por qué?
Histogramas I
• Muestran el número de datos en intervalos de una variable bin:
– Útiles para ver la frecuencia relativa de los diversos valores
– Si no son discretos: agrupación en n intervalos Δx
– Para compararlos: normalizarlos a área unidad, mismos intervalos
• A la hora de decidir sobre los intervalos:
–
–
–
–
Demasiados dan lugar a muchas fluctuaciones
Pocos pierden detalle de la distribución
Deben cubrir el rango de los datos, ¡pero no más!
Si discretos deben centrarse los intervalos en los valores
• Reglas sobre n,Δx: no universal, mejor probar
– n=N1/2
– Freedman-Diaconis: Δx=2 IQR/N1/3 , IQR≡Q3-Q1
– Intervalos no uniformes?
Histogramas I
• Muestran el número de datos en intervalos de una variable bin:
– Útiles para ver la frecuencia relativa de los diversos valores
– Si no son discretos: agrupación en n intervalos Δx
– Para compararlos: normalizarlos a área unidad, mismos intervalos
• A la hora de decidir sobre los intervalos:
–
–
–
–
Demasiados dan lugar a muchas fluctuaciones
Pocos pierden detalle de la distribución
Deben cubrir el rango de los datos, ¡pero no más!
Si discretos deben centrarse los intervalos en los valores
• Reglas sobre n,Δx: no universal, mejor probar
– n=N1/2
– Freedman-Diaconis: Δx=2 IQR/N1/3 , IQR≡Q3-Q1
– Intervalos no uniformes?
Histogramas II
• ¿Cómo tratar los datos si tienen barras de error σi?
– Si σi<<Δx: se pueden seguir usando métodos anteriores
– Si no es así:
• Si las barras de error son simétricas y datos ~gaussianos: se define
P(x)=ΣiN(xi, σi)/N : normalizada a la unidad
• Si se conocen las distribuciones individuales Pi(x): se define
P(x)=ΣiPi(x)/N : normalizada a la unidad
• Los valores del histograma en el bin j serían ∫ΔxjdxP(x)