Download Estadística Parte 1
Document related concepts
Transcript
Estadística Parte 1 Francisco J. Carrera Troyano Instituto de Física de Cantabria Consejo Superior de Investigaciones Científicas y Universidad de Cantabria Octubre 2014 Estadística • There are lies, damned lies, and statistics Benjamin Disraeli • If you need statistics, you ought to have done a better experiment Ernest Rutherford • Diálogo entre P. Scheuer y un estudiante: – How are the data? – We did a Kolmogorov-Smirnov test... – Ah! That bad. Estadística • La estadística es una herramienta habitual en muchas disciplinas científicas • Puede ayudar a: – Cuantificar nuestras impresiones subjetivas sobre los datos experimentales – Extraer información de los datos, cuantificando la incertidumbre con un grado determinado de confianza – Especialmente importante cuando las circunstancias no permiten hacer un experimento mejor – ... • Pero no puede sustituir al sentido común y al sentido crítico • Nunca se puede probar que una teoría es cierta, sólo que es falsa, con un determinado grado de confianza Índice 1. Incertidumbres y errores – Incertidumbres en las medidas • – Errores en la medida: sistemáticos y estadísticos. Incertidumbres. Distribuciones original y de la muestra. Momentos de una distribución. Medidas del valor central. Medidas de la dispersión. Puntos aislados. Análisis de errores • Propagación de errores. Barras de error asimétricas. 2. Contrastes de hipótesis paramétricos y no paramétricos – Comparación de dos distribuciones • • • – Comparación de las medias. Comparación de las varianzas. Test χ2. Test de Kolmogorov-Smirnov. Comparación de distribuciones bidimensionales Análisis de varianza: ANOVA Correlación lineal. Test no-paramétricos. Correlaciones parciales. Variables con límites superiores e inferiores Significancia de una detección • Cociente señal-ruido. 3. Modelado estadístico de datos – Métodos de máxima verosimilitud • • Modelos frente a datos. Verosimilitud. χ2: Introducción, Estimación de parámetros. Bondad del ajuste. Incertidumbre en los parámetros. Regresión lineal. Verosimilitud en régimen Poissoniano Bibliografía • "Data reduction and error analysis for the physical sciences" Bevington & Robinson, 1992, McGraw-Hill • "Numerical Recipes" Press et al., 1994, CUP • “Estadística básica para estudiantes de Ciencias” J. Gorgas, N. Cardiel, J. Zamorano, 2009, http://pendientedemigracion.ucm.es/info/Astrof/users/jaz/estadistica.html! • "Probability and statistics in engineering and management science" Hines & Montgomery, 1990, J. Wiley & Sons (tb. version en castellano) • "Practical Statistics for Astronomers" Wall & Jenkins, 2003, CUP • “Modern statistical methods for Astronomy” Feigelson & Babu, 2012, CUP • Astronomy Methods H. Bradt, 2004, CUP Incertidumbres en las medidas (Bevington & Robinson 92) • Errores de medida: – Error: diferencia entre el valor observado (o calculado) y el valor verdadero • Problema: no sabemos el valor verdadero: necesitamos acotarlo a partir de los datos obtenidos • Dos conceptos importantes: – Exactitud: cercanía entre el resultado de un experimento y el valor verdadero – Precisión: bondad en la determinación del resultado, reproducibilidad. Sin referencia al valor verdadero • Generalmente: incertidumbre ~ precisión Incertidumbres en las medidas (Bevington & Robinson 92) • Errores de medida: – Error: diferencia entre el valor observado (oImpreciso calculado) y el valor Preciso verdadero Inexacto Exacto • Problema: no sabemos el valor verdadero: necesitamos acotarlo a partir de los datos obtenidos • Dos conceptos importantes: – Exactitud: cercanía entre el resultado de un experimento y el valor verdadero – Precisión: bondad en la determinación del resultado, reproducibilidad. Sin referencia al valor verdadero • Generalmente: incertidumbre ~ precisión Errores sistemáticos • Inexactitud reproducible introducida por fallos del equipo, de su calibración, o de la técnica utilizada – Afectan a la exactitud – Difíciles de detectar y de estudiar de manera estadística • Se evitan/detectan: – Diseñando el experimento con cuidado – Cuidando las condiciones en las que se realiza el experimento – Midiendo las mismas cantidades con métodos distintos Errores estadísticos • Indefinición del resultado introducida por la precisión finita de la medida. Medida de la fluctuación al repetir el experimento – Afectan a la precisión – Debidos a fluctuaciones en las observaciones que producen resultados distintos en experimentos distintos – Requieren observaciones repetidas para mejorar su precisión • Dos tipos: – Instrumentales: imperfecciones en el equipo, o en la lectura. • Se evitan con mejoras en la precisión y fiabilidad de los instrumentos – Fluctuaciones estadísticas: inevitables, debidas a la propia naturaleza física de la medida • Se pueden reducir con más medidas, pero no indefinidamente Incertidumbres • Magnitud del error que se estima que se ha cometido en la determinación de los resultados – Nivel de confianza de que otra medida caerá dentro de un intervalo con determinada probabilidad (Ej. 1σ, 68.3%, 99%...) • Dos tipos: – Fluctuaciones en las medidas – Descripción teórica (Ej. Medida tamaño mesa elíptica) • Nos interesa estimar los errores inherentes en el experimento, lo que haremos a partir de las incertidumbres en las medidas • También nos interesa averiguar si el modelo que estamos aplicando es el que mejor caracteriza el sistema (Secciones 2 y 3 del curso) Distribuciones original y de la muestra • Si medimos una cantidad x obtenemos {xi} • Si hiciéramos infinitas medidas de la distribución de los {xi}, seguiría la distribución teórica de los valores esperados de {xi} (gaussiana, poissoniana...) • En casos reales: – Distribución original≡esperada – Distribución de la muestra≡{xi} • Cuantas más medidas se efectúen más se parecerán, pero no serán idénticas: (parámetro original) = limN→∞(parámetro experimental) Distribuciones original y de la muestra Original Número de medidas Muestra • Si medimos una cantidad x obtenemos {xi} Modelo • Si hiciéramos infinitas medidas de la distribución de los {xi}, muestra seguiría la distribución teórica de los valores esperados de {xi} (gaussiana, poissoniana...) • En casos reales: – Distribución original≡esperada – Distribución de la muestra≡{xi} • Cuantas más medidas se efectúen más se parecerán, pero no serán idénticas: (parámetro original) = limN→∞(parámetro experimental) Caracterizando una muestra • Idealmente queremos conocer la distribución completa • No siempre es posible/deseable, así que intentamos “resumirla” en unos pocos parámetros: " k - Momentos de una distribución mk (a) = dx P(x)(x ! a) !" • Cualitativamente: 1. Valor central 2. Dispersión 3. Asimetría (sesgo, “skewness”) 4. Curtosis • Normalmente se usan sólo los dos primeros: - Razones históricas (Poissoniana -1-, gaussiana -1,2-...) - Más robustas - Suelen ser las más útiles # Caracterizando una muestra • Idealmente queremos conocer la distribución completa • No siempre es posible/deseable, así que intentamos “resumirla” en unos pocos parámetros: – Momentos de una distribución • Cualitativamente: 1. Valor central 2. Dispersión 3. Asimetría (sesgo, “skewness”) 4. Curtosis • Normalmente se usan sólo las dos primeras: - Razones históricas (Poissoniana -1-, gaussiana -1,2-...) - Más robustas - Suelen ser las más útiles Medidas del valor central • Tienen sentido si la distribución de valores tiende a agruparse en torno a un valor particular 1 • Media, centroide o valor promedio: x = N N ∑x i de la muestra i =1 ⎛ 1 N ⎞ µ = lim ⎜ ∑ xi ⎟ original N →∞ N ⎝ i =1 ⎠ – Si P(x) simétrica en torno a x0: µ=x0 – El error estándar en la media: σ/√N , N nº puntos – En general: ∞ f = ∫ dxP( x) f ( x) −∞ ∞ x = ∫ dxP( x ) x −∞ Medidas del valor central • Mediana µ1/2 P( x ≥ µ1/ 2 ) = P( x < µ1/ 2 ) = 1 / 2 • Tantos valores por encima como por debajo – Si N impar: µ1/2~xint(N/2)+1 – Si N par: µ1/2~(xN/2+xN/2+1)/2 • Menos sensible a puntos aislados muy fuera de la distribución • Si P(x) simétrica respecto µ ⇒ media=mediana • La media falla como estimador si las colas son largas, mientras que la mediana falla sólo si el área bajo las colas es grande Medidas del valor central • Moda: Valor más probable µmax: P(µmax)≥P(x≠µmax) – El más probable de ser observado – Pico de la distribución • Puede haber más de uno: en este caso µ, µ1/2 no muy útiles • Si sólo hay uno y la distribución es simétrica: µ=µmax=µ1/2 – Distribución asimétrica: generalmente µmax<µ1/2<µ ó µmax>µ1/2>µ • ¿Cuál usar? – Depende de lo que se quiera y de la forma de la distribución – Importante hacer histograma Medidas del valor central • Moda: Valor más probable µmax: P(µmax)≥P(x≠µmax) – El más probable de ser observado – Pico de la distribución • Puede haber más de uno: en este caso µ, µ1/2 no muy útiles • Si sólo hay uno y la distribución es simétrica: µ=µmax=µ1/2 – Distribución asimétrica: generalmente µmax<µ1/2<µ ó µmax>µ1/2>µ • ¿Cuál usar? – Depende de lo que se quiera y de la forma de la distribución – Importante hacer histograma Medidas de la dispersión • Desviaciones: di = xi − x lim d = 0 N →∞ • Desviación promedio: ADev ó α promedio valores absolutos de las desviaciones 1 ⎡ 1 ⎤ α = lim ⎢ ∑ xi − x ⎥ ADev = xi − x N →∞ N ⎣ ⎦ N ∑ – Valor absoluto complica tratamiento analítico – A veces se usa mediana en lugar de media, esto minimiza ADev – No muy usada, pero útil en el caso de distribuciones con muchos puntos aislados fuera de la distribución Medidas de la dispersión • Varianza: ⎡ 1 2 ⎤ ⎛ 1 ⎞ σ 2 = (x − µ )2 = lim ⎢ ∑ (x − x ) ⎥ = lim ⎜ ∑ xi2 ⎟ − µ 2 N →∞ N ⎣ ⎦ N →∞⎝ N ⎠ – Desviación estándar: σ = Varianza > α ∞ 2 σ = ∫ dxP( x)( x − µ ) 2 −∞ – Varianza de la muestra: s2 = 1 2 ( ) x − x ∑ i N −1 • Se usa N-1 en lugar de N porque para calcular s se utiliza la media, que se obtiene con la propia distribución – Hay distribuciones de probabilidad para las que σ no existe: • Si P(x) cae como 1/x2 o más despacio esta expresión →∞ – Por ejemplo la lorentziana P( x; µ , Γ) = – α es un parámetro más robusto 1 Γ/2 π ( x − µ ) 2 − (Γ / 2) 2 Otras medidas de la dispersión • Cuando hay muchos puntos: percentiles – Valores de {xi} que engloban una fracción determinada de las observaciones: • Cuartiles: Q1 (25%), Q2 (50%≡µ1/2), Q3 (75%) – Relacionados con la mediana – Útiles cuando la distribución no sigue una forma clara (modelo teórico desconocido) o cuando hay muchos puntos aislados – Por ejemplo: en unas simulaciones para ver si una función es una buena aproximación: se usa un estadístico (función de los datos) y se mira qué porcentaje de las simulaciones producen un valor del estadístico que cae por debajo del valor observado Medidas del valor central • Media ponderada: cuando se combinan datos {xi} con errores individuales {σi} xi x = ∑σ i 2 i 1 ∑σ j 2 j σ 2 x 1 = 1 ∑σ i 2 i – Relacionada con χ2 (gaussiana): equivale a ajuste a constante – No tiene en cuenta la dispersión en los valores Medidas del valor central • Media ponderada teniendo en cuenta la dispersión en los valores: cuando se combinan datos con errores y dispersión intrínseca – Supone distribución gaussiana de los valores respecto de <x>, con dispersión intrínseca σ – Se busca mínimo de la verosimilitud (log-likelihood =-2LnP, Sección 3 del curso) !=" i (x ! x ) i ! i2 + ! 2 2 + " Ln #$2" (! i2 + ! 2 )%& i – Se puede encontrar el error en ‹x› buscando en torno al mínimo Medidas del valor central. Ejemplo I Se toman medidas del número de galaxias en N=1000 zonas diferentes del cielo (fichero datCounts.dat) y se desea comprobar si la densidad de fuentes es compatible con ser constante o si hay alguna dispersión intrínseca • Primer paso: histograma (línea negra continua) – Pico ~100 • Segundo paso: cálculo de media y medidas dispersión: – 〈x〉=100.3 – s = 2 2 ( l í n e a a z u l p u n t o s ) > √〈x〉~10 (línea roja trazos) – s/√1000=0.7 Medidas del valor central. Ejemplo II • Tercer paso: asignar barras de error individuales ~√x • Cuarto paso: dibujar los puntos y sus barras de rror: – Dispersión entre puntos > barras de error ⇒ Dispersión intrínseca? • Quinto paso: Ajustamos una media con dispersión intrínseca (“+” en diagrama de contornos) – Media=99.34 – Dispersión intrínseca=19.77 – Significancia? – Incertidumbres? ⇒ contornos χ2 (ver Sección 3) Significado del valor central y de la dispersión • Media (moda, mediana): estimación del valor del parámetro que queremos determinar • Varianza (desviación promedio, percentiles): estimación de la incertidumbre de nuestro método en la determinación de ese parámetro • Distribución gaussiana: media y varianza determinan distribución – Por razones históricas siguen dominando – Además, momentos mayores no siempre útiles (poco robustos) Puntos aislados fuera de la distribución I • • Son mucho más frecuentes en la vida real que en las distribuciones teóricas Eliminación con juicio y sentido crítico – Sólo si se entiende el origen de las discrepancias • Técnica: el sigma clipping 1. 2. 3. 4. Definición de límite ns (n>2-3) ó en probabilidad (95%, 99%...) Cálculo de 〈x〉, s Si |xi-〈x〉| >ns rechazamos el punto i Si se ha rechazado algún punto, se vuelve a 2 (a veces límite en el número de bucles) 5. Si no se ha rechazado ninguno, muestra limpia Puntos aislados fuera de la distribución II • • Método más robusto usando el rango intercuartil: IQR≡Q3-Q1 Se definen límites: Lo que quede fuera outlier – – Q1-1.5 IQR Q3+1.5 IQR Propagación de errores • Función A(x,y,...), si se conocen los errores en x (σx), y (σy)... ¿Cuál es el error en A (σA)? – Si se conoce la distribución estadística de las distintas variables, se puede calcular 2 2 ⎛ ⎞ ∂ A ∂ A – Si no es así, y σx ,σy...<<: σ A2 = ⎛⎜ ⎞⎟ σ x2 + ⎜⎜ ⎟⎟ σ y2 + ... ⎝ ∂x ⎠ ⎝ ∂y ⎠ • A partir de las propiedades de la distribución gaussiana • También hay términos de correlaciones cruzadas – deberían anularse si las medidas de x,y... no están relacionadas – Lo que siempre hay que comprobar – Ejemplos: A = ax + by ⇒ σ A2 = a 2σ x2 + b 2σ y2 ( 2 ) A = ax b ⇒ σ A2 = abxb −1 σ x2 A = a bx ⇒ σ A = b ln a a bxσ x ⎛ ∂ 2 A ⎞ ⎜⎜ ⎟⎟σ xσ y ∂ x ∂ y ⎝ ⎠ Barras de error asimétricas (Barlow arXiv: physics/0306138,0406120) • Caso típico: µ +σ1 -σ2 – Interpretación? Gaussiana con errores asimétricos no tiene sentido • Parametrización de la P(x) con alguna función: – Bien comportada : continua y con colas controlables – Parámetros del problema: • Máximo en µ • =-2lnPmin±1 correspondan con σ1, σ2 (ver parte 3 del curso) • Equivalentemente • Dos aproximaciones: µ +! 1 1 " dx N(0,1) = " dx P(x) µ !! 2 !1 – Barlow (2003,2004): distribución de probabilidad asimétrica, mejores resultados con gaussiana de varianza variable. Implementado en http://www.slac.stanford.edu/~barlow/java/statistics.html 2 " % x!µ 2! 1! 2 ! 1! ! 2 ! = !2 ln P(x) = $ , ! = , ! ' = ' ! 1+ ! 2 ! 1+ ! 2 # ! ! ! '(x ! µ ) & – Buscar N(µ,σ) simétrica con σ entre σ1 y σ2 que cumpla: µ +! 1 # (x ! µ )2 & 1 " dx N(0,1) = " dx ! 2" exp %$! 2! 2 (' !1 µ !! 2 1 Ejercicio 1 • Archivos dat1.dat,dat2.dat,dat3.dat en http://venus.ifca.unican.es/~carreraf/Estadistica/Ejercicios • Calcular: – La moda – La media y la desviación estándar – La mediana – Histograma • ¿Qué distribuciones son?¿Por qué? Histogramas I • Muestran el número de datos en intervalos de una variable bin: – Útiles para ver la frecuencia relativa de los diversos valores – Si no son discretos: agrupación en n intervalos Δx – Para compararlos: normalizarlos a área unidad, mismos intervalos • A la hora de decidir sobre los intervalos: – – – – Demasiados dan lugar a muchas fluctuaciones Pocos pierden detalle de la distribución Deben cubrir el rango de los datos, ¡pero no más! Si discretos deben centrarse los intervalos en los valores • Reglas sobre n,Δx: no universal, mejor probar – n=N1/2 – Freedman-Diaconis: Δx=2 IQR/N1/3 , IQR≡Q3-Q1 – Intervalos no uniformes? Histogramas I • Muestran el número de datos en intervalos de una variable bin: – Útiles para ver la frecuencia relativa de los diversos valores – Si no son discretos: agrupación en n intervalos Δx – Para compararlos: normalizarlos a área unidad, mismos intervalos • A la hora de decidir sobre los intervalos: – – – – Demasiados dan lugar a muchas fluctuaciones Pocos pierden detalle de la distribución Deben cubrir el rango de los datos, ¡pero no más! Si discretos deben centrarse los intervalos en los valores • Reglas sobre n,Δx: no universal, mejor probar – n=N1/2 – Freedman-Diaconis: Δx=2 IQR/N1/3 , IQR≡Q3-Q1 – Intervalos no uniformes? Histogramas II • ¿Cómo tratar los datos si tienen barras de error σi? – Si σi<<Δx: se pueden seguir usando métodos anteriores – Si no es así: • Si las barras de error son simétricas y datos ~gaussianos: se define P(x)=ΣiN(xi, σi)/N : normalizada a la unidad • Si se conocen las distribuciones individuales Pi(x): se define P(x)=ΣiPi(x)/N : normalizada a la unidad • Los valores del histograma en el bin j serían ∫ΔxjdxP(x)