Download Probabilidad y Estadística - Clase 2
Document related concepts
no text concepts found
Transcript
Probabilidad y Estadística - Clase 2 Estadística Descriptiva ¿Quién fue el primero en hacer un promedio? El rey Rituparna, apuntando hacia un árbol, dijo: “Yo sé cuantas hojas tiene ese árbol, sin siquiera contarlas”. I Es uno de los registros más antiguos de estimación. I Su truco era simple: consistía en estimar el número de hojas en una pequeña rama promedio, y multiplicarlo por el número estimado de pequeñas ramas en el árbol. I La historia termina en que luego de una ardua noche de conteo, el número verdadero de hojas se encontraba muy próximo al número dado por el rey. Estadística Descriptiva ¿Por qué funciona? I La idea es que una rama típica del árbol será representativa y dará una buena estimación. I El método funciona porque lo que se cuenta de más algunas veces, es compensado por lo que se cuenta de menos en otras. ¿Cuántos patos hay en la foto? Estadística Descriptiva Imaginarse una grilla Pero ¿cómo elegir un rectángulo típico? I A ojo, digamos que hay 15 patos en un rectángulo típico. Esto nos da una estimación de 225 patos en total. I ¿Hay una manera sistemática de elegir un rectángulo típico? Estadística Descriptiva Hay más de una manera Si nos dicen que el máximo es 34 y el mínimo es 0, podemos tomar Valor típico = Máximo + Mínimo = 17. 2 Así, obtendríamos una estimación de 255 patos. Hacemos la cuenta 25 17 15 6 0 5 27 34 11 6 5 11 21 8 4 Estadística Descriptiva ¿Más valores típicos? I Hay 195 patos. Entonces Valor típico = Suma = 13. 15 Y eso que ningún rectángulo tiene 13 patos. I También podría ser Valor típico = el que más se repite. Hay 3 valores que se repiten dos veces: el 5, el 6 y el 11. I Ordenamos, de menor a mayor los rectángulos: la mitad hacia la izquierda la mitad hacia la derecha z }| { 0455668 z }| { 11 15 17 21 25 27 34 . 11 Valor típico = aquel que divide en dos partes iguales al total. Estadística Descriptiva ¿Con cuál nos quedamos? Depende de la distribución de los datos, y sobre todo, de qué información queremos obtener. Individuos, variables y distribuciones Los individuos son los objetos descritos por un conjunto de datos. Una variable es cualquier característica de un individuo. La distribución de una variable nos dice qué valores toma y con qué frecuencia. Estadística Descriptiva Variables categóricas y cuantitativas Una variable categórica indica a qué grupo o categoría pertenece un individuo. Una variable cuantitativa toma valores numéricos, para los que tiene sentido hacer operaciones numéricas. Ejemplo Nombre Perez, Juan Martínez, Ana Wang, Li .. . Edad 27 43 22 .. . Sexo Hombre Mujer Hombre .. . Raza Blanca Blanca Asiatica .. . Salario 32540 65000 15000 .. . Trabajo Técnico Directivo Cadete .. . Estadística Descriptiva Tenencia de la vivienda en Uruguay ECH2014 A Prop. de la viv. y el terr. y los está pagando. Tenencia de la Vivienda ECH2014 B Prop. de la viv. y el terr. y ya los pagó. Porcentaje 40 C Prop. sólo de la vivienda y la está pagando. 30 D Prop. sólo de la vivienda y ya la pagó. 20 E Inquilino o arrendatario de la vivienda. F Ocupante con relación de dependencia. 10 G Ocupante gratuito. Se lo permite el B.P.S. 0 A B C D E F G H I H Ocupante gratuito. Se lo permite el prop. I Ocupante sin permiso del propietario. A 8,6 % B 46,3 % C 0,5 % D 5,4 % E 17,2 % F 1,5 % G 0,7 % ¿Cuál es la tenencia de la vivienda típica en Uruguay? H 19,2 % I 0,8 % Estadística Descriptiva La Moda Si X es una variable categórica que toma los valores {x1, . . . , xn }, la moda de X es aquel valor que se repite con mayor frecuencia Moda(X ) = xi más frecuente. La moda para variables cuantitativas Si la variable es cuantitativa, debemos agrupar los datos y tomar la moda de los datos agrupados. En este caso, la moda dependerá de cómo agrupemos los datos. Estadística Descriptiva ¿Cuál es el salario típico en Uruguay? 0.03 0.02 0.00 0.01 Frecuencia 0.04 0.05 Ingresos por Sueldo o Jornal liquido, Uruguay ECH2014 0 20 40 60 80 Ingreso (miles de pesos) La moda corresponde al intervalo 10 − 15 mil pesos. 100 Estadística Descriptiva Medidas de Centro Es un número que representa el “centro” de una distribución. I La moda es un ejemplo de medida de centro. I Supongamos que tenemos datos {x1, x2, . . . , xn } de una variable numérica X . I Podemos cuantificar cuán central es un número x para X con d(x) = n X |x − xi | . i=1 I Busquemos el valor de x que minimiza la función d. Estadística Descriptiva Volviendo a los patos 150 200 d 250 300 Grafico de d para el ejemplo de los patos 0 5 10 15 20 25 x El mínimo se alcanza en x = 11. ¡No es casualidad! 30 35 Estadística Descriptiva Buscamos el mínimo de d I El problema es que d no es derivable. I Ordenamos los datos de menor a mayor: I x1∗ ≤ x2∗ ≤ · · · ≤ xn∗ . ∗ , y vale d es lineal en cada segmento xi∗, xi+ 1 d(x) = i X j=1 = n X x − xj∗ + n X xj∗ − x j=i+1 xj∗ − j=i+1 en donde A = 2i − n y B = i X xj∗ + (2i − n)x = B + Ax, j=1 Pn ∗ j=i+1 xj − Pi ∗ j=1 xj son constantes. Estadística Descriptiva Buscamos el mínimo de d I Supongamos primero que n es impar. Entonces A < 0 cuando i ≤ A > 0 cuando i ≥ n−1 2 , n+1 2 . I Por lo que d alcanza su mínimo en el punto x ∗n+1 . I Supongamos ahora que n es par. En este caso 2 A<0 A = 0 A > 0 I cuando i ≤ n2 − 1, cuando i = n2 , cuando i ≥ n2 + 1. f g ∗ , x∗ Luego d alcanza su mínimo en cualquier punto de xn/ . 2 n/2+1 Estadística Descriptiva El mínimo de d según la paridad de n Luego d alcanza su mínimo en x ∗ , cuando n es impar, n+21 f g cualquier punto de x ∗ , x ∗ n/2 n/2+1 , cuando n es par. Estadística Descriptiva La Mediana Sea X una variable cuantitativa que toma los valores {x1, . . . , xn }. La mediana de X es un valor m que deja 50 % de los datos a su izquierda y 50 % a su derecha. Para calcularla aplicamos la siguiente receta: ∗ x n+1 2 m= ∗ ∗ xn/2 +xn/2+1 2 cuando n es impar cuando n es par en donde {x1∗, . . . , xn∗ } es la muestra ordenada de menor a mayor. Estadística Descriptiva La mediana de ingresos en Uruguay 0.05 Ingresos por Sueldo o Jornal liquido, Uruguay ECH2014 0.03 0.02 0.00 0.01 Frecuencia 0.04 Densidad Mediana 0 20 40 60 80 100 Ingreso (miles de pesos) I La mediana es 15 mil pesos. I Esto es, ¡la mitad recibe un ingreso inferior a 15 mil pesos! Estadística Descriptiva Un viejo truco estadístico I Fue un poco engorroso calcular el mínimo de la función d. I En estadística existe un truco para hacer que una función se vuelva derivable. I Consiste en elevar al cuadrado! y lo veremos más de una vez. I Sea X una variable numérica con valores {x1, . . . , xn }. I Consideremos, en lugar de d, la función d2 (x) = n X (x − xi )2 . i=1 I ¿Dónde alcanza d2 su mínimo? x = arg mı́n d2 (x) x ∈R Estadística Descriptiva Buscamos el mínimo de d2 I Como d2 es derivable, podemos derivar e igualar a cero: d20 (x) = 2 n X (x − xi ) = 0. i=1 I Despejando, obtenemos un punto crítico en x = I Como d2 es una función cuadrática, alcanza su mínimo en x. 1 n Pn i=1 xi . La Media o Promedio Sea X una variable numérica con valores {x1, . . . , xn }. La media o promedio de X es n 1X x= xi . n i=1 En palabras, la suma sobre la cantidad total datos. Estadística Descriptiva El promedio de ingresos en Uruguay 0.05 Ingresos por Sueldo o Jornal liquido, Uruguay ECH2014 0.03 0.02 0.00 0.01 Frecuencia 0.04 Densidad Mediana Media 0 20 40 60 80 100 Ingreso (miles de pesos) I El sueldo promedio es de 18 mil pesos. I Los pocos encuestados con ingresos cercanos a $100000 hacen que la media sea mayor a la mediana. Estadística Descriptiva Comparación entre la media y la mediana 0.020 0.010 0.000 Densidad 0.030 Histograma de la poblacion de las ciudades de Uruguay 0 20 40 60 80 100 120 Poblacion en miles de habitantes I En el histograma no está Montevideo. I La media y la mediana de habitantes de las 62 ciudades más pobladas de Uruguay son x = 45892 y M = 16490. Estadística Descriptiva Comparación entre la media y la mediana I Si sacamos a Montevideo, quedan x = 25250 y M = 16240. I La mediana casi no cambió, pero la media es muy diferente. A diferencia de la media, la mediana es robusta. Esto quiere decir que es relativamente insensible a datos atípicos. I La media tiene la ventaja de ser más fácil de manipular matemáticamente. I Cuando las muestras de datos son grandes, la media tiene una distribución bien conocida. Esto lo veremos más adelante. Estadística Descriptiva Otras medidas de centro I Existen infinitas medidas de centro diferentes. I Por ejemplo, podríamos minimizar la función dα (x) = n X |x − xi |α i=1 para cualquier α > 1. I Si α = ∞, el estadístico que se obtiene es el Rango Medio = I máxi xi + mı́ni xi . 2 En el curso usaremos sólo la moda, la mediana y el promedio. Estadística Descriptiva Datos circulares I Objetivo: viaje en bicicleta por la costa uruguaya desde Montevideo a la hermosa ciudad del Chuí. I Problema: ¡el viento en contra! I ¿En qué mes del año nos conviene viajar? I Datos de la estación meteorológica del Aeropuerto de Carrasco: Día Enero Enero Enero Enero Enero Enero .. . Dirección del Viento noreste nornoreste nornoreste norte noroeste sur .. . Grados 45 22.5 22.5 360 315 180 .. . Estadística Descriptiva Vientos de Enero 2014 (Aeropuerto Carrasco) I I El viento promedio es 59,4◦ , entre noreste y estenoreste. La mediana es 69,2◦ , casi estenoreste. Estadística Descriptiva ¿Cómo se hace un promedio en el círculo? I Medidas de ángulos se representan en un círculo unitario. I Si los datos son ángulos A = {α1, . . . , αn }, ponemos pi = (sin(αi ), cos(αi )) . I En el círculo podemos medir la distancia entre dos puntos: d(p1, p2 ) = ángulo en radianes entre p1 y p2 . I Podemos considerar la función d2 (p) = n X d(p, pi )2 . i=1 I Y el promedio es entonces p = arg mı́n d2 (p) p ∈S 1 Estadística Descriptiva Distancia entre puntos del círculo Estadística Descriptiva Estadística Descriptiva Estadística Descriptiva Estadística Descriptiva ¡Conviene ir del Chuí a Montevideo! Estadística Descriptiva Resumiendo... Medidas de centro I La moda es la única medida de centro que podemos usar cuando la variable es categórica. I La mediana es menos sensible a datos atípicos. I La media tiene ventajas teóricas respecto a la mediana. Estadística Descriptiva Medidas de dispersión I Miden la variabilidad de una distribución. I En general, es un número que indica si los diferentes valores de una variable se alejan de la media. La Varianza Sea X una variable cuyos valores son {x1, . . . , xn }. La varianza s 2 de X es n 1 X s2 = (x − x)2, n − 1 i=1 en donde x es la media de X . A veces se indica la variable X con un subíndice: sX2 . Estadística Descriptiva La desviación típica Sea X una cuyos valores son {x1, . . . , xn }. La desviación típica de X es v t n 1 X (x − x)2 . s= n − 1 i=1 Esto es: la raíz cuadrada de la varianza. I ¿Por qué n − 1 y no n? La suma de los desvíos di = xi − x es n X i=1 di = n X xi − x = 0. i=1 Solamente n − 1 de los di2 puede variar libremente. I Cuando se usa n en lugar de n − 1, se escribe σ en lugar de s. Estadística Descriptiva La desviación típica de los ingresos en Uruguay 0.03 0.02 0.00 0.01 Densidad 0.04 Salario liquido en Uruguay 0 20 40 60 80 Salario I La desviación típica es s = 13617 pesos. I El 80 % de los salarios están en el intervalo promedio ± desviación típica 100 Estadística Descriptiva Desviacion tipica grande 0.00 0.0 -6 -4 -2 0 2 4 6 Valor de la variable 0.8 0.6 0.4 0.2 0.0 -6 -4 -2 0 Valor de la variable -6 -4 -2 0 Valor de la variable Desviacion tipica chica Densidad 0.10 Densidad 0.05 0.2 0.1 Densidad 0.3 0.15 0.4 0.20 Desviacion tipica moderada 2 4 6 2 4 6 Estadística Descriptiva ¿Por qué n − 1 y no n? 0.2 0.0 0.1 Densidad 0.3 Histograma de una cierta variable X -2 -1 0 1 2 3 Valores de la variable I Supongamos que disponemos de 30 valores de una variable X . I La varianza de X es s 2 = 1,02. Estadística Descriptiva ¿Por qué n − 1 y no n? I Tomamos todas las muestras posibles de tamaño 5 de X . I Para cada una de esas muestras, calculamos su varianza s 2 . I ¡El promedio es 1,03! I Si usamos σ 2 , el promedio es 0,82. Densidad 0.0 0.1 0.2 0.3 0.4 0.5 0.6 0.7 Histograma de varianzas 0 1 2 Varianza de la muestra 3 4 Estadística Descriptiva Los Cuartiles I El primer cuartil Q1 es la mediana de las observaciones situadas a la izquierda de la mediana global. I El tercer cuartil Q3 es la mediana de las observaciones situadas a la derecha de la mediana global. I El primer cuartil deja el 25 % de los datos a su izquierda y el 75 % a su derecha. I El tercer cuartil deja el 75 % de los datos a su izquierda y el 25 % a su derecha. I En el ejemplo de los patos: 25 % 25 % z }| { 045 5 z }| { 6 6 8 11 11 15 17 21 25 27 34 Estadística Descriptiva Los Cuartiles 0.03 0.02 0.00 0.01 Densidad 0.04 Salario liquido en Uruguay 0 20 40 60 Salario I El primer cuartil es Q1 = 10000 pesos. I El tercer cuartil es Q3 = 24000 pesos. 80 100 Estadística Descriptiva El Rango Intercuartílico. El Rango Intercuartílico es otra medida de dispersión. Sea X una variable cuyos valores son {x1, . . . , xn }. Definimos el rango intercuartílico de X como RIC(X ) = Q3 − Q1 . I En el ejemplo de los ingresos por salario tenemos RIC(Salarios) = 14000 pesos. I Al igual que la mediana, el rango intercuartílico es una medida robusta de la dispersión. Estadística Descriptiva Resumen numérico de los datos Medida de centro Medida de dispersión Robusta Mediana Rango Intercuartílico No Robusta Media Desviación Típica Los cinco números resumen I Un resumen rápido del centro y dispersión de los datos. mı́n Q1 M Q3 máx I Usar x y s sólo para distribuciones razonablemente simétricas que no presenten datos atípicos. I El resumen de los ingresos en Uruguay: mı́n 100 Q1 10000 M 16000 Q3 24000 máx 100000 Estadística Descriptiva Métodos Gráficos Estadística Descriptiva El diagrama de barras Un diagrama de barras representa gráficamente las frecuencias relativas de una variable categórica. 0.15 0.10 0.05 0.00 Frecuencia relativa 0.20 Diagrama de barras de las notas del curso de PyE 2015 1 2 3 4 5 6 Nota 7 8 9 10 Estadística Descriptiva El histograma El histograma es el análogo al diagrama de barras para variables cuantitativas. ¿Cómo hacer un histograma? I Sea X una variable numérica cuyos valores son {x1, . . . , xn }. I El eje horizontal debe recorrer los valores de mı́n xi a máx xi . I Se divide el intervalo [mı́n xi , máx xi ] en k subintervalos iguales. I Si h es la longitud de cada subintervalo, tenemos k= máx x − mı́n x i i . h Estadística Descriptiva ¿Cómo hacer un histograma? I En cada subintervalo I , se grafica una barra cuya altura es altura(I ) = Fr(I ) h (densidad) en donde Fr(I ) = 1 Cuantos xi “caen” en I # {i : xi ∈ I } = . n Total de observaciones I De este modo el área total del histograma es 1. I En la computadora se puede graficar además una curva de densidad que aproxima el histograma. I ¿Como elegir el k? Estadística Descriptiva ¿Cómo elegir el k? 1.0 0.0 0.5 Densidad 1.5 Histograma Poblacion. El k es demasiado grande 20 40 60 80 100 Poblacion en miles de habitantes 0.000 Densidad 0.004 0.008 Histograma Poblacion. El k es demasiado chico 0 50 100 150 Poblacion en miles de habitantes 200 Estadística Descriptiva La regla de Sturges I La regla de Sturges propone elegir k = dlog2 n + 1e. I Se basa en la máquina de Galton. I La máquina tiene k intervalos, si hay k − 1 filas de clavos. I Si se tiran muchas pelotitas, i.e. n es grande, la cantidad de pelotitas en el i-ésimo intervalo es proporcional a k−i 1 . I Supongamos que la constante de proporcionalidad es α. I Observar que n= k X i=0 I α ! k −1 = α2k−1 . i Si α = 1 se obtiene la fórmula. ¿Les parece razonable? Estadística Descriptiva Algunas reglas útiles para elegir k Las siguientes son algunas reglas útiles para determinar la cantidad k de intervalos que se debe utilizar al hacer un histograma. Sea X una variable cuyos valores son {x1, . . . , xn }. Tenemos I la regla de Sturges: k = dlog2 n + 1e. I la regla de Rice: I la regla de Freedman-Diaconis: k = d2n1/3 e. h=2 RIC(X ) . n 1/3 Notar que h es el ancho del intervalo. Estadística Descriptiva Puntajes curso de PyE 2015 0.020 0.000 Densidad Simetría y Asimetría de un histograma 0 20 40 60 80 Puntaje 0.03 0.00 Densidad Edad al morir. Australian Bureau of Statistics, 2012. 0 20 40 60 80 100 Edad al morir 0.04 0.00 Densidad Ingresos en Uruguay. ECH 2014. 0 20 40 60 Salario en miles de pesos 80 100 Estadística Descriptiva Simetría y Asimetría de un histograma I Una distribución es simétrica si los lados derecho e izquierdo (de la mediana) del histograma son aproximadamente iguales. I Una distribución es asimétrica hacia la derecha si el lado derecho del histograma se extiende mucho más lejos que el lado izquierdo. I Una distribución es asimétrica hacia la izquierda si el lado izquierdo del histograma se extiende mucho más lejos que el lado derecho. Coeficiente de Asimetría de una variable Sea X una variable numérica cuyos valores son {x1, . . . , xn }. El coeficiente de asimetría de X es !3 n 1 X xi − x . γ= n i=1 s Estadística Descriptiva Ejemplos I En los puntajes del curso de PyE 2015 tenemos γ = 0,04. I En los ingresos de Uruguay ECH 2014 tenemos γ = 2,02. I En las edades al morir del ABS 2012 tenemos γ = −1,64. La asimetría y la media I Si la distribución es simétrica, la media y la mediana son casi iguales. I Si la distribución es asimétrica hacia la derecha, la media es mayor que la mediana. I Si la distribución es asimétrica hacia la izquierda, la media es menor que la mediana. Estadística Descriptiva Distribuciones bi-modales 0.04 0.02 0.00 Densidad 0.06 Histograma de altura de hombres y mujeres 150 160 170 180 Altura I Si el histograma presenta dos picos, decimos que la distribución es bi-modal. I En este caso, ni la media ni la mediana son representativas. Es mejor usar las dos modas como resumen numérico. I Estadística Descriptiva Transformando los datos I Supongamos que queremos medir la superficie de un terreno cuadrado. I Hacemos varias mediciones del lado X del cuadrado, y obtenemos X² {x1, . . . , xn } I Una buena estimación es la media x. I La superficie del terreno es X 2 . X ¿Cuál es una mejor estimación para la superficie? I Promediar primero y elevar al cuadrado después, i.e. x 2 . I Elevar al cuadrado primero y promediar después, i.e. x 2 . Estadística Descriptiva Calculemos el error I Supongamos que el lado mide µ (desconocido para nosotros). I La superficie es entonces µ2 . Cada medición es de la forma xi = µ+ i , con i el error de la i-ésima medición. Como los errores tienden a compensarse, tenemos = 0. I Método 1: como x = µ + = µ, tenemos x 2 = µ2 . I Método 2: como xi2 = µ2 + 2 i + 2i tenemos x 2 = µ2 + 2 . I Pero 2 > 0, así que es mejor el Método 1. Estadística Descriptiva Error vs. Error2 0.3 0.0 Densidad Histograma del error -3 -2 -1 0 1 2 3 Error en metros (e) 0.0 1.0 Densidad Histograma del error al cuadrado 0 1 2 3 Error^2 en metros cuadrados (e^2) 4 5 Estadística Descriptiva Histograma acumulado I Se divide el intervalo [mı́n xi , máx xi ] en k subintervalos iguales. I Denotemos por I1, . . . , Ik dichos subintervalos. En cada subintervalo Ij , se grafica una barra cuya altura es I altura(Ij ) = FrAc(Ij ) en donde 1 # i : xi ∈ I1 ∪ · · · ∪ Ij n Cuantos xi “caen” en I1 ∪ · · · ∪ Ij . = Total de observaciones FrAc(Ij ) = I De este modo, las alturas de las barras crecen desde 0 hasta 1. Estadística Descriptiva Histograma acumulado y cuartiles 0.8 0.6 0.4 0.2 0.0 Frecuencia acumulada 1.0 Histograma acumulado PyE 2015 0 20 40 Puntaje 60 80 Estadística Descriptiva Diagrama de caja (Box Plot) Un Diagrama de caja es un gráfico que resume de forma visual las características principales de la distribución de un conjunto de datos. John Tukey (1915-2000) Está compuesto por un rectángulo (caja) y dos brazos (bigotes): I Los límites del rectángulo son los cuartiles Q1 y Q3 . I En el interior del rectángulo se indica la mediana M. I Se calculan los límites inferior y superior Li = Q1 − 1,5 · RIC y Ls = Q3 + 1,5 · RIC I El brazo inferior y superior terminan en mı́n xi y máx xi xi ≥Li xi ≤Ls Estadística Descriptiva Diagrama de caja (Box Plot) Atípico max(x)|x ≤ Ls Ls = Q3 + RIC·1.5 Q3 (75%) Mediana (50%) RIC = Q3 - Q1 (50% de datos) Q1 (25%) Li = Q1 - RIC·1.5 min(x)|x ≥ Li Estadística Descriptiva Datos atípicos (outliers) Los datos atípicos son aquellos que caen fuera del intervalo [Li , Ls ] 100 120 80 60 40 20 0 Poblacion en miles de habitantes Poblacion de ciudades en Uruguay Estadística Descriptiva Comparación de ingresos ECH 2014 50 40 30 10 0 20 40 30 10 20 Artigas 0 Salario en miles de pesos 50 Montevideo Estadística Descriptiva Resumiendo... Para resumir las principales características de una distribución: Representar gráficamente los datos. Diagrama de barras, histograma, boxplot. Interpretar. Forma, centro, dispersión. Asimetrías. Observaciones atípicas. Resumen numérico. Moda, Mediana, Media. Cuartiles, desviación típica, rango intercuartílico.