Download Descripción de una variable
Document related concepts
Transcript
Descripción breve del tema Descripción de una variable 1. 2. 3. 4. Tema 1 5. Definiciones fundamentales Tabla de frecuencias Datos agrupados Medidas de posición Medidas de dispersión 6. Depto. Estadística, Universidad Carlos III 1 Objetivos Asimetría, curtosis Ignacio Cascos Depto. Estadística, Universidad Carlos III 2 Descripción breve del tema 1. 2. 3. 4. Reconocer el papel de la Estadística en la resolución de problemas. Conocer los términos básicos que se utilizan en Estadística. Interpretar las representaciones gráficas asociadas a un conjunto de datos. Conocer los estadísticos básicos que se utilizan para describir una muestra. Ignacio Cascos Diagrama de barras, histograma, diagrama de cajas… Medidas de forma Ignacio Cascos Varianza, desviación típica, rango Representaciones gráficas 7. Medidas de tendencia central: media, mediana, moda Cuantiles Depto. Estadística, Universidad Carlos III Definiciones fundamentales Tabla de frecuencias Datos agrupados Medidas de posición 5. Medidas de dispersión 6. Diagrama de barras, histograma, diagrama de cajas… Medidas de forma 3 Varianza, desviación típica, rango Representaciones gráficas 7. Medidas de tendencia central: media, mediana, moda Cuantiles Ignacio Cascos Asimetría, curtosis Depto. Estadística, Universidad Carlos III 4 Definiciones fundamentales Población: conjunto de elementos de los que se estudia una característica. Tamaño de la población es su número de elementos (N, puede ser infinito). ☺☺☺ ☺☺☺☺☺☺ ☺☺☺☺☺ ☺☺☺☺☺☺ ☺☺☺☺ ☺☺ ☺☺ ☺☺ ☺☺ ☺ ☺☺ ☺☺☺☺☺ ☺☺☺☺ ☺☺ ☺☺☺ ☺☺ ☺☺☺ ☺ ☺ Variable: característica a estudiar en los individuos de la población (X ó Y). Dato: valor, numérico o no, que toma la variable sobre un individuo concreto de la muestra, (x ó y). N = 50 Muestra: conjunto (representativo) de elementos de la población. Tamaño de la muestra es su número de elementos (n). ☺☺ ☺☺☺☺ ☺☺☺☺ ☺☺☺☺ ☺☺☺ Definiciones fundamentales n = 11 Individuo: cada elemento de la población. ☺ Ignacio Cascos Depto. Estadística, Universidad Carlos III 5 Tipos de variables 1. 2. 3. 4. Discreta: el conjunto de valores que puede tomar es finito o numerable. Número de hijos. Continua: puede tomar una cantidad infinita no numerable de valores. 5. Duración de una batería. Depto. Estadística, Universidad Carlos III Diagrama de barras, histograma, diagrama de cajas… Medidas de forma 7 Varianza, desviación típica, rango Representaciones gráficas 7. Medidas de tendencia central: media, mediana, moda Cuantiles Medidas de dispersión Cualitativa: los valores que toma se corresponden con cualidades no cuantificables Ignacio Cascos 6 Definiciones fundamentales Tabla de frecuencias Datos agrupados Medidas de posición 6. Depto. Estadística, Universidad Carlos III Descripción breve del tema Cuantitativa: toma valores numéricos Ignacio Cascos Ignacio Cascos Asimetría, curtosis Depto. Estadística, Universidad Carlos III 8 Tabla de frecuencias Tabla de frecuencias Tenemos k valores distintos en la muestra x1,…, xk Frecuencia absoluta de un valor xi número de veces que aparece xi en la muestra, ni Frecuencia relativa de un valor xi cociente de frecuencia absoluta entre tamaño, fi= ni /n Altura de los alumnos de una clase (en cm). Se ha cogido una muestra de tamaño n = 12, obteniendo los siguientes datos: Si tenemos variables cuantitativas, ordenamos x1<…< xk Frecuencia absoluta acumulada del valor i-ésimo suma de las frecuencias absolutas hasta la de xi, Ni=n1+…+ni Frecuencia relativa acumulada del valor i-ésimo frecuencia absoluta acumulada entre tamaño, Fi= Ni /n Ignacio Cascos Depto. Estadística, Universidad Carlos III 174, 180, 187, 174, 179, 172, 180, 180, 176, 180, 160, 160 9 Descripción breve del tema 1. 2. 3. 4. 5. 7. Medidas de tendencia central: media, mediana, moda Cuantiles Varianza, desviación típica, rango Ignacio Cascos 160 2 0.17 2 0.17 172 1 0.08 3 0.25 174 2 0.17 5 0.42 176 1 0.08 6 179 1 0.08 7 0.58 180 4 0.33 11 0.92 187 1 0.08 12 0.5 1 Depto. Estadística, Universidad Carlos III 10 Muestra grande y difícil de manejar Variable continua y no se repite ningún valor El número de clases suele tomarse entre 5 y 20, generalmente entero más próximo a n1/2 . Asimetría, curtosis Depto. Estadística, Universidad Carlos III Fi Marca de clase: punto medio del intervalo. Diagrama de barras, histograma, diagrama de cajas… Medidas de forma Ni Clase: cada intervalo en que se agrupan los datos, pueden ser del mismo tamaño o no. Representaciones gráficas fi A veces es necesario agrupar los datos de una variable cuantitativa. Medidas de dispersión 6. ni Datos agrupados Definiciones fundamentales Tabla de frecuencias Datos agrupados Medidas de posición Ignacio Cascos xi 11 Ignacio Cascos Depto. Estadística, Universidad Carlos III 12 Tabla de frecuencias (agrupados) Ci ni Altura de los alumnos de los N = 48 alumnos de la clase de la tabla anterior. fi Ni Descripción breve del tema Fi [155.71 , 161.43) 3 0.0625 3 0.0625 [161.43 , 167.14) 3 0.0625 6 0.125 1. 2. 3. 4. [167.14 , 172.86) 15 0.3125 21 0.4375 [172.86 , 178.57) 0.1458 28 0.5833 5. 0.2917 42 0.875 6. 0.125 48 1 7 [178.57 , 184.29) 14 Definiciones fundamentales Tabla de frecuencias Datos agrupados Medidas de posición Medidas de dispersión 6 7. Depto. Estadística, Universidad Carlos III 13 Medidas de tendencia central Ignacio Cascos Asimetría, curtosis Depto. Estadística, Universidad Carlos III 14 Medidas de tendencia central Valores típicos o representativos que pretenden resumir los datos en un solo valor. Diagrama de barras, histograma, diagrama de cajas… Medidas de forma Ignacio Cascos Varianza, desviación típica, rango Representaciones gráficas [184.29 , 190) Medidas de tendencia central: media, mediana, moda Cuantiles Mediana: al menos la mitad de los datos son mayores o iguales que ella y al menos la mitad son menores o iguales. No es sensible a valores extremos (es robusta). Moda: es el valor con mayor frecuencia (no tiene por qué se único) Media: es la media aritmética de los datos (su centro de gravedad). k x = ∑ f i xi i =1 Es sensible a valores extremos y particularmente útil cuando los datos son simétricos respecto a ella. Ignacio Cascos Depto. Estadística, Universidad Carlos III 15 Ignacio Cascos Depto. Estadística, Universidad Carlos III 16 Medidas de tendencia central x = 175.17 Me = 177.5 Moda = 180 174, 180, 187, 174, 179, 172, 180, 180, 176, 180, 160, 160 Ignacio Cascos xi 160 172 174 176 179 180 187 ni 2 1 2 1 1 4 1 fi 0.17 0.08 0.17 0.08 0.08 0.33 0.08 Depto. Estadística, Universidad Carlos III Cuantiles Ni 2 3 5 6 7 11 12 Fi 0.17 0.25 0.42 0.5 0.58 0.92 1 17 Son medidas de posición no central. Cuartiles: dividen a la muestra en 4 partes iguales (Q1, Q2, Q3). Percentiles: dividen a la muestra en 100 partes iguales (P25 = Q1). Deciles: dividen a la muestra en 10 partes iguales. Ignacio Cascos Depto. Estadística, Universidad Carlos III Cuantiles Descripción breve del tema Dada la muestra de alturas de alumnos Primer cuartil = 173.5 Segundo cuartil (mediana) = 177.5 Tercer cuartil = 180 1. 2. 3. 4. Definiciones fundamentales Tabla de frecuencias Datos agrupados Medidas de posición 5. Valores extremos: 160 y 187 Depto. Estadística, Universidad Carlos III 19 Diagrama de barras, histograma, diagrama de cajas… Medidas de forma Ignacio Cascos Varianza, desviación típica, rango Representaciones gráficas 7. Medidas de tendencia central: media, mediana, moda Cuantiles Medidas de dispersión 6. 18 Ignacio Cascos Asimetría, curtosis Depto. Estadística, Universidad Carlos III 20 Medidas de dispersión Cuantifican la dispersión de los datos de la muestra. Varianza: promedio de las desviaciones cuadráticas a la media k ( s 2 = ∑ f i xi − x i =1 Medidas de dispersión ) 2 k ; () s 2 = ∑ f i xi − x i =1 2 Aplicación de la desviación típica (y media): Al menos el 100(1−1/k2)% de los datos están en el intervalo (x − ks, x + ks ) 2 Ejemplo: Anotación de Pau Gasol en los 51 partidos que jugó en la temporada 2006/2007. 4; 10; 10; 10; 11; 11; 12; 12; 13; 13; 15; 15; 16; 16; 16; 16; 17; 17; 19; 19; 20; 21; 21; 21; 21; 22; 22; 22; 23; 23; 23; 23; 23; 23; Desviación típica: raíz cuadrada de la varianza 24; 24; 24; 24; 25; 25; 25; 27; 28; 28; 29; 29; 30; 30; 31; 31; 34. Anotación media = 20.55 ; Desv. Típica anotación = 6.64 Ignacio Cascos Depto. Estadística, Universidad Carlos III 21 Medidas de dispersión Ignacio Cascos Depto. Estadística, Universidad Carlos III Medidas de dispersión Rango: Distancia entre observaciones extremas, xk – x1 Partimos de los datos: 174, 180, 187, 174, 179, Rango intercuartílico: Distancia entre el tercer y el primer cuartil, RI = Q3 – Q1 172, 180, 180, 176, 180, 160, 160 Coeficiente de variación: CV = s / x MEDA = Mediana|X-Mediana(X)| Ignacio Cascos Depto. Estadística, Universidad Carlos III 22 23 Varianza = 60.14 Desv. Típica = 7.75 Rango = 27 Rango intercuartílico = 6.5 Coeficiente de variación = 4.43% MEDA = 3 Ignacio Cascos Depto. Estadística, Universidad Carlos III 24 Medidas de posición y dispersión Descripción breve del tema para los N = 48 individuos obtenemos Media = 174.65 Varianza = 58.40 Mediana = 174 Desv. típica = 7.64 Moda = 180 Rango = 27 1. 2. 3. 4. Definiciones fundamentales Tabla de frecuencias Datos agrupados Medidas de posición 5. Medidas de dispersión Primer cuartil = 169.5 RI = 10.5 CV = 4.38% 6. 7. 25 Diagrama de barras, histograma, diagrama de cajas… Medidas de forma Depto. Estadística, Universidad Carlos III Varianza, desviación típica, rango Representaciones gráficas Tercer cuartil = 180 Ignacio Cascos Medidas de tendencia central: media, mediana, moda Cuantiles Ignacio Cascos Asimetría, curtosis Depto. Estadística, Universidad Carlos III 26 Diagrama de barras Diagrama de sectores Cada barra tiene como longitud la frecuencia de la variable que representa. Se utiliza con variables cualitativas o cuantitativas discretas. Cada sector del círculo tiene un área proporcional al valor que representa. Se utiliza con variables cualitativas o cuant. discretas con pocos valores. Diagrama de barras para el Congreso de los Diputados Diagrama de sectores para el Congreso de los Diputados Barchart for Congreso Piechart for Congreso PSOE PP CiU ERC Grupos Parlamentarios PSOE PP CiU ERC EAJ-PNV IU-ICV CC Grupo Mixto EAJ-PNV IU-ICV CC Grupo Mixto 0 30 60 90 120 150 180 frequency Ignacio Cascos Depto. Estadística, Universidad Carlos III 27 Ignacio Cascos Depto. Estadística, Universidad Carlos III 28 Diagrama de cajas Histograma Aparecen cuartiles, mediana y valores extremos El área de cada rectángulo es proporcional a su frecuencia. Se utiliza para variables cuantitativas (continuas), precisa de su agrupamiento. Box-and-Whisker Plot Todos los individuos Histograma y polígono (poligonal) de frecuencias para las clases de la diapositiva 13 160 165 170 175 180 185 190 altura Histogram for altura Box-and-Whisker Plot 15 12 frequency frequency 12 0 sexo Individuos agrupados según su sexo 9 6 3 1 165 170 175 180 185 150 190 Depto. Estadística, Universidad Carlos III 29 Diagrama de tallos y hojas 16 | 00 17 | 24469 18 | 00007 Ignacio Cascos Población con los N = 48 individuos 16 | 000 16 | 23 16 | 4 16 | 16 | 888899 17 | 000001 17 | 22233 17 | 445 17 | 6 17 | 8999 18 | 0000000 18 | 23 18 | 445555 18 | 77 Depto. Estadística, Universidad Carlos III 6 160 170 180 190 0 150 altura altura Muestra de n = 12 individuos 9 3 0 160 Ignacio Cascos Histogram for altura 15 Ignacio Cascos 160 170 180 190 altura Depto. Estadística, Universidad Carlos III 30 Descripción breve del tema Anotación Pau Gasol Temporada 06/07 0|4 0| 1 | 000112233 1 | 5566667799 2 | 011112223333334444 2 | 55578899 3 | 00114 1. 2. 3. 4. Definiciones fundamentales Tabla de frecuencias Datos agrupados Medidas de posición 5. Medidas de dispersión 6. Diagrama de barras, histograma, diagrama de cajas… Medidas de forma 31 Varianza, desviación típica, rango Representaciones gráficas 7. Medidas de tendencia central: media, mediana, moda Cuantiles Ignacio Cascos Asimetría, curtosis Depto. Estadística, Universidad Carlos III 32 Medidas de forma Asimetría Coeficiente de Asimetría: sirve para estudiar las desviaciones respecto de la media 2,4 2,4 2 2 1,6 1,6 1,2 1,2 0,8 0,8 0,4 ∑ ( k CA = i =1 fi xi − x ) 0,4 0 0 3 0,2 0,4 0,6 0,8 1 0 0 CA<0 s3 0,2 0,4 0,6 0,8 1 CA>0 2,4 2 Para los N = 48 estudiantes 1,6 1,2 CA = −0.21 0,8 0,4 0 0 0,2 0,4 0,6 0,8 1 CA~0 Ignacio Cascos Depto. Estadística, Universidad Carlos III 33 Medidas de forma Ignacio Cascos Depto. Estadística, Universidad Carlos III Apuntamiento o curtosis Coeficiente de Apuntamiento (o curtosis): indica el grado de concentración de los valores que toma la variable en torno a su media 12 2,4 10 2 8 1,6 6 1,2 4 0,8 2 0,4 0 ∑ f (x k CAp = i =1 i s 34 i −x ) 0 0 0,2 0,6 0,8 1 0 CAp>0 4 4 0,4 −3 0,2 0,4 0,6 0,8 1 CAp<0 0,4 Para los N = 48 estudiantes 0,3 0,2 CAp = −0.86 0,1 0 -5 -3 -1 1 3 5 CAp~0 Ignacio Cascos Depto. Estadística, Universidad Carlos III 35 Ignacio Cascos Depto. Estadística, Universidad Carlos III 36