Download ESTADISTICA
Document related concepts
Transcript
ESTADISTICA 1º BACHILLERATO 1. MEDIDAS DE CENTRALIZACIÓN Son las medidas o parámetros que tienden a situarse hacia el centro del conjunto de datos ordenados. A las medidas de centralización también se les llama “Medidas de tendencia central” o “Promedios”, siendo las más importantes la media aritmética, moda, mediana, cuarteles, deciles y percentiles. a) Media aritmética La media aritmética de una variable estadística es la suma de todos los valores de la variable dividido por el número de valores. Cálculo: n X i 1 n xi ni n i 1 i Si la variable x es continua, o siendo discreta si son muchos los datos, estos se encuentran agrupados en clases. Se toman como valores x 1, x2…, las marcas de cada clase. Una variable aleatoria es continua si puede tomar todos los valores en un cierto intervalo. Una variable aleatoria es discreta cuando sólo puede tomar ciertos valores (normalmente enteros) dentro de un intervalo. Por ejemplo, la estatura de una persona es una variable aleatoria continua, mientras que el número de hijos de una familia sería una variable aleatoria discreta. Ejemplos: Ej. 1 - Las calificaciones en la asignatura de Historia del Arte de 40 alumnos de una clase vienen dadas por la siguiente tabla: Xi 1 2 3 4 5 6 7 8 9 ni 2 2 4 5 8 9 3 4 3 40 xini 2 4 12 20 40 54 21 32 27 212 n X i 1 n xi ni n i 1 i -1- 212 5,3 40 ESTADÍSTICA 1º BACHILLERATO Ej. 2 - Se ha aplicado un test sobre satisfacción en el trabajo a 88 trabajadores de una fábrica, obteniéndose los siguientes resultados: Puntuación Nº trabajadores, ni [38,44) 7 [44,50) 8 [50,56) 15 [56,62) 25 [62,68) 18 [68,74) 9 [74,80) 6 88 Marca de clase, xi 41 47 53 59 65 71 77 xi n i 287 376 795 1475 1170 639 462 5204 n X i 1 n xi ni n i 1 5204 59,14 88 i Propiedades de la media aritmética 1. Es el parámetro de centralización más utilizado. 2. Presenta la ventaja de tener en cuenta todos los datos y resultar muy sencillo su cálculo. 3. Tiene el gran inconveniente de que si la distribución posee valores extremos excepcionalmente raros y poco explicativos se produce una distorsión en la media, provocando una variación de ésta. 4. No siempre es posible calcular la media aritmética: - Cuando la variable sea cualitativa: Color de ojos. - Cuando los datos de la distribución se encuentran agrupados en clases, estando alguna de ellas abierta. b) Media geométrica: Sea x la variable y n el número de datos: X g n x1 x2 ...xn c) Media cuadrática: Es la raíz cuadrada de la media de los cuadrados. Xc x12 x 22 ...x n2 n d) Moda La Moda de una variable estadística es el valor de dicha variable que presenta mayor frecuencia absoluta. Se representa como “Mo”. Puede haber distribuciones bimodales, trimodales, etc. -2- ESTADÍSTICA 1º BACHILLERATO Observaciones: 1. Puede ocurrir que una distribución no tenga moda. 2. Es menos representativa que la media aritmética, pero en algunos casos es más útil que ésta. Por ejemplo, cuando los datos son cualitativos. 3. En la moda no intervienen todos los datos de la distribución. 4. Aun cuando la moda se considera un parámetro de centralización no tiene por qué situarse en la zona central. e) Mediana Se llama mediana de una variable estadística a un valor de la variable tal que el número de observaciones menores que él es igual al número de observaciones mayores que él. Se representa como “M”. Cálculo: - Variable estadística discreta. Datos simples. En este caso se ordenan los datos de menor a mayor, siendo la mediana el término o valor central. Si el número de datos es impar, el valor central de la variable es único. Ejemplo: En la serie “2, 3, 5, 6, 9, 11,12”, M=6. Si el número de datos es par, existirán dos términos centrales. En este caso se suele tomar como mediana la media aritmética de estos valores, aunque el resultado no pertenezca al conjunto de datos. Ejemplo: En la serie “2, 3, 5, 6, 9, 11, 12,13”, M= (6+9)/2=7,5. - Variable estadística discreta. Datos agrupados. La mediana viene dada por el primer valor de la variable cuya frecuencia absoluta acumulada exceda a la mitad del número de datos. En el caso de que la mitad del número de datos coincida con la frecuencia absoluta acumulada de un valor, la mediana será la semisuma de ese valor y el siguiente. Ejemplo: Tomando la tabla de notas de los alumnos de Historia del Arte, calculamos ahora la mediana. En este caso hemos añadido a la tabla la frecuencia absoluta acumulada (Ni). La mediana será el primer valor de la variable cuya frecuencia absoluta acumulada excede la mitad del número de datos (40). Por tanto, M=5, ya que su correspondiente valor de Ni vale 21, siendo el primero que es mayor que la mitad del número de datos. - Xi 1 2 3 4 5 6 7 8 9 ni 2 2 4 5 8 9 3 4 3 Ni 2 4 8 13 21 30 33 37 40 En caso de que la mitad del número de datos coincida con la frecuencia acumulada de un valor, la mediana es la semisuma entre ese valor y el siguiente. Variable estadística continúa. -3- ESTADÍSTICA 1º BACHILLERATO En este caso, procediendo de forma análoga, vemos cuál es la clase mediana, pero para obtener el valor concreto de la variable utilizamos la siguiente expresión: N N i 1 M Li c 2 ni Donde: Li: C: N: Ni-1 ni: Límite inferior de la clase mediana. Amplitud de intervalo. Número de datos. Frecuencia absoluta acumulada de la clase anterior a la clase mediana. Frecuencia absoluta de la clase mediana. Ejemplo: Vamos a calcular la mediana en la tabla de los 88 empleados: Puntuación [38,44) [44,50) [50,56) [56,62) [62,68) [68,74) [74,80) Nº trabajadores 7 8 15 25 18 9 6 88 Marca clase 41 47 53 59 65 71 77 Ni (Frec. Abs. Acumulada) 7 15 30 55 73 82 88 88 30 2 M 56 6 59,36 25 Observaciones: 1. La mediana es particularmente útil en los siguientes casos: a) Cuando entre los datos existe alguno ostensiblemente extremo que, como hemos visto, afecta a la media. b) Cuando los datos están agrupados en clases y alguna de ellas está abierta. c) Como consecuencia de la definición de mediana se deduce que el 50% de los datos son menores o iguales a ella, siendo el 50% restante de datos mayores o iguales. 2. La mediana es el primer parámetro de centralización que depende del orden de datos y no de su valor. 3. Geométricamente y para distribuciones representables mediante un histograma de frecuencias la mediana es un valor -4- ESTADÍSTICA 1º BACHILLERATO de la variable, tal que la vertical levantada sobre el histograma lo divide en dos partes iguales. RELACIÓN ENTRE MEDIA, MODA Y MEDIANA En distribuciones simétricas o ligeramente asimétricas se cumple: X Mo 3( X M ) Campana de Gauss f) Cuantiles: Cuartiles: Son tres valores que dividen a la serie de datos en cuatro partes iguales. Se representan por Q. Deciles: Son nueve valores que dividen la serie en diez partes iguales. Se representan por D. Percentiles: Son 99 valores que dividen la serie en 100 partes iguales. Se representa por P. Q2=P50=M Cálculo: Debido a que los cuantiles son parámetros del tipo de la mediana, su cálculo se realiza de forma análoga. Ejemplo 1: En la tabla de las calificaciones de Historia de 40 alumnos vamos a calcular los cuartiles primero y tercero y los percentiles 30 y 70. Xi 1 2 3 4 5 6 7 8 9 ni 2 2 4 5 8 9 3 4 3 Ni 2 4 8 13 21 30 33 37 40 Q1: Q1 deja a la cuarta parte de la distribución a la izquierda. Como N/4=10, Q1=4. 67 6,5 2 Q3: 3 N 30 ; 4 Q3 P30: 30 N 12 ; 100 P30 4 P70: 70 N 28 ; P70 6 100 -5- ESTADÍSTICA 1º BACHILLERATO Ejemplo 2: En la tabla de los empleados y la satisfacción en el trabajo, vamos a calcular Q1, Q3, P40 y P90. Puntuación [38,44) [44,50) [50,56) [56,62) [62,68) [68,74) [74,80) Q1: Nº trabajadores 7 8 15 25 18 9 6 88 1 N 22 ; 4 Q1 50 6 Q3: 22 15 52,8 15 3 N 66 ; 4 Q3 estará contenido en la clase [62,68). 66 55 65,67 18 40 N 35,2 ; P40 estará contenido en la clase [56,62). 100 P40 56 6 P90: Ni (Frec. Abs. Acumulada) 7 15 30 55 73 82 88 Q1 estará contenido en la clase [50,56). Q3 62 6 P40: Marca clase 41 47 53 59 65 71 77 35,2 30 57,25 25 90 N 79,2 ; P40 estará contenido en la clase [68,74). 100 P90 68 6 79,2 73 72,13 9 Observaciones: 1. Los cuantiles, sobretodo los deciles y percentiles, son parámetros estadísticos muy utilizados en las Ciencias Sociales. 2. A los cuantiles se les suele denominar “parámetros de estructura”, ya que nos informan acerca de la estructura o distribución interna de los datos. También se les llama “parámetros de posición”. 3. Aún cuando incluimos los cuarteles dentro de los parámetros de centralización por su analogía con la mediana, no tienen que estar -6- ESTADÍSTICA 1º BACHILLERATO situados hacia el centro de la distribución, como en el caso del percentil noventa. 4. Q1=P25; Q2=P50=M; Q3=P75. 2. MEDIDAS DE DISPERSIÓN Consideremos el siguiente ejemplo: Se ha aplicado a dos grupos de ocho alumnos una prueba de cien preguntas sobre capacidad numérica, obteniéndose los siguientes resultados: Si calculamos la media, moda y mediana de ambas distribuciones, observaremos que todas son iguales a 50. En cambio, los dos grupos son muy distintos. Mientras que en el Grupo A la mayoría de los alumnos han contestado a GRUPO A GRUPO B la mitad de las preguntas, en el Grupo B hay alumnos que 46 10 han contestado casi todo y otros que no han respondido a 48 18 casi ninguna pregunta. Por lo tanto, las puntuaciones del 49 30 Grupo A están poco dispersas y muy concentradas. En 50 50 cambio las del Grupo B están poco concentradas y muy 50 50 dispersas. 51 70 51 82 La investigación acerca de una distribución queda 54 90 incompleta si sólo se estudian las medidas de centralización, siendo necesario conocer si los datos numéricos están agrupados o no alrededor de los valores centrales. A esto es a lo que se llama dispersión, y los parámetros que miden esta desviación respecto a la media son llamados “medidas o parámetros de dispersión”. Los más importantes son: Rango o recorrido. Varianza. Desviación típica. a) Rango o recorrido: Es la diferencia entre el valor mayor y menor de la variable estadística. Cálculo: Muy sencillo de calcular. En el ejemplo anterior, la serie A tiene un recorrido de RA=54-46=8, mientras que en la serie B: RB=90-10=80. Observaciones o propiedades: 1. Cuanto menor es el recorrido, mayor es el grado de representatividad de los valores centrales. 2. Tiene la gran ventaja de su sencillez de cálculo. 3. Tiene gran aplicación en procesos de control de calidad, y de manera general, en aquellos procesos en los que se pretende verificar longitudes, pesos, volúmenes, etc., estando prefijados de antemano los límites permitidos. 4. El recorrido presenta el inconveniente de que sólo depende de los valores extremos; basta con que uno de ellos se separe mucho para que el recorrido se vea sensiblemente afectado. -7- ESTADÍSTICA 1º BACHILLERATO 5. Para paliar este inconveniente se emplean otros dos rangos o recorridos. a) Rango intercuartílico: Q=Q3-Q1 b) Rango interpercentílico: P=P90-P10 Estos rangos son mucho más estables que el recorrido, ya que tienden a eliminar los valores extremadamente alejados. b) Desviación media: Es la media del valor absoluto de las desviaciones. c) Varianza (S2) Se llama varianza a la media aritmética de los cuadrados de las desviaciones. Se llama desviación típica a la raíz cuadrada positiva de la varianza. n n n i (x i x ) 2 ni x i2 S x2 N N i1 i1 2 Observaciones o propiedades: 1. Tanto la varianza como la desviación típica dependen de todos los valores de la distribución, así como de la media. En los casos en los que no se puede calcular la media no se puede hallar la varianza ni la desviación típica. 2. La varianza tiene el inconveniente de que no viene expresada en las mismas unidades que los datos, de modo que las desviaciones van elevadas al cuadrado, de ahí que se define que la desviación típica es más interesante que la varianza porque viene expresada en las mismas unidades que los datos. UTILIZACIÓN CONJUNTA DE LA MEDIA Y LA DESVIACIÓN TÍPICA En distribuciones unimodales, simétricas y ligeramente asimétricas se verifica que: (x s, x s) 68% (x 2s, x 2s) 95% (x 3s, x 3s) 99% s -8- 2s 3s ESTADÍSTICA 1º BACHILLERATO EJERCICIOS 1. El número de horas que un alumno dedica al estudio cada semana es el indicado en la tabla. Hallar rango, varianza y desviación típica: xi x xi 3 3,5 4 5 5,5 6 27 -1,5 -1 -0,5 0,5 1 1,5 0 Calculamos la media: 3 3,5 4 5 5,5 6 x 4,5 6 (x i x ) 2 2,25 1 0,25 0.25 1 2,25 7 S2 7 1,16 6 S 1,16 1,08 R 6 3 3 calificaciones en historia de los 40 alumnos, calcula el 2. En el problema de las rango, varianza y desviación típica: xi ni x i ni 1 2 2 2 3 4 4 5 5 8 6 9 7 3 8 4 9 3 45 40 2 4 12 20 40 54 21 32 27 212 n i x i2 2 8 36 80 200 324 147 256 243 1296 x 212 5,3 40 S2 1296 5,3 2 4,31 40 S 4,31 2,08 R 9 1 8 3. En el problema de la prueba a los 88 empleados, calcular la varianza y la desviación típica. -9- ESTADÍSTICA 1º BACHILLERATO Puntuación [38,44) [44,50) [50,56) [56,62) [62,68) [68,74) [74,80) Marca clase 41 47 53 59 65 71 77 Nº tra. xini 7 287 8 376 15 795 25 1475 18 1170 9 639 6 462 88 5204 xi2ni 11767 17672 42135 87025 76050 45369 35574 315592 315592 59,14 2 88,73 88 Desviación típica = S= 88,73 9,4 Varianza S2 COEFICIENTE DE VARIACIÓN. El coeficiente de variación de Pearson CV es el cociente entre la desviación típica y la media aritmética de un conjunto de valores. S ( x) CV= x El valor que resulta de esta expresión es adimensional, lo que permite comparar variables expresadas en magnitudes diferentes o en la misma magnitud, pero con distintas medidas. Dicho valor se suele multiplicar por 100 para trabajar con porcentajes. Diremos que la dispersión es elevada cuando el CV sea superior al 30 %. - 10 -