Download tema ejemplo
Document related concepts
Transcript
128 09. PSICOLOGÍA EXPERIMENTAL 09.02. ESTADÍSTICA 09.02.02 ESTADÍSTICA DESCRIPTIVA APLICADA AL ESTUDIO DE UNA SOLA VARIABLE sujeto de la media, mientras que las típicas nos dicen cuántas desviaciones típicas se separa la puntuación de la media. PREGUNTAS REPRESENTATIVAS ORIENTACIONES Tema en el que se abordan los distintos estadísticos utilizados en el estudio de una sola variable, desde funciones que nos permiten saber el valor medio de la distribución, hasta conocer la posición de una puntuación con respecto a su grupo, o distintos tipos de puntuación. Dentro de la estadística descriptiva, este tema es de uno de los que más preguntas ha suscitado en el examen PIR. Es importante conocer las características de cada uno de los estadísticos, así como los valores que toman dichos estadísticos cuando se aplica una transformación lineal sobre la variable. ASPECTOS ESENCIALES 089. Considerando una variable nominal, la medida descriptiva que tiene sentido es: 1) 2) 3) 4) 5) La marca de clase. La dispersión relativa. La media y la varianza. La moda. El coeficiente de variación. PIR 05, RC 4 (también en PIR 94 −036−, PIR 04 −089−). 111. Se tiene una variable Xi, con un número de personas en la muestra igual a n, y se genera una nueva variable Yi a partir de los valores de Xi, siendo: Yi = 2Xi + 3, se conoce la media de Xi (que es X ). ¿Cuánto vale la media de la variable Yi (Y) ?: 1) 2) 3) 4) 5) Y Y Y Y Y = 2X . = 2n X . = 2X + 3 . = X+3 . = 2n X + 3n . PIR 01, RC 3 (también en PIR 01 −120−). 1. 2. 3. 4. Los estadísticos de tendencia central se utilizan para saber el valor medio de la distribución, y la utilización de uno u otro dependerá del nivel de medida de la variable. Los estadísticos de posición nos dan información acerca de la posición relativa de una puntuación con respecto al grupo que procede. Los estadísticos de variabilidad nos hablan de lo dispersos que están los datos en la distribución, es decir, la distancia que existe entre las distintas puntuaciones. Las distintas puntuaciones nos permiten interpretar la información de formas diferentes. Así, la puntuación diferencial nos informa sobre los puntos que separan al © C E D E – www.pir.es 047. Si el CI de un individuo es 95 y ocupa el percentil 30 consideramos que: 1) El 95% de los sujetos se encuentra por encima del valor. 2) El 70% de los sujetos supera el CI 95. 3) El 30% de los sujetos supera el CI. 4) El 5% de los sujetos se encuentra por debajo del valor 30. 5) Ninguna alternativa es correcta. PIR 03, RC 2 (también en PIR 95 −87−, PIR 96 −35−). 082. Para comparar la dispersión de variables que corresponden a poblaciones extremadamente desiguales podemos utilizar: 1) La varianza. 2) La cuasivarianza. CEDE - C/ Cartagena, 129 - 28002 Madrid Tel.: 91 564 42 94 09. PSICOLOGÍA EXPERIMENTAL 09.02. ESTADÍSTICA 129 3) La amplitud intercuartil. 4) La mediana. 5) El coeficiente de variación. PIR 05, RC 5 (también en PIR 94 −35−, PIR 03 −46−, PIR 96 -36-, PIR 98 −44−). 077. En una distribución de frecuencias, ¿cómo denominamos al número de veces que se repite en la muestra un determinado valor de la variable o cualquier otro valor inferior?: 1) 2) 3) 4) 5) Proporción. Frecuencia absoluta acumulada. Porcentaje acumulado. Frecuencia absoluta. Frecuencia relativa acumulada. PIR 13, RC 2. CEDE - C/ Cartagena, 129 - 28002 Madrid Tel.: 91 564 42 94 © C E D E – www.pir.es 130 09. PSICOLOGÍA EXPERIMENTAL 09.02. ESTADÍSTICA 09.02.02 ESTADÍSTICA DESCRIPTIVA APLICADA AL ESTUDIO DE UNA SOLA VARIABLE 1. Introducción 2. Organización de los datos 2.1. Concepto y tipos de variable 2.2. Modalidades y clases 2.3. Distribución de frecuencias 2.4. Diagrama de tallo y hojas 2.5. Representación gráfica de la variabilidad: Diagrama de caja y bigotes 3. Estadísticos de tendencia central 3.1. Media aritmética 3.2. Mediana 3.3. Moda 3.4. Media, mediana, moda y asimetría 3.5. Apuntamiento o curtosis 4. Estadísticos de posición: los cuantiles 4.1. Cuartiles 4.2. Deciles 4.3. Percentiles 5. Estadísticos de variabilidad y dispersión 5.1. Desviación media 5.2. La varianza 5.3. Amplitud total 5.4. Amplitud semi-intercuartil 5.5. Coeficiente de variación 6. Puntuaciones directas, diferenciales y típicas 6.1. Puntuación directa 6.2. Puntuación diferencial 6.3. Puntuación típica 6.4. Otras transformaciones de las puntuaciones 6.5. Interpretación de puntuaciones directas, diferenciales y típicas 6.6. La curva normal 1. INTRODUCCIÓN Comenzaremos el estudio de la estadística descriptiva planteando la organización y presentación de los datos referidos a una única variable. A continuación, repasaremos los principales estadísticos de tendencia central: media, moda, mediana. Posteriormente haremos lo mismo con los estadísticos de dispersión o variabilidad: amplitud, varianza, desviación, etc. © C E D E – www.pir.es Por último, abordaremos las distintas expresiones que puede tomar una puntuación: directa, diferencial y típica. Adelantaremos también algunas ideas acerca de la distribución más común en psicología: la curva normal. 2. ORGANIZACIÓN DE LOS DATOS En el tema introductorio comentamos que la primera tarea de la estadística descriptiva es la recogida de datos; en la medida que esta tarea exige conocimientos de probabilidad, alteramos el orden y abordamos la organización de los mismos. 2.1. CONCEPTO Y TIPOS DE VARIABLE Una variable no es más que una característica (peso, sexo, longitud, inteligencia, velocidad, número de ensayos, etc.) que puede manifestarse al menos bajo dos modalidades. Si una característica no puede manifestarse más que bajo una sola modalidad consideraremos que la misma es una constante. Las variables pueden clasificarse según la escala o nivel de medida que se les pueda aplicar, esto es, según las operaciones que con los números atribuidos a sus modalidades se puedan realizar: Variable cualitativa Es toda aquella característica que sóIo puede ser considerada a nivel nominal. Como ejemplos podemos citar: sexo, grupo sanguíneo, nacionalidad, lugar de residencia, profesión, etc. Con los números que se atribuyen a las distintas modalidades de cada una de las anteriores características sóIo se pueden verificar relaciones de igualdad-desigualdad. La representación gráfica de las variables cualitativas se realiza con un diagrama de barras, con rectángulos separados de igual base y alturas proporcionales a las frecuencias (proporciones, porcentajes) correspondientes. Otras representaciones gráficas posibles son ciclogramas, pictogramas, diagramas de sectores... El fin de todas ellas es representar de modo intuitivo las frecuencias de cada una de las modalidades o clases de modalidades. En este caso, en el diagrama de barras las modalidades pueden ser colocadas en cualquier orden porque representan distintos aspectos, no ordenados, de una característica. Variable cuasi-cuantitativa Es aquella característica que puede alcanzar un nivel de medida ordinal, como máximo. Como ejemplos tenemos: nivel cultural, clase social, grado académico, etc. Los nú- CEDE - C/ Cartagena, 129 - 28002 Madrid Tel.: 91 564 42 94 09. PSICOLOGÍA EXPERIMENTAL 09.02. ESTADÍSTICA meros atribuidos a sus modalidades sólo muestran relaciones de igualdad-desigualdad y orden. La representación gráfica más típica de las variables cuasi-cuantitativas es también el diagrama de barras; sin embargo, en este caso las clases ya deben ser colocadas según un orden determinado pues representan aspectos ordenados de una característica. 131 Gráfico de barras Variable cuantitativa Es toda característica que puede considerarse como mínimo a nivel de intervalos (PIR 00, 12). Como ejemplos: altura, peso, edad, inteligencia, fuerza física, número de hijos, extroversión, creatividad, etc. Con los números que se atribuyen a las modalidades son posibles algunas operaciones aritméticas. Gráfico de sectores En las variables cuantitativas es posible distinguir dos tipos: • Cuantitativa discreta: No es posible una modalidad intermedia entre dos modalidades determinadas: uno tiene dos o tres hijos, pero no 2,5 hijos. Cuando se Ianza un dado, son posibles resultados enteros del 1 al 6, jamás un resultado del tipo 3,3. • Cuantitativa continua: Histograma y polígono de frecuencias Es una característica que admite una modalidad intermedia entre dos cualesquiera. Una persona puede pesar 60 kg., pero también 60,3 Kg., o bien 60,78 kg. Si existen limitaciones a los valores intermedios proceden más del instrumento de medida (sensibilidad de la báscula en este caso) que de Ia variable en sí. Otros ejemplos serían la fuerza física, la longitud, la inteligencia, la extraversión o el tiempo que tarda un paciente en abandonar el hábito tabáquico (PIR 12, 16), etc. La representación gráfica de estas variables se realiza mediante histogramas y polígonos de frecuencias (acumuladas o no acumuladas). En el histograma, se levantan rectángulos consecutivos cuya base se corresponde con la amplitud de los intervalos y cuya altura (y área) es proporcional a la frecuencia (proporción o porcentaje) del intervalo correspondiente. Si los rectángulos no tienen la misma amplitud, el área de cada rectángulo es proporcional a la correspondiente frecuencia pero no así la altura; sin embargo, este caso no suele ser habitual porque normalmente se emplean intervalos de la misma amplitud. CEDE - C/ Cartagena, 129 - 28002 Madrid Tel.: 91 564 42 94 Pictograma © C E D E – www.pir.es 132 09. PSICOLOGÍA EXPERIMENTAL 09.02. ESTADÍSTICA una de ellas. La suma de todas las frecuencias nos Ileva al “n” total de la muestra. 2.2. MODALIDADES Y CLASES Las variables pueden contener un número elevado de modalidades; por ejemplo en el caso de la variable “peso” definida sobre un conjunto amplio de individuos puede dar lugar a un número elevado de modalidades o pesos (aunque algunos individuos coincidan en el peso). En estos casos es más práctico agrupar las modalidades en clases. Cada clase abarcaría un número determinado de modalidades; en nuestro ejemplo una clase contendría las modalidades o pesos de 50 a 59 kg, la siguiente de 60 a 69 kg, etc. Las clases deben ser mutuamente exclusivas, de modo que ninguna modalidad pueda pertenecer a más de una, y exhaustivas, con el fin de que toda modalidad posible pertenezca necesariamente a alguna clase. En la siguiente columna nos encontramos con las Proporciones (o frecuencias relativas) de cada clase, obtenidas por el cociente entre la frecuencia absoluta de cada clase y el número total de observaciones (en todas las clases). La suma de todas las proporciones será igual a uno. Ej.: 1/10 = 0,1. En la última columna se registran los Porcentajes de cada clase, que resultan de multiplicar la proporción o frecuencia relativa de cada clase por 100. El total del porcentaje siempre es 100, obviamente. Ej.: 0,1 x 100 = 10. Para representar esa exclusividad se utilizan paréntesis y corchetes. Así, si el intervalo comienza con un paréntesis implica que el dato que sigue al paréntesis no corresponde a ese intervalo, mientras que si le acompaña un corchete sí que lo hará. El conjunto de los anteriores índices (frecuencias, proporciones o porcentajes) junto con sus respectivas clases o sus correspondientes números asignados, conforman una distribución de frecuencias. Ésta puede expresarse en el cuadro representado o bien mediante un Diagrama de barras o un Pictograma. Por ejemplo, en el intervalo (50-60], el 50 no entraría en este intervalo, mientras que sí que lo haría el 60. 2.3.1. Frecuencia, proporción y porcentajes acumulados 2.3. DISTRIBUCIÓN DE FRECUENCIAS Además de los anteriores índices suele emplearse la Frecuencia acumulada (con sus respectivas proporciones acumuladas y porcentajes acumulados). Este índice se emplea con las variables cuasi-cuantitativas (nivel ordinal) y con las cuantitativas. Supongamos que encuestamos a una muestra de 10 sujetos acerca de su afiliación política, posteriormente las distintas modalidades (en este caso partidos políticos a los que pertenecen) las agrupamos en tres clases (Izquierda, Centro y Derecha). En este ejemplo la variable es cualitativa y por tanto situada a un nivel de medida nominal. Tras recoger los datos procedemos a organizarlos del siguiente modo: Frecuencia (fa) Proporción (p) Porcentaje Izquierda Centro Derecha 1 5 4 0,1 0,5 0,4 10 50 40 TOTALES 10 1,0 100 AFILIACIÓN En la primera columna tenemos las tres clases en las que hemos agrupado las modalidades; al ser una variable a nivel nominal no importa en qué orden se organicen las clases, el resultado sería el mismo si se alterase su presentación. En la siguiente columna figuran las Frecuencias (también denominadas Frecuencias absolutas) de cada clase, esto es, el número de observaciones contenidas dentro de cada © C E D E – www.pir.es Supongamos que investigamos la distribución de frecuencias de la característica o variable “clase social” en una muestra de 50 estudiantes de psicología de un centro universitario. Tras la recogida de datos organizamos las distintas modalidades en cuatro clases: alta, media alta, media media, media baja y baja. Como es una variable de nivel ordinal (son verificables entre las modalidades las relaciones de igualdad-desigualdad y orden) al asignarles números debe respetarse el orden. En la siguiente tabla recogemos la distribución de frecuencias obtenida: CLASE SOCIAL Frec. Prop. Porc. Fr. ac. Prop. ac. Porc. ac. Alta (5) Media alta (4) Media media (3) Media baja (2) Baja (1) 4 6 20 12 8 0,08 0,12 0,40 0,24 0,16 8 12 40 24 16 50 46 40 20 8 1,00 0,92 0,80 0,40 0,16 100 92 80 40 16 TOTALES 50 1,00 100 La Frecuencia acumulada de la clase baja es su Frecuencia absoluta; la Frecuencia acumulada de la clase media baja se forma sumando la Frecuencia absoluta de la clase CEDE - C/ Cartagena, 129 - 28002 Madrid Tel.: 91 564 42 94 09. PSICOLOGÍA EXPERIMENTAL 09.02. ESTADÍSTICA baja y de la media baja (ej.: 8 + 12 = 20); la Frecuencia acumulada de la clase media media es el resultado de sumar las Frecuencias absolutas de las clases baja, media baja y media media. El resto de las Frecuencias acumuladas se obtiene del mismo modo, tal que la Frecuencia acumulada de la clase superior coincide con el número total de observaciones de la muestra o sumatorio de las frecuencias absolutas. Por lo tanto, llamaremos Frecuencia Absoluta Acumulada al número de veces que se repite en la muestra un determinado valor o cualquier otro valor inferior (PIR 13, 77). Mientras que la Frecuencia Relativa Acumulada (o Proporción acumulada) de un determinado valor, sería el cociente entre su Frecuencia Absoluta Acumulada y el tamaño de la muestra. Hemos de tener en cuenta que la Proporción acumulada de la clase superior igual a 1, y el Porcentaje acumulado igual a 100. 2.3.2. Distribución de frecuencias en variables cuantitativas continuas El tiempo es una variable cuantitativa continua, pues admite siempre modalidades intermedias entre dos modalidades cualesquiera. No obstante, como sucede con otras muchas variables de este tipo, la realidad obliga a considerar un número finito de posibles modalidades, consecuencia de los instrumentos de medida. Si tenemos un cronómetro cuya unidad de medida más pequeña es la centésima parte de un segundo, y lo utilizo para medir los tiempos de reacción en una tarea, las medidas obtenidas serán siempre del tipo 0,56; 0,57; 0,58; etc. Aunque el tiempo es una variable continua, nuestro instrumento la convierte en discreta pues no permite distinguir modalidades entre 0,56 y 0,57, por ejemplo. Sin embargo existe un modo de guardar la continuidad de una variable, pues podemos suponer que cada valor discreto representa a todos los infinitos valores situados media unidad de medida a su izquierda y media unidad a su derecha. Como se puede observar en el dibujo, la modalidad 0,57 segundos es convertida en una clase que contiene todas las infinitas modalidades que van desde 0,565 sgs. hasta 0,575 sgs. Y lo mismo podemos decir del resto de los tiempos. intervalo elemental 133 Cada una de estas clases se define como intervalo elemental; en el caso de la clase o intervalo representado por 0,57, diremos que el valor 0,565 es el límite exacto inferior de dicho intervalo, siendo 0,575 el límite exacto superior. Obviamente, estos valores serán a su vez los límites correspondientes de los intervalos superior e inferior. El intervalo elemental siempre lleva asociada una amplitud equivalente a la unidad (media unidad por debajo y media unidad por encima). Ahora bien, el intervalo compuesto (o intervalo sin más) se compone de varios intervalos elementales consecutivos. Supongamos que tras un examen la nota más baja es 2 y la más alta 10. Podríamos definir intervalos elementales (1, 2, 3, …, etc.) o bien agrupar varios intervalos elementales para formar un número menor de intervalos compuestos; en este caso cogemos tres: 1,5-4,5 (Comprende los intervalos elementales 2, 3 y 4). 4,5-7,5 (Intervalos elementales 5, 6 y 7). 7,5-10,5 (Intervalos elementales 8, 9 y 10). Los tres intervalos representados figuran con sus límites exactos inferiores y superiores, ahora bien, es posible nombrarlos de otro modo, a saber: 2-4. 5-7. 8-10. En una distribución de frecuencias los intervalos aparecen de este modo, siendo estos límites denominados límites aparentes. Por amplitud de un intervalo se entiende la diferencia entre su límite exacto superior y su límite exacto inferior (en nuestro último ejemplo la amplitud del intervalo 2-4, así como Ia del resto, es de tres unidades, pues: 4,5 − 1,5 = 3). El punto medio de cada intervalo es la media aritmética de sus dos límites exactos (en nuestro último ejemplo el punto medio del intervalo 2-4 es tres unidades, pues: 1,5 + 4,5/2 = 3). La amplitud total de una serie de valores numéricos es la diferencia entre el límite exacto superior del intervalo máximo y el límite exacto inferior del intervalo mínimo; en nuestro ejemplo la amplitud total es: 10,5 − 1,5 = 9. Cuando agrupamos una serie de datos en intervalos estamos haciendo más manejable la información, al reducir el número de categorías o modalidades, sin embargo tam- CEDE - C/ Cartagena, 129 - 28002 Madrid Tel.: 91 564 42 94 © C E D E – www.pir.es 134 09. PSICOLOGÍA EXPERIMENTAL 09.02. ESTADÍSTICA bién distorsionamos el conjunto de los datos, pues, por ejemplo, todas las calificaciones de los alumnos que comprendan desde el 1,5 hasta el 4,5 se registrarán bajo el intervalo 2-4, y a efectos de cálculo estadístico, se consideran equivalentes a su punto medio, esto es, la puntuación 3. 2.4. DIAGRAMA DE TALLO Y HOJAS El diagrama o gráfico de tallo y hojas es una alternativa a la representación gráfica de distribuciones de frecuencias que sirve también para resumir y exponer conjuntos de datos de una variable cuantitativa. Fue ideado por Tukey (1977) en el contexto del enfoque denominado análisis exploratorio de datos. Aunque no es exactamente una representación gráfica, sino una construcción utilizada para la descripción de variables cuantitativas (discretas o continuas), representa la particularidad de permitir visualizar globalmente la distribución de frecuencias manteniendo la individualidad de los datos. De este modo, los pasos a seguir son los siguientes: − Se identifican los valores máximo y mínimo observados. − Se toma una decisión acerca del número más apropiado de tallos distintos (en general, un número de tallos entre 5 y 20 suele ser apropiado). − Se listan todos los tallos distintos en una columna, ordenados de forma creciente de arriba hacia abajo. − Se escribe cada hoja junto al tallo que le corresponda, preferiblemente ordenados según su valor. Las ventajas del Diagrama de tallo y hojas son: a) Permite identificar cada puntuación individual. b) Ofrece simultáneamente tanto un listado de puntuaciones como un dibujo de la distribución (si tumbamos el diagrama obtenemos una especie de histograma). c) Es más fácil de modificar para obtener un dibujo con un nivel de detalle distinto de la distribución ya que contiene los valores de cada observación. d) Pueden representarse dos conjuntos de datos simultáneamente en el mismo diagrama, con lo que se facilita la comparación. e) Permite identificar datos atípicos. Veámoslo con un ejemplo. El diagrama de tallo y hojas representa las edades de una muestra de pacientes que fueron hospitalizados por presentar un brote psicótico por primera vez. La amplitud tomada para el tallo es de diez, por lo que en la línea de tallos tenemos las decenas y en las hojas, las unidades. Edad ingreso hospitalario Para su obtención, se redondearán los datos a dos o tres cifras significativas, tomándose como tallos la primera o dos primeras cifras de cada dato y como hojas las últimas cifras de cada dato. A continuación, separados por un punto, se dispondrán los tallos a la izquierda y las hojas a la derecha del tallo correspondiente. De esta manera cada tallo, que se representa una sola vez, define una clase y el número de hojas representa la frecuencia de dicha clase. © C E D E – www.pir.es Frecuencia 8 3 3 2 0 1 Tallo y Hojas 2 . 02344556 3 . 225 4 . 688 5 . 18 6. 7.6 Así, vemos en este gráfico que hay 8 personas que han tenido el primer brote psicótico que requirió ingreso hospitalarios con veintitantos años, 3 con treinta y tantos, 3 con cuarenta y tantos… Además, podremos observar que un sujeto tuvo este primer brote psicótico con 20, otro con 22, otro con 23, dos con 24, dos con 25 y uno con 26. Así podríamos hacer con todas las frecuencias. CEDE - C/ Cartagena, 129 - 28002 Madrid Tel.: 91 564 42 94 09. PSICOLOGÍA EXPERIMENTAL 09.02. ESTADÍSTICA 135 El gráfico de tallo y hojas nos sirve, igual que el diagrama de caja, para identificar la presencia de valores atípicos. Obsérvese que, a la luz de estas distribuciones del ejemplo, podríamos plantearnos si es posible que una persona presente un primer brote más allá de los 60 años y qué hacer con esos casos. 2.5. REPRESENTACIÓN GRÁFICA DE LA VARIABILIDAD: DIAGRAMA DE CAJA Y BIGOTES La técnica desarrollada por Tukey denominada caja y bigotes (box and whiskers), también conocida como diagrama o gráfico de caja (boxplot), es una representación gráfica que transmite de una manera directa y simple la variabilidad observada en un conjunto de valores. Para la construcción de esta representación, se calculan previamente la mediana, los cuartiles Q1 y Q3 (PIR 02, 171) y los valores extremos LI y LS, siendo LI (límite inferior) la menor observación mayor o igual que [Q1 – 1,5 (Q3 − Q1 )] y LS (límite superior) la mayor observación menor o igual que [Q3 + 1,5 (Q3 − Q1 )]. Las observaciones que caen fuera del intervalo (LI, LS) se consideran datos atípicos. Para la representación gráfica se marcan señales de tal forma que las distancias entre ellas sean proporcionales a las distancias entre la puntuación máxima, la mínima y los tres cuartiles. Con los tres cuartiles se forma una especie de ficha de dominó (la caja), cuya longitud se corresponde con el recorrido intercuartílico. Aunque en el gráfico que sirve como ejemplo la mediana se encuentra en el medio de la caja, no tendría que ser obligatoriamente así, ya que podemos encontrárnosla en cualquier punto dentro de la caja. Podemos observar que: si la mediana está en la parte inferior de la caja, entonces los datos son asimétricos positivos; si la mediana se aproxima a la parte superior de la caja diremos que la distribución es asimétrica negativa. A los lados se añaden dos prolongaciones (los bigotes) que se corresponden con 1,5 veces la longitud de la caja. Los valores que se distancian entre 1,5 y 3 longitudes de caja se denominan outliers. A los valores que se distancian 3 longitudes o más se les conoce como extremos (extreme) (PIR 11, 257). Así, observando este tipo de gráficos podemos determinar la tendencia central (mediana), la variabilidad de los datos (longitud de la caja), identificar la posible presencia de observaciones atípicas (valores extremos y outliers) y valorar la asimetría (según la posición de la mediana respecto a la caja. 3. ESTADÍSTICOS DE TENDENCIA CENTRAL Los estadísticos de tendencia central indican cuál es la puntuación global de un grupo de puntuaciones. 3.1. MEDIA ARITMÉTICA Si tenemos n valores numéricos, la media aritmética viene definida por su suma dividida por el número de valores: X = x1 + x 2 + + x n /n = Σx /n i En el caso de que los datos estén agrupados en intervalos Ia fórmula varía: X = n1x1 + n2 x 2 + + nr x r /n + n 1 2 + + nr = Σ nj x j /n n1 ... nr = Número de observaciones o frecuencia absoluta en cada uno de los intervalos. X1 ... Xr = Puntos medios de cada uno de los intervalos. n = Número total de observaciones. Ej.: 4, 6, 5, 8, 3; X = 26 5 = 5,2 El valor de la media aritmética calculado a partir de un conjunto de valores numéricos no agrupados en intervalos diferirá generalmente si se calcula agrupando los misrnos datos en intervalos. Solamente coincidirán ambas medias si el agrupamiento en intervalos se realiza definiendo intervalos elementales (intervalos de amplitud unidad). CEDE - C/ Cartagena, 129 - 28002 Madrid Tel.: 91 564 42 94 © C E D E – www.pir.es 136 09. PSICOLOGÍA EXPERIMENTAL 09.02. ESTADÍSTICA La media aritmética es un estadístico de tendencia central apropiado para variables cuantitativas (nivel de medida de intervalos o superior). 3.1.1. Propiedades de la media aritmética • La suma de las diferencias de n puntuaciones respecto a su media vale cero: Σ (X i − X) = (X1 − X) + (X 2 − X) + + (X n − X) = 0 • Si a un conjunto de valores numéricos (con un nivel de medida de intervalos o superior) le aplicamos una transformación admisible del tipo: (Y = aX + b), la media aritmética sufrirá idéntica transformación (PIR 01, 111, 120): X Y = aX + b X1 aX1 + b X2 aX2 + b X3 aX3 + b X Y = aX + b Con un ejemplo lo veremos fácilmente: Además de la media aritmética, que es generalmente a la que nos referiremos cuando hablemos de media sin especificar, existen otros tipos de medias. A continuación presentaremos las principales: Medias robustas: son aquellas que se ven menos afectadas por los datos atípicos. • Media recortada: excluir en el cálculo un porcentaje de los casos extremos de la distribución. • Media winsorizada: en lugar de excluir un porcentaje de casos extremos, se sustituyen estos por el valor inmediatamente superior o inferior a ese porcentaje de valores. • Media central: es el promedio de la parte central de la distribución. Trimedia (o mediana recortada): índice ponderado que utilizada los tres cuartiles para su cálculo. X TRI = (Q1 + 2Q2 + Q3 )/4 X Y = 2X + 3 1 5 2 7 3 9 X =2 Y =7 Meda: mediana de las desviaciones absolutas de la mediana. En el intervalo mediana +/− meda se encuentra, al menos, el 50% de las observaciones. MEDA = Mdn |xi − Mdn| • La media puede considerarse el “centro de gravedad” de una distribución de frecuencias, esto es, si representamos una distribución de frecuencias mediante un histograma, Ia media será aquel punto en el eje de abscisas que permitiría mantener en equilibrio la distribución. • La media no es el estadístico más apropiado cuando la distribución es muy asimétrica, esto es, cuando existen una o muy pocas puntuaciones en uno de sus extremos, ya que es muy sensible a las variaciones de los datos. • Si tenemos r grupos con n1, n2, ..., nr puntuaciones cada uno, y siendo X1 , X 2 , ..., X r sus correspondientes medias, entonces Ia media del conjunto de n puntuaciones es la siguiente: / X = (n1X1 + n2 X 2 + + nr X r ) n © C E D E – www.pir.es 3.1.2. Clases de medias Media ponderada: Es una media aritmética calculada sobre puntuaciones a las que el investigador otorga pesos específicos. En su fórmula, en el numerador se suman las puntuaciones, multiplicadas cada una de ellas por su peso específico. En el denominador figura la suma de los pesos de todas las puntuaciones: / X = (n1X1 + n2 X 2 + + nr X r ) (n1 + n2 + + nr ) Medias aritméticas generalizadas: Dentro de lo que se denomina “medias aritméticas generalizadas” se incluyen la media geométrica, la media armónica y la media cuadrática. Su nombre hace referencia al hecho de que haciendo alguna transformación sobre estas medias aritméticas generalizadas podríamos llegar a la media aritmética. CEDE - C/ Cartagena, 129 - 28002 Madrid Tel.: 91 564 42 94 09. PSICOLOGÍA EXPERIMENTAL 09.02. ESTADÍSTICA 137 • Media geométrica: • Media cuadrática: La media geométrica de n valores es la raíz enésima del producto de esos n valores: La media cuadrática de n valores es la raíz cuadrada de la media aritmética de los cuadrados de esos n valores. Expresado matemáticamente sería: X g = n (X1) (X 2 ) (Xn ) Si los datos estuvieran agrupados en intervalos la fórmula sería la siguiente: Xg = n (X 1 )n1 (X 2 )n2 (X n )nr La media geométrica es un valor tal que su logaritmo es igual a la media aritmética de los datos. La media geométrica se usa con más frecuencia que la aritmética en investigaciones sobre promedios de tiempos o de razones (PIR 04, 90). 2 1 + (X 2 )2 + + (X n )2 }/n Para datos agrupados en intervalos: Xc = n1, n2, ..., nr = número de observaciones o valores en cada intervalo. X1 ... Xr = Puntos medios de cada uno de los intervalos. n = Número total de observaciones. { (X ) Xc = { n (X ) 2 1 1 + n2 (X 2 )2 + + nr (X r )2 } /n n1, n2, ..., nr = Número de observaciones o valores en cada intervalo. X1 ... Xr = Puntos medios de cada uno de los intervalos. n = Número total de observaciones. La media cuadrática es un valor tal que su cuadrado es igual a la media aritmética de los cuadrados de los datos. Esta media se utilizará, por ejemplo, en los cálculos necesarios en el ANOVA. • Media armónica: 3.2. MEDIANA La media armónica de n valores es el recíproco de la media aritmética de los recíprocos de esos n valores. Si nos fijamos en la fórmula, la definición resulta más sencilla: La mediana es el punto o valor numérico que deja por debajo el 50% de las observaciones. Es un estadístico de tendencia central (aunque también de posición) que admite ser calculado para variables cuantitativas discretas e incluso para cuasi-cuantitativas, no obstante lo más frecuente es que se utilice en variables cuantitativas continuas. / / X a = 1 (1/ X1 + 1/ X 2 + + 1/ X n ) n Si los datos estuviesen agrupados en intervalos: / / X a = 1 (n1 / X1 + n2 / X 2 + + nr / X r ) n n1, n2, ... nr = Número de observaciones o valores en cada intervalo. X1 ... Xr = Puntos medios de cada uno de los intervalos. n = Número total de observaciones. La media armónica es un valor tal que su recíproco es igual a la media aritmética de los recíprocos de los datos. Se suele emplear en cálculos en los que la variable pone en relación diferentes unidades de medida, como por ejemplo la velocidad (espacio/tiempo), siendo estas variables muy comunes en estudios de psicofísica, por ejemplo. CEDE - C/ Cartagena, 129 - 28002 Madrid Tel.: 91 564 42 94 Su cálculo varía en función de si los datos se agrupan en intervalos o no. 3.2.1. Cálculo de la mediana en datos no agrupados en intervalos En primer lugar tenemos que ordenar todas las puntuaciones de menor a mayor, para a continuación proceder del siguiente modo según que el número de observaciones sea par o impar: Número impar de observaciones: Ej.: 3, 2, 6, 8, 1. Ordenados: 1, 2, 3, 6, 8. La mediana es la puntuación u observación que ocupa el lugar central. © C E D E – www.pir.es 138 09. PSICOLOGÍA EXPERIMENTAL 09.02. ESTADÍSTICA ( Número par de observaciones: / ) Md = L i + ((n / 2) − nb ) nd I Ej.: 3, 2, 6, 8, 1, 9. Ordenado: 1, 2, 3, 6, 8, 9. (3 + 6)/2 = 4,5. La mediana es la media aritmética de las puntuaciones correspondientes a las dos observaciones que ocupan los lugares centrales. 3.2.2. Cálculo de la mediana en datos agrupados en intervalos Supongamos que tenemos una muestra de 72 alumnos y sus correspondientes puntuaciones en un examen tipo test (la puntuación más baja obtenida ha sido de 10 y la más alta de 34); a continuación elaboramos una distribución de frecuencias agrupando los datos en intervalos y registrando en cada uno de ellos la frecuencia absoluta o número de alumnos que han obtenido una puntuación correspondiente a dicho intervalo: PUNTUACIONES FRECUENCIA 30-34 25-29 20-24 15-19 10-14 8 18 20 16 10 72 Antes de aplicar la fórmula del cálculo de la mediana hay que localizar el intervalo crítico. Como la mediana es la puntuación que deja por debajo y por encima el 50% de observaciones, y dado que el n de observaciones en nuestro ejemplo es de 72, la mediana se corresponderá aquí con la puntuación que deje por debajo y por encima 36 observaciones. El intervalo crítico es entonces aquél que contenga dicha puntuación; si nos fijamos en la distribución la puntuación 14 (límite aparente superior del primer intervalo) deja por debajo sólo 10 observaciones, por lo tanto la mediana no puede estar en él. En el siguiente intervalo el límite aparente superior deja por debajo (16 + 10) = 26 observaciones, luego tampoco puede contener la mediana. El límite aparente del intervalo superior sin embargo se pasa, pues deja por debajo (10 + 16 + 20) = 46 observaciones. Es precisamente en el intervalo 20-24 (o más exactamente 19,5-24,5 si lo expresamos con los límites exactos) donde se encuentra la mediana, la puntuación que deja por debajo y por encima 36 observaciones. Una vez localizado el intervalo crítico empleamos la siguiente fórmula para localizar la mediana: © C E D E – www.pir.es Li = Límite exacto inferior del intervalo crítico (19,5). (n/2) = Mitad o 50% de las observaciones (72/2). nb = Número de observaciones bajo el intervalo crítico (26). nd = Número de observaciones dentro del intervalo crítico (20). I = Amplitud del intervalo crítico (5). Md = Mediana (en nuestro ejemplo corresponde a la puntuación 22). La mediana puede obtenerse mediante la misma fórmula pero utilizando el límite exacto superior del intervalo crítico en lugar del inferior, y el número de observaciones por encima del intervalo crítico en vez del número de observaciones bajo el intervalo. 3.2.3. Propiedades de la mediana • La suma de las diferencias, en valor absoluto, de n puntuaciones respecto a su mediana es igual o menor que la suma de las diferencias, en valor absoluto, de esas puntuaciones respecto a cualquier otro valor. • La mediana es menos sensible que la media a las variaciones de cada una de las puntuaciones. En algunos casos puede quedar invariable, cosa que en muchas ocasiones no sucede con la media (basta que varíe una sola de las puntuaciones para que ésta varíe). • La mediana es un punto tal que la vertical levantada sobre el mismo, divide el área total del histograma en dos áreas con idéntica superficie. Es importante precisar que la mediana no tiene porqué coincidir con la media. Cuando la distribución es muy asimétrica es preferible como estadístico de tendencia central a la media. • Dados r grupos con sus correspondientes medianas, la mediana del grupo total es igual o mayor que la mediana mínima e igual o menor que la máxima. 3.3. MODA La definición de la moda varía según que la variable sobre la que se defina se encuentre a un nivel de medida de intervalos o razón, ordinal o nominal (PIR 04, 89; PIR 05, 89). Además, se distingue de la media y la mediana en que no necesariamente es única, pues en una distribución pueden existir dos o más modas, si a varios valores o categorías les corresponda una idéntica frecuencia máxima. En el caso de que solo haya una moda, hablaremos de distribuciones CEDE - C/ Cartagena, 129 - 28002 Madrid Tel.: 91 564 42 94 09. PSICOLOGÍA EXPERIMENTAL 09.02. ESTADÍSTICA 139 unimodales, mientras que si existe más de una moda, estaremos ante distribuciones multimodales. 3.3.1. La moda a nivel de intervalos o razón • Datos no agrupados: Es la puntuación a la que corresponde frecuencia máxima, esto es, la puntuación que más se repite. Ej.: 2, 4, 8, 2, 6. Moda: 2. • Datos agrupados en intervalos: Es el punto medio del intervalo al que corresponde frecuencia máxima. Considerando como ejemplo la distribución de frecuencias citada en el epígrafe de la mediana, en ésta la moda es la puntuación 22, pues es el punto medio del intervalo (20-24), al que corresponde la frecuencia máxima (20 observaciones). * En las distribuciones asimétricas positivas encontraremos más frecuencia de valores bajos. Una distribución será asimétrica negativa cuando la cola de la distribución vaya hacia la izquierda. En este caso ocurrirá al contrario, y nos encontraremos antes el valor medio de la distribución que el valor que deja por debajo de sí al 50% de los datos. Dicho de otra manera, la mediana será mayor que la media (PIR 02, 160; PIR 03, 48). 3.3.2. La moda a nivel ordinal Es la categoría o el valor ordinal al que corresponde la frecuencia máxima. En el epígrafe 2.3.1 presentábamos un ejemplo de distribución de frecuencias en una variable de nivel ordinal (clase social). En dicha distribución la moda es la categoría media media o valor numérico 3, pues le corresponde la frecuencia más alta de toda la distribución (20 observaciones o sujetos pertenecen a dicha clase). 3.3.3. La moda a nivel nominal Es muy similar a la moda a nivel ordinal, pues se trata de la modalidad o categoría nominal a la que corresponda la frecuencia máxima. En el ejemplo de distribución de frecuencias del apartado 2.3 (afiliación política), con una variable a nivel nominal, la moda se corresponde con la categoría nominal centro. 3.4. MEDIA, MEDIANA, MODA Y ASIMETRÍA Si la distribución es simétrica media y mediana coincidirán en el mismo valor, y también con la moda (si es unimodal) tal y como ocurre en la curva normal (PIR 14, 227). Una distribución será asimétrica positiva cuando la cola de la distribución vaya hacia la derecha. En este caso, la mediana será menor que la media, ya que es más probable que encontremos antes el valor que deje por debajo al 50% de la muestra que el valor medio de la distribución. CEDE - C/ Cartagena, 129 - 28002 Madrid Tel.: 91 564 42 94 * En las distribuciones asimétricas negativas existirá más frecuencia de valores altos. 3.5. APUNTAMIENTO O CURTOSIS La curtosis se refiere al apuntamiento o aplanamiento de la gráfica, lo que tiene su origen en que las frecuencias de la moda y las de los valores próximos a ella superen en mayor o menor grado las correspondientes a los restantes valores de la variable. Por ello, las medidas de apuntamiento o curtosis tienen significado válido sólo en el caso de distribuciones con simetría o ligera asimetría y unimodales, tratando de medir la mayor o menor cantidad de datos que se encuentran próximos a la moda: − Si hay gran cantidad de datos agrupados en torno a la moda (frecuencias altas para valores próximos a la moda), la gráfica será muy apuntada en esa zona, y se dice que es de tipo leptocúrtico: © C E D E – www.pir.es 140 09. PSICOLOGÍA EXPERIMENTAL 09.02. ESTADÍSTICA los sujetos se distribuyen por un amplio intervalo de valores y el número de sujetos en torno a la moda sería solo ligeramente superior al resto de valores (distribución platicúrtica) (PIR 12, 19). El grado de apuntamiento de una distribución estadística puede calcularse mediante determinados estadísticos, uno de los cuales es el coeficiente de apuntamiento de Fisher, según el cual: − Si la cantidad de datos próximos a la moda es sólo moderadamente alta con relación a las demás frecuencias, entonces se dice que la gráfica es de tipo mesocúrtico (ej.: curva normal): − Un valor 0 o muy próximo a 0 implica una distribución de tipo mesocúrtico. − Un valor positivo implica una distribución de tipo leptocúrtico (PIR 05, 83). − Un valor negativo implica una distribución de tipo platicúrtico. La fórmula es la siguiente: Coeficiente de apuntamiento de Fisher = (xi − x)4 ⋅ n − 3 Ap = N ⋅ S4 siendo: Ap: coeficiente de apuntamiento S4: desviación típica elevada a 4 xi: valor cualquiera (“i”) de la distribución o marca de clase del intervalo (valor central del intervalo) x: media total ni: frecuencia correspondiente al valor “xi” N: muestra total − Si la cantidad de datos agrupados en torno a la moda es sólo ligeramente superior al resto de los valores, la gráfica tiende más al aplanamiento que al apuntamiento y se dice que es de tipo platicúrtico: Cuando en una distribución existe mínima variabilidad significa que los sujetos se mueven todos en un intervalo de valores muy pequeño. Esto, en otras palabras, significa que muchos de los sujetos se agrupan en torno a la moda (distribución leptocúrtica). Si la variabilidad es muy grande, © C E D E – www.pir.es 4. ESTADÍSTICOS DE POSICIÓN: LOS CUANTILES Los estadísticos de posición nos indican la situación o posición de una puntuación o valor numérico con respecto al grupo del que procede. Aunque los estadísticos de tendencia central son considerados también estadísticos de posición, los cuantiles son un ejemplo más paradigmático de este tipo de medidas. Los cuantiles son valores que permiten estudiar la posición relativa de un individuo en una variable (PIR 03, 43). Se pueden definir también como un conjunto de K puntos que permiten dividir la distribución en K+1 partes iguales. Los más conocidos son los cuartiles, los deciles y, muy especialmente, los centiles o percentiles. Todos ellos constituyen una escala ordinal, sin unidad de medida constante, y, por tanto, no se da igualdad de diferencia (es decir, la distancia entre el centil 98 y el 99 no es la misma que la distancia entre el 50 y el 51), y en general las distancias son mayores en los extremos de la distribución que en el centro (PIR 03, 69; PIR 04, 83; PIR 05, 92). Por ejemplo, si estamos ante una distribución normal de CI, entre el centil 50 y 53 habrá un 3% de la muestra, al igual que entre el centil 96 y 99. La diferencia CEDE - C/ Cartagena, 129 - 28002 Madrid Tel.: 91 564 42 94 09. PSICOLOGÍA EXPERIMENTAL 09.02. ESTADÍSTICA está en que el centil 50 se corresponde con la puntuación 100, y el 53 con la puntuación 101. En cambio, con valores extremos, la diferencia entre puntuaciones puede ser mucho mayor (la puntuación que ocupa el centil 96 es 127, mientras que el centil 99 es 134). 141 En este sentido el percentil “J”, será, genéricamente, aquella puntuación que deje por debajo de sí a J% de observaciones (PIR 02, 154; PIR 08, 192). Por ejemplo, el percentil 15 (P15) será la puntuación que deja por debajo del sí al 15% de los datos. El percentil ya no es necesariamente un índice de tendencia central, pues por ejemplo el percentil 5 se encuentra alejado de la mediana por definición. Sí lo es, sin embargo de posición, pues nos indica qué proporción de observaciones se encuentran por encima y por debajo de una puntuación dada. Si obtenemos en un examen una calificación de 7 y queremos compararnos con el rendimiento de los demás alumnos, un modo eficaz puede ser identificar el percentil que corresponde a la puntuación 7. Si éste es elevado, entenderemos que un gran porcentaje de sujetos ha obtenido notas inferiores a la nuestra. Si por el contrario es bajo, concluiremos que la mayoría de los sujetos ha obtenido calificaciones por encima de 7. 100 Pc:50 101 Pc:53 Dif. en puntos = 1 Dif. en percentil = 3 127 Pc:96 134 Pc:99 Dif. en puntos = 7 Dif. en percentil = 3 4.1. CUARTILES Son tres valores (si echamos mano de la definición de cuantil, estaríamos hablando de K valores) de la variable que dividen a la distribución en cuatro partes iguales (siguiendo con la definición general, K+1 partes iguales), cada una de las cuales supone un 25% del total (PIR 01, 112). Se simbolizan por las letras Q1 Q2 y Q3, y se corresponden con los percentiles P25, P50 (= Mdn) y P75 respectivamente. 4.2. DECILES Son nueve valores de la variable que dividen la distribución en diez partes iguales de modo que cada parte será una décima o un 10% del total. Se emplea para designarlos el símbolo DK (K = 1, 2 .... 9). El D5 equivale al Q2 y por tanto a la mediana. 4.3. PERCENTILES Si se ha comprendido el significado de la mediana, será sencillo entender lo que significa un percentil, pues la mediana se puede considerar como un percentil 50, esto es, aquella puntuación que deja por debajo y por encima el cincuenta por ciento de las observaciones. CEDE - C/ Cartagena, 129 - 28002 Madrid Tel.: 91 564 42 94 El modo de calcularlo es similar al que empleábamos a la hora de obtener la mediana, pues la fórmula es muy similar (proponemos la que se emplea en el cálculo del percentil para datos agrupados en intervalos): / PJ = L i + ((Jn / 100) − nb ) nd I Recurramos al ejemplo de distribución que utilizamos en el cálculo de la mediana para datos agrupados; nos proponemos ahora calcular el Percentil 60, esto es, aquella calificación que deje por debajo el 60% de las observaciones, o dicho de otra manera, el que deje por encima de sí el 40% de los datos (PIR 03, 47). Lo primero que tenemos que hacer es identificar el intervalo crítico, aquél que contiene dicha calificación. El número total de observaciones es de 72, de modo que el 60% de observaciones es: (72 · 60) / 100 = 43,2 El percentil 60 será por tanto una puntuación que deje por debajo de sí 43,2 observaciones. El límite inferior del intervalo (20-24) deja por debajo de sí 26 observaciones, el límite superior de este intervalo deja 46; por lo tanto es éste el intervalo crítico que contiene el Percentil 60 (en este tipo de cálculos es cuando resulta útil un índice como Ia frecuencia acumulada o el porcentaje acumulado). A continuación sólo queda aplicar la fórmula: Li = Límite exacto inferior del intervalo crítico (19,5). (Jn/100) = Número de observaciones que corresponden al 60% (43,2). nb = Número de observaciones bajo el intervalo crítico (26). © C E D E – www.pir.es 09. PSICOLOGÍA EXPERIMENTAL 09.02. ESTADÍSTICA 142 nd = Número de observaciones dentro del intervalo crítico (20). I = Amplitud del intervalo crítico (5). P60 = En nuestro ejemplo corresponde a la calificación 23,8. Esta calificación deja por debajo el 60 por ciento de las observaciones. Desde un punto de vista gráfico significa que en el histograma de esta distribución, la vertical levantada sobre el Percentil 60 divide la distribución en dos áreas, siendo una de ellas equivalente al 60% de la superficie total y la otra al 40%. Podemos concluir que el valor de la mediana coincidirá con el del cuartil 2, el del decil 5 y el del percentil 50, para un mismo conjunto de datos y también son ciertas otras igualdades, entre ellas por ejemplo: (PIR 13, 78) 5.2. LA VARIANZA (Sx2) En la Desviación Media evitábamos que la suma de las diferencias de las puntuaciones respecto a la media fuera cero, utilizando sólo el valor absoluto de dichas diferencias. Otro modo de obtener un índice de dispersión es elevar al cuadrado estas diferencias, con lo cual se anula el signo de cada diferencia. De este modo nace la varianza, conocida mediante el símbolo S2 cuando hace referencia a una muestra (estadístico) y como σ2 cuando alude a la población (parámetro). Expresado matemáticamente la varianza de n puntuaciones sería: 2 Si en los anteriores apartados nos dedicamos a analizar los estadísticos de tendencia central y posición, a continuación vamos a centrarnos en aquéllos que hacen referencia a la variabilidad. Los estadísticos de variabilidad nos informan acerca de si las puntuaciones se encuentran muy próximas entre sí o muy dispersas. De este modo, es posible encontrar dos grupos de puntuaciones con idéntica media, pero con diferente variabilidad o dispersión. La variabilidad nunca puede ser negativa, siempre será ≥ 0. 5.1. DESVIACIÓN MEDIA (DM) Es la media de las diferencias, en valor absoluto (de Io contrario sería cero el resultado), de las puntuaciones respecto a su media aritmética. Expresado matemáticamente: (X 1 − X + X 2 − X + + Xn − X ) /n = Σ X i −X / n En el caso de tener que calcular la Desviación Media para datos agrupados en intervalos la fórmula sería la siguiente: DM = Σnj X j − X /n nj = Número de observaciones en el intervalo “j” (o frecuencia absoluta). Xj = Punto medio del intervalo “j”. n = Número total de observaciones. © C E D E – www.pir.es 2 / 2 2 n = Σ (Xi − X) / n De esta fórmula se pueden derivar otras expresiones equivalentes que permiten un cálculo más sencillo y rápido: 5. ESTADÍSTICOS DE VARIABILIDAD Y DISPERSIÓN DM = 2 Sx = ((X − X) + (X2 − X) + + (Xn − X) 1 Decil 1 = centil 10 Cuartil 1 = percentil 25 S2x = Σ X i2 / n − X 2 Cuando los datos se presentan agrupados en intervalos las tres fórmulas se modifican ligeramente: S2x = Σ nj (X j − X)2 /n / S2x = Σ nj X 2j (n − X 2 ) / S2x = (n Σ nj X 2j − (Σ nj X j )2 ) n2 nj = Número de observaciones en el intervalo “j” (o frecuencia absoluta). Xj = Punto medio del intervalo “j”. n = Número total de observaciones. Cuanto mayor sea la variabilidad o dispersión de las puntuaciones, mayor será la varianza. Generalmente la varianza es un valor numérico muy elevado, por lo que se prefiere expresarla como Desviación típica o estándar (Sx). Ésta no es más que la raíz cuadrada de la varianza: Sx = S2x La varianza es un índice de dispersión adecuado cuando la variable se encuentra a nivel de medida de intervalos como mínimo, y cuando la distribución de la misma no es demasiado asimétrica, si así fuera es más apropiado un índice como la Amplitud Semi-intercuartil. CEDE - C/ Cartagena, 129 - 28002 Madrid Tel.: 91 564 42 94 09. PSICOLOGÍA EXPERIMENTAL 09.02. ESTADÍSTICA Sy = a S x La Cuasivarianza se define: n S2c (X i − X)2 = i =1 n−1 143 n = S2 n−1 x Es semejante a la Varianza, excepto que la división es por n − 1 (tamaño de la muestra) y no por N (tamaño del grupo de datos). Este estadístico es apropiado para obtener estimaciones de la Varianza de la población en el análisis inferencial de datos. 5.2.1. Propiedades de la Varianza y la Desviación típica • El valor de la varianza y de la desviación típica siempre será mayor o igual que cero. • Cuando a una variable (X) le aplicamos una transformación admisible (Ver epígrafe de V. Cuantitativas), la varianza de las nuevas puntuaciones es el resultado del producto de la primitiva varianza por el cuadrado de la pendiente (la constante que multiplica a la variable): Xi Yi = aXi + b X1 X2 · · · · · · Xn Y1 = aX1 + b Y2 = aX2 + b · · · · · · Yn = aXn + b X Y = aX + b S2x S2y = a 2S2x Por ejemplo, Xi Yi = 2Xi + 3 1 5 2 7 3 9 X =2 Y =7 2 x S2y = 22 · 0,7 = 2,7 S = 0,7 Si tomamos el mismo ejemplo que en el caso de la varianza, la desviación de Xi sería 0.82, mientras que la de Y sería 2 · 0,82 = 1,64. • Si a un conjunto de puntuaciones le sumamos una constante, la varianza y la desviación típica de las nuevas puntuaciones será igual que la varianza y la desviación típica de las originales, pues al añadir una constante lo que se ha hecho es trasladar todas las puntuaciones una misma distancia, sin alterar la posición relativa que tienen todas entre sí, con lo cual la dispersión permanece inalterada. • La varianza y la desviación típica de una distribución se modifican con que cambie una sola de las puntuaciones de dicha distribución. La razón es que estos índices de dispersión dependen de la media, y ésta se altera con cualquier modificación en las puntuaciones que la constituyen. • La desviación típica viene expresada en las mismas unidades que los datos. Si tenemos una distribución cuyas puntuaciones expresan distancia en metros, la desviación típica nos vendrá dada en metros. No así con la varianza, que en este caso vendrá expresada en metros cuadrados. • La varianza total de un grupo de puntuaciones, cuando se conocen los tamaños, las medias y las varianzas de varios subgrupos hechos a partir del grupo total, mutuamente exclusivos y exhaustivos, puede obtenerse sumando la media (ponderada) de las varianzas y la varianza (ponderada) de las medias (PIR 03, 44). Es decir: S2T = [(∑ nj S2j ) / ∑ nj] + [∑ nj (x j − x T )2 / ∑ nj] • El porcentaje de puntuaciones que quedan entre la media +/− k desviaciones típicas es, como mínimo el [1 − (1/k2) x 100] de las observaciones. Esta propiedad es conocida como desigualdad de Tchebychev ya que recoge el hecho de que las distancias menores hasta la media son más frecuentes que las distancias mayores. Aplicando la fórmula obtenemos que como mínimo entre la media +/− dos desviaciones típicas se encuentran el 75% de la muestra, y entre tres se encuentra al menos el 88,9% de los datos sea cual sea el tipo de distribución. En el caso concreto de la curva normal, se dan los siguientes datos (PIR 12, 69): Como la desviación típica es el resultado de la raíz cuadrada de la varianza, en el caso de una transformación admisible, la desviación típica de las nuevas puntuaciones será: CEDE - C/ Cartagena, 129 - 28002 Madrid Tel.: 91 564 42 94 © C E D E – www.pir.es 144 09. PSICOLOGÍA EXPERIMENTAL 09.02. ESTADÍSTICA ASI = (P75 − P25 )/2 = (Q3 − Q1)/2 5.4.1. Propiedades de Ia Amplitud Semi-intercuartil 5.3. AMPLITUD TOTAL Es la diferencia entre la puntuación máxima y la mínima. Aunque también puede venir expresada como la diferencia entre la puntuación máxima y la mínima más una unidad, en el caso de que se consideren las puntuaciones como intervalos elementales. Por ejemplo, dadas las siguientes puntuaciones: 20, 32, 50, 61, 73 La amplitud total puede ser la diferencia entre la puntuación máxima (73) y la mínima (20), esto es: 53; aunque también es válido considerar las puntuaciones como intervalos elementales de amplitud una unidad y entonces calcular la amplitud total restando los límites exactos: Límite exacto superior de la puntuación máxima − Límite exacto inferior de la puntuación mínima: (73,5 − 19,5 = 54). En el caso de que las puntuaciones se agrupen en intervalos (esto es, en intervalos compuestos o de más de una unidad de amplitud), la amplitud total será la diferencia entre el punto medio del intervalo máximo y el punto medio del intervalo mínimo. Ahora bien, aquí la amplitud total también puede calcularse mediante la diferencia entre el límite exacto superior del intervalo máximo y el límite exacto inferior del intervalo mínimo. Una de las características de la amplitud total como índice de dispersión es que si las puntuaciones máxima y mínima permanecen constantes pero varían las intermedias, ésta no variará pero sí lo harán la varianza y la desviación media. La amplitud total también se conoce como recorrido o rango. 5.4. AMPLITUD SEMI-INTERCUARTIL Es la mitad de la distancia (de ahí lo de semi-intercuartil) entre el tercer cuartil y el primer cuartil, esto es, entre el percentil 75 y el percentil 25. Para hallarlo utilizamos el 50% central de los datos (PIR 05, 84), y lo dividimos por la mitad. Expresado matemáticamente: © C E D E – www.pir.es • En distribuciones muy asimétricas es preferible a la varianza o a la desviación típica. • Se aplica solo en variables definidas a nivel ordinal o superior. • Es menos sensible que la varianza y que la desviación típica a la variación de los datos. 5.5. COEFICIENTE DE VARIACIÓN Cuando se trata de comparar la dispersión o variabilidad de dos conjuntos de datos, los anteriores índices son problemáticos en dos sentidos: 1. Si comparamos las variabilidades de dos variables distintas, definidas sobre un grupo de sujetos, sus respectivas desviaciones típicas vendrán expresadas cada una en unidades de medida diferentes (por ejemplo: peso en kilos y altura en metros), con lo cual no será posible compararlas. 2. Otra dificultad surge cuando aún siendo la misma variable, los dos conjuntos cuyas variabilidades queremos comparar poseen medias muy diferentes (PIR 03, 46; PIR 05, 82). La desviación típica del peso de un grupo de recién nacidos puede ser de 0,5 Kg., mientras que la de un grupo de niños de primero de Educación Primaria bien pudiera estar en torno a 5 Kg. ¿Cuál de los dos grupos tiene mayor variabilidad? No podemos saberlo mediante la desviación típica. Para soslayar estas dificultades dividimos las desviaciones típicas de los grupos que queremos comparar por sus respectivas medias. La fórmula, entonces, del Coeficiente de Variabilidad es la siguiente: CV = Sx /X Se aplicaría por tanto dicha fórmula a cada una de las variables, y los resultados sí se podrían comparar, ya que eliminamos la unidad de medida de cada una de las variables (el CV tiene su propia unidad de medida). Con frecuencia el CV se expresa multiplicando el cociente por 100: CV = (Sx / X) 100 CEDE - C/ Cartagena, 129 - 28002 Madrid Tel.: 91 564 42 94 09. PSICOLOGÍA EXPERIMENTAL 09.02. ESTADÍSTICA 145 5.5.1. Propiedades del Coeficiente de Variación 6.3. PUNTUACIÓN TÍPICA • Si a cada una de las puntuaciones de un conjunto se les suma una cantidad positiva, el CV disminuirá, pues la desviación típica se mantendrá constante, pero la media aumentará en esa cantidad. Por tanto el cociente disminuirá ya que la media constituye su denominador. Por el contrario si se lleva a cabo una resta, el CV aumentará. Se obtiene dividiendo la puntuación diferencial por la desviación típica. Este tipo de puntuaciones se representa en estadística por la letra latina minúscula (z). • Si a cada una de las puntuaciones de un conjunto se las multiplica por una constante positiva el CV no se alterará, pues el numerador (la desviación típica) y el denominador (la media) quedarán multiplicados por la misma cantidad. La puntuación típica nos indica cuántas desviaciones típicas se separa el sujeto de la media de la muestra a la que pertenece, por lo que es la calificación estándar más elemental y útil (PIR 04, 92). Así, una puntuación típica de 2 quiere decir que el sujeto se encuentra dos desviaciones típicas por encima de la media (PIR 01, 127), mientras que una puntuación típica de -2 significa que está dos desviaciones típicas por debajo de la media. • El CV podría ser teóricamente negativo, pues la media es en algunos casos un valor negativo. No obstante, por definición, se tomará el valor absoluto, pues ningún estadístico de dispersión tiene sentido como valor negativo. 6. PUNTUACIONES DIRECTAS, DIFERENCIALES Y TÍPICAS 6.1. PUNTUACIÓN DIRECTA Es la puntuación que resulta de aplicar la escala de medida correspondiente a una variable. Hasta ahora todos los ejemplos que hemos presentado se han basado en este tipo de puntuaciones. En Estadística se representan por letras mayúsculas latinas. Una puntuación expresada en su forma directa no nos permite conocerla en relación al resto de las puntuaciones. 6.2. PUNTUACIÓN DIFERENCIAL Es la puntuación directa menos la media. En Estadística suele representarse por una letra latina minúscula. Esta transformación a puntuaciones diferenciales sí que permite conocer cómo se encuentra una puntuación respecto a las demás, ya que si la puntuación diferencial que se obtiene es positiva, entonces la puntuación directa que ha originado la diferencial se encuentra por encima de la media; si por el contrario es negativa, la puntuación directa estará bajo la media. Si la puntuación diferencial fuese cero, significaría que puntuación directa y media coinciden. xi = X − X Así, si un sujeto obtiene una puntuación diferencial de 2, significará que se encuentra dos puntos por encima de la media, mientras que si tiene una puntuación diferencial de −2 significará que el sujeto está 2 puntos por debajo de dicha media. zi = x i Tel.: 91 564 42 94 x 6.3.1. Propiedades de las puntuaciones diferenciales y típicas • La media de las puntuaciones diferenciales es cero (PIR 01, 113). La transformación de puntuaciones directas a diferenciales es una transformación admisible aplicada sobre todas y cada una de las puntuaciones de un conjunto. Si tenemos en cuenta las propiedades que expusimos acerca de la media, tenemos que la media de las puntuaciones diferenciales es: Xi xi = Xi − X X1 x1 = X1 − X x2 = X2 − X X2 · · · · · · X · · · · · · xn = Xn − X x = X + ( − X) = 0 X • Basándonos en las propiedades de la varianza y la desviación típica (varianza y desviación de puntuaciones obtenidas por transformaciones admisibles) tendremos que la desviación típica de las puntuaciones diferenciales es equivalente al producto del cuadrado de la pendiente por la desviación típica de las puntuaciones directas; como la pendiente es (1) la desviación típica de las puntuaciones diferenciales es igual a la desviación típica de las puntuaclones directas de las cuales proceden. SX CEDE - C/ Cartagena, 129 - 28002 Madrid /S Sx = (1) SX © C E D E – www.pir.es 09. PSICOLOGÍA EXPERIMENTAL 09.02. ESTADÍSTICA 146 • La media de las puntuaciones típicas es cero (PIR 01, 114; PIR 05, 91). Una puntuación típica es también el resultado de una transformación admisible, con lo que la media puede calcularse del mismo modo que en el caso de las puntuaciones diferenciales. Como la media de las puntuaciones diferenciales es cero, por consiguiente la de las típicas también lo será: /S = x /S = x /S xi zi = x i x x1 z1 x x2 z2 · · · · · · · · · · · · xn zn = x i x =0 z = (1/ Sx ) x + 0 = 0 i i /S x x • Aplicando otra vez las propiedades de la varianza y la desviación típica para transformaciones admisibles, encontramos que la desviación típica de las puntuaciones típicas es igual a la unidad (PIR 02, 163), al igual que su varianza (PIR 01, 121): Sx Sz = (1/ Sx) Sx = 1 • Si multiplicamos las puntuaciones típicas por una constante A y sumamos a esos productos otra constante B, las nuevas puntuaciones tendrán como media a B y como desviación típica a A . 6.4. OTRAS TRANSFORMACIONES DE LAS PUNTUACIONES La transformación a puntuaciones típicas representa la transformación lineal de las puntuaciones más común. No supone una alteración de la distribución original de las puntuaciones, ya que la respeta: si la distribución original era normal, permanece así después de la transformación; si por el contrario era sesgada positiva o negativamente, platicúrtica o multimodal, estas características también se mantienen después de la transformación. 6.4.1. Puntuaciones típicas derivadas o transformadas Una vez realizada la transformación a puntuaciones típicas, éstas pueden transformarse de nuevo linealmente a una nueva escala con media y desviación típica fijadas por © C E D E – www.pir.es el usuario del test. Si a un conjunto de puntuaciones típicas les aplicamos una transformación lineal admisible, obtendremos un segundo tipo de puntuaciones que se denominan “puntuaciones típicas derivadas” o transformadas. La transformación aplicada es la siguiente: T= z ST + T Al tratarse de una transformación lineal, respeta la distribución original en la que estaban las puntuaciones directas. El usuario del test puede fijar arbitrariamente la media y la desviación típica deseadas; sin embargo hay una serie de escalas lineales derivadas de amplio uso. Por ejemplo, de este procedimiento se derivan las puntuaciones T como una transformación lineal de las puntuaciones típicas, en la que la media es 50 y la desviación típica 10. Las puntuaciones de CI, asimismo, suelen tener una media 100 y una desviación típica de 15 o 16 (PIR 03, 52; PIR 04, 93). 6.4.2. Transformaciones no lineales Además de las transformaciones lineales, pueden realizarse transformaciones no lineales sobre las puntuaciones. Estas transformaciones no lineales sí alteran la forma de las distribuciones originales. Una de estas transformaciones serían los rangos percentiles, escala muy utilizada para comunicar los resultados de los tests normativos a los no expertos. Ya que las escalas de percentiles son una transformación no lineal de la distribución original. En diferentes regiones de la escala de puntuaciones directas una diferencia de un punto puede corresponder a diferencias distintas en la escala de rangos percentiles. Su distribución es desigual (sobre todo en los extremos); por ello no deben realizarse cálculos aritméticos ni estadísticos tales como medias o comparaciones de grupos con puntuaciones en escala de rangos percentiles (ni compararlas si se han obtenido en diferentes pruebas) (PIR 11, 57). La segunda transformación no lineal posible es la normalización. Las distribuciones de las puntuaciones directas y sus transformaciones lineales dependen de ciertas características del instrumento de medida empleado y por ello suele ser conveniente transformar la escala a algún otro sistema de puntuaciones o de unidades independiente de las características del instrumento de medida particular utilizado y, en cierto sentido, igualmente espaciadas: la distribución normal. Esta normalización es especialmente aconsejable si conocemos que el rasgo psicológico medido se distribuye normalmente en la población. Las puntuaciones típicas normalizadas diferirán de las típicas linea- CEDE - C/ Cartagena, 129 - 28002 Madrid Tel.: 91 564 42 94 09. PSICOLOGÍA EXPERIMENTAL 09.02. ESTADÍSTICA les más o menos, según la desviación de la normalidad de la distribución original. Estas puntuaciones típicas normalizadas se basan en los percentiles: a partir del percentil correspondiente a una puntuación, se obtiene la puntuación z correspondiente en la distribución normal. Por ejemplo, si en una determinada distribución de puntuaciones, la puntuación 7 supone un percentil 40 ya que deja por debajo de sí el 40% de los datos, habrá que buscar la puntuación típica normal que se corresponda con una p = 0,40, que es zn = −0,25. Y así se irán transformando todas las puntuaciones. Basándonos en las puntuaciones típicas normalizadas pueden realizarse nuevas transformaciones lineales fijando previamente la media y la desviación típica de la escala deseada, obteniendo así puntuaciones típicas normalizadas derivadas. Entre las escalas normalizadas derivadas más comunes se encuentra la Escala de eneatipos o estaninos. Los eneatipos o estaninos (cuyo nombre procede de la adaptación al castellano de los términos “standard nine”) son una transformación lineal de puntuaciones típicas normalizadas, con una media 5 y una desviación típica aproximada de 2, tal que: Eneatipo = 2 zn + 5 Esta escala sólo admite valores enteros entre 1 y 9, y tiene porcentajes preasignados basados en la distribución normal, divididos en intervalos con amplitud correspondiente a ½ desviación típica, excepto los dos extremos que son abiertos. 6.5. INTERPRETACIÓN DE PUNTUACIONES DIRECTAS, DIFERENCIALES Y TÍPICAS Una persona obtiene una calificación en un examen tipo test de 40 puntos (puntuación directa). Apenas podemos decir nada de esta persona en relación a su grupo de referencia (por ejemplo sus compañeros de examen). Ahora bien, si calculamos la media y restamos a la puntuación directa esta última, obtenemos una puntuación diferencial. Supongamos que la media es 30, entonces la puntuación diferencial de este alumno será de 10; al ser positiva nos informa de que nuestro alumno tiene una calificación que es superior a la media de sus compañeros (en concreto 10 puntos superior). Ahora bien, ¿es muy superior a la media o sólo ligeramente superior? Si la mayoría de sus compañeros se desvían de la media en 10 o más puntos (hay una alta variabilidad), el “mérito” de este alumno es modesto. Por el contrario, si la mayoría se sitúan en torno a la media (poca variabilidad), entonces este alumno se ha destacado mucho respecto al grupo. La puntuación típica nos permite un juicio objetivo sobre cuánto se aparta una puntuación CEDE - C/ Cartagena, 129 - 28002 Madrid Tel.: 91 564 42 94 147 respecto de la media en relación al resto de puntuaciones. Si en nuestro ejemplo la desviación típica del grupo fuese 10, la puntuación típica de nuestro alumno sería (10/10 = 1), lo cual significa que este alumno se sitúa respecto a sus compañeros a una desviación típica (o a una unidad típica) por encima de la media. El uso de puntuaciones típicas también tiene otras ventajas. Supongamos que el anterior examen lo hemos pasado a dos grupos de alumnos muy distintos. Ambos obtienen medias y desviaciones típicas muy diferentes entre sí, con lo que resultaría muy difícil comparar las puntuaciones de los dos grupos. Un modo de solucionarlo es expresar las puntuaciones de ambos grupos en puntuaciones típicas. En la medida que la media de puntuaciones típicas vale cero y la desviación típica de las mismas uno, tendremos dos distribuciones con idéntica media y desviación, lo cual facilitará la comparación. Por otra parte, la unidad típica es un número abstracto sin los problemas de unidad de medida que dificultan la comparación entre diferentes características. De lo anterior no se debe deducir necesariamente que dos puntuaciones típicas, cada una de un grupo distinto, signifiquen exactamente lo mismo, pues detrás de cada una de ellas habrá puntuaciones directas posiblemente distintas y percentiles diferentes (cada una podrá dejar por debajo distintos porcentajes de sujetos). No obstante, en psicología, ocurre que la mayoría de las características se distribuyen normalmente (las representaciones gráficas de las distribucionos de frecuencias se asemejan a la curva normal o Campana de Gauss), de modo que cuando transformamos en típicas las puntuaciones de dos grupos, podemos considerar que, a idénticas puntuaciones típicas, se corresponden idénticos porcentajes de observaciones por debajo o por encima de las mismas. 6.6. LA CURVA NORMAL Aunque hablaremos más detenidamente de ella cuando tratemos la Estadística Inferencial, merece la pena destacar algunos aspectos de la distribución más habitual que aparece en los tratados de psicología. Si construimos un test de inteligencia y lo aplicamos a una población de sujetos, lo más probable es que la distribución de las puntuaciones directas obtenidas en el test por dicha población adquiera, en su representación gráfica, la forma de Ia “campana de Gauss” o curva normal. Toda distribución normal tiene las siguientes características básicas: © C E D E – www.pir.es 148 09. PSICOLOGÍA EXPERIMENTAL 09.02. ESTADÍSTICA • Tiene un único punto máximo, para X = μ (media poblacional). • Tiene dos puntos de inflexión: X=μ−σ X=μ+σ • Se acerca asintóticamente al eje de abscisas, esto es se acerca más y más a ese eje, tanto por la derecha como por la izquierda, sin llegar a tocarlo en ningún punto finito. • La distribución normal se caracteriza por ser simétrica respecto al eje vertical que pasa por la media. Su mediana divide su representación gráfica de modo que una de las áreas es reflejo de la otra, como si la mediana fuese un espejo. En toda distribución simétrica la mediana y la media coinciden (PIR 02, 166). En el caso de la curva normal la mediana y la media coinciden además con la moda, por ser ésta una distribución unimodal. Normal Si a continuación transformamos las puntuaciones directas de esta población en puntuaciones típicas tendremos de nuevo otra curva normal, pero en este caso sabemos que la media valdrá cero y la desviación típica la unidad. Esta curva se llama normal tipificada. Por otro lado, la mayor parte del rango de la distribución se encontrará comprendida entre las puntuaciones típicas (−3) y (+3), en concreto el 99,74% del área contenida bajo la curva. Normal tipificada © C E D E – www.pir.es CEDE - C/ Cartagena, 129 - 28002 Madrid Tel.: 91 564 42 94 09. PSICOLOGÍA EXPERIMENTAL 09.02. ESTADÍSTICA 149 ESQUEMA DE CONTENIDOS CEDE - C/ Cartagena, 129 - 28002 Madrid Tel.: 91 564 42 94 © C E D E – www.pir.es