Download 6.2. cálculo

Document related concepts

Medidas de dispersión wikipedia , lookup

Parámetro estadístico wikipedia , lookup

Desviación típica wikipedia , lookup

Varianza wikipedia , lookup

Unidad tipificada wikipedia , lookup

Transcript
Tema 10
DISPERSIÓN DE UN GRUPO DE
DATOS
1. Introducción
2. Amplitud total o rango
2.1. Definición y cálculo
2.2. Propiedades
3. Desviación Media
3.1. Definición
3.2. Cálculo
3.3. Propiedades
4. Varianza y desviación típica
4.1. Definición
4.2. Calculo
4.3. Propiedades
5. Amplitud semiintercuaril
5.1. Definición
5.2. Cálculo
5.3. Propiedades
6. Coeficiente de Variación
6.1. Definición
6.2. Cálculo
6.3. Propiedades
7. Otras medidas de variabilidad
8. Transformación de las puntuaciones
Amón, J. (1991). Estadística para psicólogos. Vol I.
Estadística Descriptiva. Madrid: Pirámide.
Botella, J.; León, O.; San Martín, R., y Barriopedro, M.I.
(2001). Análisis de Datos en Psicología I. Teoría y
Ejercicios. Madrid: Pirámide.
De la Fuente, E.I. y García, J. (1998). Análisis de datos en
Psicología. Ejercicios de estadística descriptiva. Granada:
Urbano.
Escobar, M. (1999). Análisis gráfico/exploratorio. Cuadernos
de Estadística nº 2. Madrid: Muralla-Hespérides.
Freixa, M., Salafranca, L., Guardia, J., Ferrer, R. y Turbany,
J. (1992). Análisis Exploratorio de Datos: nuevas técnicas
estadísticas. Barcelona: PPU.
McRae, S. (1995). Modelos y métodos para las Ciencias del
Comportamiento. Barcelona: Ariel.
Merino, J.M; Moreno, E; Padilla, M; Rodríguez-Miñón, P;
Villarino, A. (2001). Análisis de Datos en Psicología I.
Madrid: UNED.
Palmer, A. (1995). El análisis exploratorio de datos.
Madrid: Eudema
Pérez, F.J., Manzano, V. y Fazeli, H. (1998). Problemas
resueltos de Análisis de Datos. Madrid: Pirámide.
Pérez, F.J., Manzano, V. y Fazeli, H. (1999). Análisis de
Datos en Psicología. Madrid: Pirámide.
San Martín, R., Espinosa, L. y Fernández, L. (1987).
Psicoestadística Descriptiva. Madrid: Pirámide.
Stenberg, R.J. (1993). Investigar en Psicología. Barcelona:
Paidós.
1. INTRODUCCIÓN
Las medidas de posición tratan de resumir en una sola
cifra el conjunto de un colectivo. No obstante, dos
conjuntos de datos pueden tener la misma media y ser
muy distintos.
La variabilidad o dispersión nos indica si esas
puntuaciones se encuentran muy próximas entre sí o
muy dispersas.
Por ejemplo:
7, 9 y 11 y 1, 10 y 16 tienen la misma media 9 pero la
variabilidad del segundo grupo de puntuaciones es
mayor que la del primero.
Ejemplo:
Conjunto 1: 4, 5, 6, 7, 8, 9 10; Media = 7
Conjunto 2: 2, 3, 4, 7, 10, 11, 12; Media = 7
Los datos anteriores son además simétricos. El
ejemplo pone de manifiesto la necesidad de
complementar la media, que es una medida de
posición, con otro valor numérico que exprese la
dispersión de los datos a su alrededor.
Existen varias medidas que expresan la variación
de los datos en torno al valor central
2. AMPLITUD TOTAL O RANGO
2.1. DEFINICIÓN Y CALCULO
Se define como la diferencia entre la puntuación máxima y
la mínima y está en la misma métrica que la variable:
At=Xmax- Xmin+1.
Para el conjunto 1: 10-4 = 6; para el conjunto 2: 12-2 = 10
Si tenemos en cuenta datos agrupado en intervalos es la
diferencia entre la puntuación máxima y la mínima mas
una unidad.
1.2. PROPIEDADES
1. Es muy fácilmente calculable
2. Presenta el inconveniente de tener en cuenta sólo las
puntuaciones extremas, con lo cual es muy sensible a
éstas. Si estas se mantienen constantes se mantendrá
constante aunque el resto de puntuaciones varíen.
3. DESVIACIÓN MEDIA
3.1. DEFINICIÓN
Una forma intuitiva de definir la dispersión respecto de la
media sería obteniendo las desviaciones o diferencias
de todas y cada una de las puntuaciones y
promediarlas, pero ese promedio vale siempre 0, esta
opción no sirve.
Dos soluciones: tomar las desviaciones en valor absoluto
o elevarlas al cuadrado. La primera solución se toma
en la Desviación media, la segunda en la varianza.
Definimos la desviación media, como la media en valor
absoluto de n puntuaciones respecto de su media
aritmética
n
DM 
 (X
i 1
i
n
 X)
3.2. CALCULO
a) Datos no agrupados
Aplicamos directamente la formula
b) Datos agrupados
Dm ( X ) =
 ni | X I - X |
N
Tiempo
ni
Xi
niXi
|Xi-X|
ni|Xi-X|
1-15
16-30
31-45
4
4
2
8
23
38
32
92
76
12
3
18
48
12
36
10
X=200/10=20
DM=96/100=9.6
200
96
3.3. PROPIEDADES
1. Es fácilmente calculable e inteligible
2. Se usa raramente debido a que los valores absolutos
son muy poco manejables matemáticamente
3. No tiene buenas propiedades estadísticas y no es base
de otros cálculos
4. VARIANZA Y DESVIACIÓN TÍPICA
4.1. DEFINICIÓN
Una solución alternativa es elevar las desviaciones al cuadrado y
promediarlas, es decir, obtener la media de las desviaciones al
cuadrado. Esta solución se denomina Varianza de la
distribución. Está en una métrica diferente, la métrica de la
variable elevada al cuadrado
Para volver a la misma métrica, se extrae la raíz cuadrada de la
varianza, estadístico conocido como Desviación típica
La varianza presenta propiedades óptimas, muy útiles en el
desarrollo de otros conceptos estadísticos
Definimos la varianza como la media de las diferencias al
cuadrado de n puntuaciones respecto de su media aritmética
 X
n
s 
2
x
i 1
X
2
i
n
Definimos desviación típica como la raíz
cuadrada positiva de la varianza.
sx  s
2
x
4.2. Cálculo
Datos no agrupados
Aplicación directa de la formula anterior a los datos
 X
n
s x2 
i 1
X
2
i
n
Desarrollando esta fórmula podemos llegar a otra fórmula de cálculo
más cómodo
S 
2
x
2
X
 i
n
X
2
Sean los datos :
X:
35
36
21
45
38
Su media :
X  175 / 5  35
X2:
1225 1296 441 2025 1444
X X:
0
X  X  : 0
2
 X
n
s x2 
i 1
1
 14 10
3
1
196 100
9
i  X
2
n
S x  7,823 

306
 7,823
5
Según
s
2
x
X


2
i
2
X 
n
S x  7,823 
6431
 352  1286,20  61,20  7,823
5
b) Datos agrupados
Para su cálculo utilizamos la siguiente fórmula :
 n X
n
s x2 
i 1
i
X
2
i
n
De esta formula se deduce la siguiente de cálculo más fácil :
s 
2
x
2
n
X
 i i
n
X
2
ni
10-29
30-49
50-69
70-89
xi2
Xi
38
18
31
20
19,5
39,5
59,5
79,5
niXi
380,25
1560,25
3540,25
6320,25
107
niXi2
741,00
711,00
1844,50
1590,00
14449,50
28084,50
109747,75
126405,00
4886,50
278686,75
(Xi-X)
(Xi-X)2
ni(Xi-X)2
-26,16
-6,16
13,82
33,83
684,76
38,04
191,32
1140,60
26021,03
684,79
5931,04
22892,08
55528,94
4886,50
 45,66
107
Según
X 
 ni X i  X 
n
s x2 
2
i 1
S x
n
22,78

55528,94
 22,78
107
Según
s
2
x
n X

S x
i
n
22,78
2
i
2
X 
278686,75
 45,66 2  2604,54  2085,56  22,78
107
4.3. PROPIEDADES
1. La varianza y la desviación típica son fundamento de
muchas técnicas psicológicas de gran importancia en
Psicología
2. Son sensibles a la variación de cada una de las
puntuaciones. Baste con que varíe una de éstas para
que varíen. Es debido a que dependen de todas y
cada una de las puntuaciones y de la media
3. Son función de los intervalos elegidos (de su amplitud,
de su número y de los límites de éstos)
4. La desviación típica viene expresada en las mismas
unidades que los datos, no ocurre lo mismo con la
varianza que estaría al cuadrado. Por ejemplo si los
datos vienen dados en metros, la desviación típica
vendrá dada en metros, pero la varianza vendrá en
metros cuadrados.
5. No serán calculables ni recomendables cuando no sea calculable o
recomendable la media como medida de tendencia central. Y
será recomendable su uso cuando lo sea la media (se suele
considerar como medida de dispersión en datos donde la media
se considera oportuna como medida de tendencia central)
6. Ambas como medida de variación serán siempre valores positivos
(S2≥0 y S≥0)
7. En las transformaciones lineales, la varianza se ve afectada
solamente por el cambio de escala (constante multiplicativa), pero
no por el cambio de origen (constante aditiva)
Esto es, si sumamos una constante a un conjunto de puntuaciones, su
varianza no se altera
Pero si multiplicamos pero si multiplicamos una constante a un
conjunto de puntuaciones, la varianza quedará multiplicada por el
cuadrado de la constante y la desviación típica por el valor
absoluto de esa constante
8. La varianza total de un grupo de puntuaciones, cuando
se conocen los tamaños (ni), las medias (Xi) y las
varianzas (SX2) de varios subgrupos hechos a partir del
grupo total mutuamente exclusivos y exhaustivos, puede
obtenerse sumando la media de las varianzas y la
varianza de las medias. Es decir:
ST2 
2
n
·
S
 j j
n
j

2
n
(
X

X
)
T
 j j
n
j
donde X T es la media del grupo total
5. AMPLITUD SEMIINTERCUARIL Y
AMPLITUD INTERCUARTIL
5.1. DEFINICIÓN
Semidistancia entre el tercer cuartil y el primer cuartil, es
decir, entre el percentil 75 y el percentil 25
Q3 - Q1
Amp ó ASI =
2
También se puede hablar de amplitud intercuartilica.
Definido como la distancia entre el tercer cuartil y el
primer cuartil
AQ= Q3 – Q1
Del mismo modo se puede hablar de amplitudes inter o semi inter,
decílicas y percentílicas
6.2. CÁLCULO
Amplitud semiirtecuartilica: basta con calcular los
percentiles 75 y 25 y calcular la semidistancia entre
ambos
Amplitud intercuartílica: calcular los percentiles 75 y 25 y
calcular la distancia entre ambos
Se podrían calcular amplitudes inter decilicas e
interpercentílicas y amplitudes semi inter decílicas y
semi inter percentíliucas
5.3. PROPIEDADES
1. Es preferible a la varianza y desviación típica como medida de
dispersión en caso de distribuciones muy asimétricas
(recordemos que este caso era preferible la mediana a la media)
2. Podemos calcularlo en caso de que el intervalo máximo carezca de
límite superior y el intervalo mínimo de límite inferior, siempre que
el primer y el tercer cuartil no se encuentren dentro de esos
intervalos (igual que la mediana).
3. Definida como la distancia entre dos puntos solo es calculable a
nivel de intervalos y de razón, pero no a nivel meramente ordinal
4. Es menos sensible que la desviación media y que la varianza y
desviación típica a la variación de los datos
5. Se suele considerar como medida de dispersión en datos donde la
mediana se considera oportuna como medida de tendencia
central
6. COEFICIENTE DE VARIACIÓN
6.1. DEFINICIÓN
Consideremos dos variables distintas, por ejemplo el peso,
medido en unidades de gramos y la altura, medida en
centímetros. Ambas varianzas y desviaciones típicas no
son comparables.
Para hacer comparables ambas variabilidades con
variables de distintas naturaleza es necesario que
vengan expresadas en números abstractos.
Una medida será tomar Sx/X, este cociente es un número
abstracto. Indica el número de veces que el numerador
contiene al denominador, independientemente de lo que
ambos signifiquen.
El Coeficiente de Variación es el resultado de dividir la
desviación típica entre la media. Habitualmente este
cociente viene multiplicado por 100
Sx
CV ( X ) = ·100
X
6.2. CÁLCULO
En cualquier caso es la mera aplicación de la formula
anterior
Ejemplo: Supongamos una variable que tiene de media 2 y
de desviación típica 1
Su CV=(1/2)·100=0.5·100=50
6.3. PROPIEDADES
1. Constituye una medida adimensional y abstracta, como
cociente de dos números concretos. Por lo tanto
permite comparar variabilidad de conjuntos de datos
medidos en diferentes unidades o puntuaciones de
sujetos en la misma variable medida en distintos
grupos
2. Para su cálculo es preciso que la media sea diferente de
0.
3. No se ve afectada por los cambios de escala
(multiplicación por una constante), pero sí de origen
(suma de una constante)
4. Esto es, si a unas puntuaciones dadas les sumamos una
cantidad el CV cambiará y si multiplicamos las
puntaciones por una cantidad el CV se mantendrá
constante
7. OTRAS MEDIDAS DE VARIABILIDAD
A. MEDIANA DE LAS DESVIACIONES ABSOLUTAS (MEDA).
Constituye la mediana de las desviaciones absolutas con respecto a la
mediana. La MEDA tiene la misma relación con la Mediana que la
desviación media con la Media. Valores grandes de MEDA
corresponden a observaciones dispersas y valores pequeños a
observaciones concentradas alrededor de la mediana
MEDA  M d X i  M d
Para su cálculo:
1. Calcular la Mediana del conjunto de observaciones
2. Calcular la desviación o diferencia de cada observación respecto de la
mediana y tomarla en valor absoluto
3.Ordenar de menor a mayor las desviaciones absolutas de la mediana
4. Obtener la mediana de las desviaciones absolutas
B. COEFICIENTE DE VARIACIÓN CUARTILICO
P75  P25
CVC =
P75  P25
Al igual que el Coeficiente de Variación,
permite comparar variabilidades.
Se podrá utilizar como CV adimensional
cuando se haya considerado la Mediana
apropiada como índice de tendencia central
NOTA: Tengamos presente que todo índice de
variabilidad es esencialmente positivo. Las
puntuaciones de una variable pueden ser
positivas o negativas, pero su variabilidad o
dispersión será siempre positiva (no son todas
las puntuaciones iguales entre si, hay alguna
variabilidad) o nula (todas las puntuaciones son
iguales, no hay variabilidad), pero es
inconcebible una variabilidad negativa
8. TRANSFORMACIÓN DE LAS PUNTUACIONES
Frecuentemente interesa comparar puntuaciones
obtenidas en diferentes variables, pero dada la diferente
métrica, esta comparación puede llevar a conclusiones
engañosas
Una posibilidad son las puntuaciones diferencia o
distancias respecto de la media: xi = Xi – Media o lo que
se denomina puntuación diferencial (xi)
Son mas informativa que las directas, pues nos indica si la
puntuación es superior o inferior a la media o si coincide
con ella
Sin embargo, esta solución no tiene en cuenta la
dispersión de los datos y además no permite comparar
puntuaciones de sujetos pertenecientes a distintos
grupos o a distintas variables
Una solución consiste en no medir las distancias a la
media en términos absolutos, sino con relación a la
variabilidad del grupo de referencia, indicando la
cuantía de la diferencia en términos de las distancias
generales observadas en las puntuaciones. Estas
distancias están representadas en la desviación típica
y se usa ésta como unidad de medida. Así
obtenemos las puntuaciones típicas o estandarizadas
(zi):
xi  X
zi 
Sx
La puntuación típica de una observación indica el
número de desviaciones típicas que esa observación
se separa del grupo de observaciones
Ejemplo:
Supongamos un grupo de datos donde la media sea 38 y
su desviación típica 10
Para un sujeto que tenga una puntuación 48
Puntuación directa (xi)=48
Puntuación diferencial (xi)= 48-38=10
Puntuación típica (zi)=(48-38)/10=1 (quiere decir que el
sujeto se separa de su media de grupo una desviación
típica)
PROPIEDADES
1. Las puntuaciones así obtenidas son adimensionales, por
lo que permiten comparar observaciones de diferentes
grupos, variables medidas de distintas formas o variables
diferentes, ya que siempre tienen el mismo significado.
2. El proceso de convertir puntuaciones a típicas se
denomina tipificación
3. Decimos que dos puntuaciones son equivalentes cuando
tienen la misma puntuación típica
4. Pueden ser positivas (indicando que la observación es
superior a la media de su grupo) o negativas (indicando
que es inferior)
5. La media de las puntuaciones típicas es cero, mientras
que su varianza y su desviación típica son iguales a uno
6. Si transformamos linealmente las puntuaciones típicas,
multiplicándolas por una constante a y sumando una
constante b, entonces las puntuaciones transformadas
tendrán como media la constante sumada, b, como
desviación típica el valor absoluto de la constante
multiplicada |a|, y como varianza el cuadrado de esa
constante a2