Download varianza y covarianza (cap 6 Kerlinger)

Document related concepts

Medidas de dispersión wikipedia , lookup

Análisis de componentes principales wikipedia , lookup

Coeficiente de determinación wikipedia , lookup

Propagación de errores wikipedia , lookup

Parámetro estadístico wikipedia , lookup

Transcript
Varianza y Covarianza
VARIANZA
2
Existen formas de sintetizar conjuntos de puntuaciones, las
2 más usadas son: la media y la varianza
Símbolos
Población
Muestra
Media de la población: μ
Media de la muestra: X
Varianza poblacional: σ
Varianza de la muestra:s
2
Observe que se utilizan símbolos griegos cuando se hace referencia a la
media o a la varianza poblacionales y letras cuando son muestrales
3
La media
La media aritmética o simplemente promedio (también llamada media
muestral ya que generalmente se calcula en relación a una muestra) se calcula
de la siguiente forma: si las observaciones de una muestra de tamaño n son x1,
x2,…,xn entonces
n
x
x 1  x 2  ...  x n i  1
X

n
n
i
Es el centro de gravedad de toda la distribución,
representando a todos los valores observados
4
La varianza
 Es un valor numérico que mide el grado de dispersión relativa
porque depende de la posición de los datos x1,x2,…,xn con
respecto a la media.
 Es el promedio al cuadrado de las desviaciones de cada
observación con respecto a la media.
 x  x 
n
s2 
i 1
2
i
n
5
Cómo se calcula la varianza
8 cms.
Aquí tenemos 9 rectángulos cuya altura es de 8 centímetros (y
todos tienen la misma base).
¿Cuál es el promedio de la altura de estos rectángulos?
8+8+8+8+8+8+8+8+8
9
=
72
=8
9
6
Cómo se calcula la varianza
10
cms
6 cms
8 cms.
El quinto rectángulo y el octavo rectángulo en un acto de rebeldía cambiaron su
altura. El quinto rectángulo, ahora de color rojo, mide 10 centímetros, y el octavo
rectángulo, de color azul, mide 6 centímetros?
¿Cuál es el nuevo promedio de estos 9 rectángulos?
8 + 8 + 8 + 8 + 10 + 8 + 8 + 6 + 8
9
= 72 = 8
9
... ¡el mismo promedio! Pero... ¿ha habido variación?
7
Cómo se calcula la varianza
10
cms
6 cms
8 cms.
El rectángulo rojo tiene +2 centímetros sobre el promedio, y el rectángulo azul
tiene –2 centímetros bajo el promedio. Los otros rectángulos tienen cero
diferencia respecto del promedio.
Si sumamos estas diferencias de la altura respecto del promedio, tenemos
0+0+0+0+2+0+0–2+0 =0
Este valor nos parece indicar que ¡no ha habido variabilidad! Y sin
embargo, ante nuestros ojos, sabemos que hay variación.
8
Cómo se calcula la varianza
10
cms
6 cms
8 cms.
Una forma de eliminar los signos menos de aquellas diferencias que sean
negativas, esto es de aquellos mediciones que estén bajo el promedio, es
elevar al cuadrado todas las diferencias, y luego sumar...
02 + 02 + 02 + 02 + 22 + 02 + 02 + (– 2)2 + 02 = 8
Y este resultado repartirlo entre todos los rectángulos, es decir lo dividimos
por el número de rectángulos que es 9
02 + 02 + 02 + 02 + 22 + 02 + 02 + (– 2)2 + 02 =
9
8
= 0,89
9
9
Cómo se calcula la varianza
10
cms
6 cms
8 cms.
Se dice entonces que la varianza fue de 0,89
Observemos que las unidades involucradas en el cálculo de la varianza están al
cuadrado. En rigor la varianza es de 0,89 centímetros cuadrados. De manera que
se define
0,89  0,943
La raíz cuadrada de la varianza se llama desviación estándar
10
Cómo se calcula la varianza
10
cms
6 cms
8 cms.
Que la desviación estándar haya sido de 0,943 significa que en promedio la
altura de los rectángulos variaron (ya sea aumentando, ya sea disminuyendo) en
0,943 centímetros.
Es claro que esta situación es “en promedio”, puesto que sabemos que los
causantes de la variación fueron los rectángulos quinto y octavo. Esta
variación hace repartir la “culpa” a todos los demás rectángulos que se
“portaron bien”.
La desviación estándar mide la dispersión de los datos respecto del
11
promedio
12
Tipos de varianza
Varianza
sistemática
Cualquier
influencia natural o
generada por el
hombre que cause
que los eventos
sucedan de forma
predecible
Primaria, experimental o
intergrupos
Influencia
de la VI
Secundaria:
Influencia
de VE
Varianza
Varianza de error
Es la fluctuación o
variación
de
medidas que no se
pueden explicar
Factores aleatorios
13
Descomponiendo la
varianza
Estos son los resultados de los puntajes
obtenidos en un examen de estadística
(VD) por estudiantes. Cada grupo ve la
materia con un profesor distinto (la VI o
factor sería el profesor)
consideraremos que todos los sujetos
hipotéticamente pertenecen a una única
muestra porque es esta varianza del
grupo total la que vamos a analizar o
descomponer.
¿De dónde vienen las diferencias en este
grupo total formado por las muestras A
y B? ¿De que los sujetos son muy
distintos entre sí dentro de cada grupo?
No, en este ejemplo los sujetos dentro
de cada grupo tienen un grado semejante
de homogeneidad o variabilidad.
Si las medias difieren entre sí, más que
los sujetos entre sí, concluiremos que
esas diferencias se deben al14tipo de
profesor
Ejemplo para la comprensión de la situación
Supongamos una población de la notas
alumnos de tres grupos distintos, así:
de un universo de 9
Grupo 1
Grupo 2
Grupo 3
5
5
5
5
5
5
5
5
5
Evidentemente en este caso la media global es 5 y la de cada grupo
también. Yi= µ Cada valor es igual a la media general. Por lo
tanto se puede afirmar que NO HAY DIFERENCIA ENTRE
GRUPOS, NI DENTRO DE CADA UNO DE LOS GRUPOS
15
Ejemplo para la comprensión de la situación
Supongamos que aplicamos un método de enseñanza (factor) que
afecta: subiendo las notas del grupo 1 en 1 punto, las del grupo 2
en dos puntos y no modificando las del grupo 3. así:
Grupo 1
Grupo 2
Grupo 3
5+1=6
5+2=7
5+0=5
5+1=6
5+2=7
5+0=5
5+1=6
5+2=7
5+0=5
Ahora la nota del alumno sería Yi=µ+αi, en los que α son 1, 2, 0.
Parece claro que EL FACTOR INFLUYE EN ESTABLECER
DIFERENCIAS ENTRE GRUPOS, PERO NO DENTRO
16
Ejemplo para la comprensión de la situación
Lo más habitual es que haya alumnos que rindan más que otros (por
diversas razones aleatorias que en principio no dependen de un factor) son
por tanto comportamientos aleatorios individuales que denominamos ε. En
nuestro ejemplo, sería
Grupo 1
Grupo 2
Grupo 3
5+1-1=5
5+2+2=9
5+0+3=8
5+1-2=4
5+2+0=7
5+0+4=9
5+1+0=6
5+2+1=8
5+0+0=5
Los
efectos
aleatorios serían 1,-2,0,2,0,1,3,4,0
que fomentan la
variabilidad
INTRA-GRUPOS
Por lo tanto tenemos dos tipos de variabilidad: la que se da entre grupos
(debida al factor) y la que se da intragrupos (debida a la aleatoriedad). Para
poder afirmar que el factor (método de enseñanza) produce efectos, la
variabilidad ENTRE LOS GRUPOS ha de ser significativamente GRANDE
17
respecto a la INTRA GRUPOS
Demostración
 x  x 
n
Formula general para calcular la
varianza de un muestra
s2 
i 1
2
i
n
18
Vamos a intentar demostrar que la varianza total está formada por la varianza entre
grupos más la varianza intragrupos
Vt  Ve  Vd
Experimento
Objetivo
Estamos interesados en conocer si la cortesía en las instrucciones para una tarea afecta la memoria de
las palabras amables
Procedimiento.
Se define al azar qué grupo recibe el tratamiento A1 y cual A2
Los alumnos del grupo A1 recibieron instrucciones sin cortesía: “Ud. debe escribir el nombre de cada
estado que recuerde”
Los alumnos del grupo A2 recibieron instrucciones con cortesía: “Sería útil que Ud. escribiera el
nombre completo de cada estado que recuerde”
Después de leer las instrucciones, los sujetos tuvieron una tarea distractora consistente en recordar los
50 estados de la Unión Americana.
19
Después se les aplicó una prueba de reconocimiento. Las puntuaciones fueron
Cálculo de la varianza total
Media
A1
A2
3
6
5
5
1
7
4
8
2
4
3
6
Se acomodaron
las
10
puntuaciones
en una sola
columna
Media
Formula general para
calcular la varianza de un
muestra
 x  x 
n
s2 
i 1
2
i
n
X
xi-X
(xi-X)2
3
-1,5
2.25
5
0.5
0.25
1
-3.5
12.25
4
-0.5
0.25
2
-2.5
6.25
6
1.5
2.25
5
0.5
0.25
7
2.5
6.25
8
3.5
12.25
4
-0.5
0.25
4.5
∑=42.50
42.5
Vt 
 420
.25
10
Cálculo de la varianza dentro de los grupos
Se calcula la varianza de cada grupo por separado y después se promedia
A1
xi-X
(xi-X)2
A2
xi-X
(xi-X)2
3
0
O
6
0
0
5
2
4
5
-1
1
1
-2
4
7
1
1
4
1
1
8
2
4
2
1
1
4
-2
4
Media=3
∑=10
10
VA1 
2
5
Media=6
∑=10
10
VA 2 
2
5
Como es obvio el promedio de las dos varianzas da 2.
por lo tanto Vd=2
21
Cálculo de la varianza entre los grupos
Media
A1
A2
3
6
5
5
1
7
4
8
2
4
3
6
Media
xi-X
(xi-X)2
3
1.5
2.25
6
1.5
2.25
4.5
∑=4.50
4.5
Ve 
 2.25
2
22
Demostración
Vt 
42.5
 4.25
10
Varianza total
4.5
Ve 
 2.25
2
VA1 
Varianza intra grupo
10
2
5
VA 2 
Varianza inter grupo
10
2
5
Como es obvio el promedio
de las dos varianzas da 2.
por lo tanto Vd=2
Vt  Ve  Vd
4.25=2.25+2.00
23
COVARIANZA
24
El concepto de relación
> El concepto de relación en estadística coincide con lo que se
entiende por relación en el lenguaje habitual: dos variables están
relacionadas si varían conjuntamente.
> Si los sujetos tienen valores, altos o bajos, simultáneamente en dos
variables, tenemos una relación positiva.
Por ejemplo peso y altura en una muestra de niños de 5 a 12 años: los
mayores en edad son también los más altos y pesan más, y los más jóvenes son los
que pesan menos y son más bajos de estatura; decimos que peso y altura son dos
variables que están relacionadas porque los más altos pesan más y los más bajos
pesan menos.
> Si los valores altos en una variable coinciden con valores bajos en
otra variable, tenemos una relación negativa.
Por ejemplo edad y fuerza física en una muestra de adultos de 30 a 80 años de
edad: los mayores en edad son los menores en fuerza física; hay una relación, que
puede ser muy grande, pero negativa: según los sujetos aumentan en una variable
25
(edad) disminuyen en la otra (fuerza física).
Los diagramas de dispersión
> La representación gráfica de estos pares de puntuaciones se
denomina diagrama de dispersión, y también nos ayuda a
entender el mismo concepto de relación.
Puede existir relación entre dos variables sin
que ésta sea lineal. Las medidas estadísticas
que detectan la relación lineal entre variables
NO detectan las relaciones que no son lineales.
En tal caso se deben utilizar métodos mas
complejos (P. ej. regresión no lineal, regresión
no paramétrica).
26
Correlación y covarianza
> La correlación se define como
juntamente: variar a la vez).
la
co-variación
(co
=
con,
> Correlación y covarianza son términos conceptualmente
equivalentes, expresan lo mismo. La covarianza (Cov,
) es una
medida de relación, lo mismo que el coeficiente de correlación de
Pearson (r).
> Habitualmente se utiliza el coeficiente de correlación (r de Pearson),
pero es útil entender antes qué es la covarianza, y entenderlo
precisamente en este contexto, el de las medidas de relación.
27
Covarianza
> Para medir o cuantificar la relación entre dos variables
comenzamos por tener presente que:
• Si las dos variables están relacionadas y esta relación es positiva
o por debajo de la media en las dos variables a la vez
• Si las dos variables están relacionadas y esta relación es negativa
→ los sujetos tenderán a estar por encima
→ los sujetos tenderán a estar por
encima de la media en una variable y por debajo de la media en la otra
• Si las dos variables no están relacionadas
→ el estar por encima o por debajo de la media en una variable
es independiente del estar por encima o por debajo de la media en la otra variable
28
Covarianza
> Este estar por encima o por debajo de la media en dos
variables simultáneamente nos permite cuantificar el
grado de relación.
> Lo explicamos por pasos:
1. La distancia o diferencia de un dato de un sujeto con
respecto a la media la podemos representar restando
cada puntuación de la media (la llamaremos d con
subíndice X ó Y dependiendo de la variable ):
>
Tenemos que si un dato está por encima de la media,
la diferencia será positiva, y si está por debajo de la
media, la diferencia será negativa.
29
Covarianza
> Lo
explicamos
por pasos:
> 2. Podemos
multiplicar
para
cada
individuo las
diferencias
en X y en Y,
y
luego
sumar todos
esos
productos:
30
Covarianza:
> Teniendo en cuenta lo anterior, una buena medida de la
variación simultánea de dos variables es la covarianza,
que no es mas que un promedio de las distancias
anteriormente expuestas :
31
Interpretación de la covarianza
La covarianza nos mide la covariación conjunta de dos variables: Si es positiva nos
dará la información de que a valores altos de una de las variable hay una
mayor tendencia a encontrar valores altos de la otra variable y a valores bajos de una de
las variable ,correspondientemente valores bajos.
En cambio si la covarianza es negativa, la covariación de ambas variables será en sentido
inverso: a valores altos le corresponderán bajos, y a valores bajos, altos.
Si la covarianza es cero no hay una covariación clara en ninguno de los dos
32
Problemas con la interpretación de la covarianza
Esta medida no debe ser utilizada de modo exclusivo
para medir la relación entre las dos variables, ya que es
sensible al cambio de unidad de medida
> Por ejemplo, si estamos mirando la relación entre
estura y peso las unidades de medida serían
metros*kilos. ¿Cómo se interpreta eso?
33
Coeficiente de correlación
Así pues, es necesario definir una medida de la relación entre dos
variables, y que no esté afectada por los cambios de unidad de
medida. Una forma posible de conseguir este objetivo es dividir la
covarianza por el producto de las desviaciones típicas de cada
variable, ya que así se obtiene un coeficiente adimensional, r, que se
denomina coeficiente de correlación lineal de Pearson
34
Interpretación del coeficiente r
> El coeficiente de correlación expresa en qué grado los sujetos
(u objetos, elementos…) están variando simultáneamente en
las dos variables y qué tan lineal es esa relación.
> Los valores extremos son 0 (ninguna relación) y ±1 (máxima
relación).
En últimas, el coeficiente de correlación r
de Pearson nos dice que tanto se ajustan
unos datos emparejados a una recta, sea
cual sea ésta.
35
Interpretación del coeficiente r
• Si r = 1 ó r =-1 el grafico de dispersión ajusta perfectamente a una línea
recta.
• Podemos ver que coeficientes próximos a 0 expresan poca relación, y los
coeficientes cercanos a 1 o a -1 expresan mucha relación, es decir mucho
ajuste, mucho parecido con un línea recta.
16
25
14
20
12
10
R = 0.06
8
6
15
10
4
R = 0.79
5
2
0
0
2
4
6
8
0
0
2
4
6
8
10
18
16
14
12
10
8
6
4
R = 0.98
2
0
0
2
4
6
8
10
36
Interpretación del coeficiente r
La magnitud del coeficiente es independiente del signo:
El que la relación sea positiva o negativa es algo distinto de que sea
grande o pequeña. El signo se refiere mas bien a si la relación es directa
(cuando es positivo) o inversa (cuando es negativo) .
Por ejemplo r = -0.95 expresa más correlación que r = +0.79
25
16
14
R = -0.95
20
12
15
10
8
10
6
4
R = 0.79
5
2
0
0
0
2
4
6
r = -0.95
Correlación inversa
muy fuerte
8
10
0
2
4
6
8
r = 0.79
Correlación directa
pero no tan fuerte
10
37
Interpretación del coeficiente de correlación r
La magnitud del coeficiente de correlación es independiente de la
pendiente de la recta:
Para toda serie de datos emparejados existe siempre una recta que es la
que mejor ajusta a los datos. Sin embargo, dos series de datos
pueden tener igual coeficiente de correlación y ajustarse a rectas de
diferente pendiente.
Por último, el coeficiente
de correlación r de Pearson
nos dice que tanto se
ajustan
unos
datos
emparejados a una recta,
pero no nos habla sobre la
pendiente de ésa recta.
38
39