Download Distribuciones bidimensionales

Document related concepts

Medidas de dispersión wikipedia , lookup

Parámetro estadístico wikipedia , lookup

Propagación de errores wikipedia , lookup

Covarianza wikipedia , lookup

Análisis de la covarianza wikipedia , lookup

Transcript
Parámetros estadísticos bidimensionales.
1.
2.
3.
4.
5.
6.
La media aritmética y la desviación típica
Variable estadística bidimensionales
Tablas de frecuencias bidimensionales.
La covarianza
Correlación lineal
Regresión lineal
Media aritmética
 Dado un conjunto de n datos aislados x1, x2, x3, … , xn, donde x1 se repite f1
veces, x2 se repite f2 veces, ... , xn se repite fn veces (fi se denomina
frecuencia absoluta de la variable estadística xi). La media aritmética es
n
x  f x  f 
x 1 1 2 1
N
 xn  f1

x  f
i
i 1
i
n
f
i 1
i
 Cuando f1 = f2 = … = fn = 1. La media aritmética es
n
x1  x2 
x
n
 xn1

x
i 1
i
n
Cuando queremos efectuar un estudia estadísticos de datos agrupados en n
intervalos I1 = [a1,b1), I2 =[a2,b2), … , In = [an,bn). Las variables estadísticas que
utilizaremos, son las denominadas marcas de clases:
x1 =(½).(a1+b1);
x2 =(½).(a2+b2); …. ; xn =(½).(an+bn);
Media aritmética
 Ejemplo:
Si en una familia trabajan sus cinco miembros y obtiene unos salarios netos
mensuales de 1200, 950, 875, 800 y 758 €. ¿Cuál es el salario medio
mensual?
El salario medio mensual será
1200  950  875  800  758 4583
x

 916, 6 €
5
5
Media aritmética
Nota xi
fi
1
1
Las notas obtenidas en un examen de Matemáticas
2
3
por 30 alumnos son las siguientes:
3
4
4
5
5
6
6
4
7
3
8
2
9
1
10
1
suma
30
 Ejemplo:
¿Cuál es la nota media?
La nota media será
x
11  2  3  3  4  4  5  5  6  6  4  7  3  8  2  9 1  10 1 149

 4,97
30
30
Media aritmética
 Ejemplo:
Hallar la altura media de 30
Intervalo
fi
xi
xi . fi
alumnos,
[148,153)
2
150.5
301
[153,158)
2
155.5
311
clasificado en siguientes intervalos
[158,163)
7
160.5
1123,5
de longitud 5 centímetros, de
[163,168)
9
165.5
1489,5
[168,176)
7
170,5
1193,5
[173,178)
3
175,5
526,5
suma
30
los
cuales
se
han
acuerdo con la siguiente tabla:
Teniendo en cuenta que las marcas
4945
de clase xi y los productos xi . fi
son:
La altura media será
x
150,5  2  155,5  2  160,5  7  165,5  9  170,5  7  175,5  3 4495

 164,8 cm
30
30
Varianza
 Dado un conjunto de n datos aislados x1, x2, x3, … , xn, donde x1 se repite f1
veces, x2 se repite f2 veces, ... , xn se repite fn veces (fi se denomina
frecuencia absoluta de la variable estadística xi). La Varianza será
n
x1  x 

x
2
 f1   x2  x   f 2 
N
2
  xn  x   f n
2

  xi  x 
i 1
n
f
i 1
o lo que es lo mismo
n
x  f1  x2  f 2 
x
N
2
1
2
 xn  f n
2
 x2 
x
2
i
i 1
 fi
n
f
i 1
i
 x2
i
2
 fi
Varianza
 Si f1 = f2 = … = fn = 1. La Varianza será
n
x1  x    x2  x 


2
s
2
2

  xn  x 
2
n
o lo que es lo mismo
n
x1  x2 
2
s 
n
2
2
 xn
2
 x2 
2
x
 i
i 1
n
 x2

  xi  x 
i 1
n
2
Varianza
 Ejemplo:
Si en una familia trabajan sus cinco miembros y obtiene unos salarios netos
mensuales de 1200, 950, 875, 800 y 758 €. ¿Cuál es la varianza?
La varianza será
 12002  9502  8752  800 2  7582   1200  950  875  800  758 
2
s 

 
5
5


 
4322689 21003889 21613445  21003889 609556




 24382, 24 € 2
5
25
25
25
2
Varianza
Nota xi
fi
xi..fi
xi^2
xi^2..fi
1
1
1
1
1
2
3
6
4
12
3
4
12
9
36
4
5
20
16
80
por 30 alumnos son las
5
6
30
25
150
siguientes:
6
4
24
36
144
7
3
21
49
147
¿Cuál es la Varianza?
8
2
16
64
128
La Varianza será
9
1
9
81
81
10
1
10
100
100
suma
30
149
 Ejemplo:
Las notas obtenidas en un
examen de Matemáticas
879
2
 12 1  22  3  32  4  42  5  52  6  62  4  7 2  32  82  2  92 1  102 1 
s 
 
30


2
 11  2  3  3  4  4  5  5  6  6  4  7  3  8  2  9 1  10 1   879  149 


 
  29,3  24, 666...  4, 63222...
30
30  30 


2
2
Desviación típica
 Debido a que la varianza se mide en unidades cuadradas con respecto a los
datos, se define la DESVIACIÓN TÍPICA como
n
s  s2 
 x  x 
i 1
2
i
n
 fi
o
n
f
i 1
x
s  s2 
2
i
i 1
 fi
n
f
i
i 1
i
Si  i  1, 2,..., n tal que f i  1
n
s  s2 
  xi  x 
n
2
i 1
n
Si fi  1,  i  1, 2,..., n
o
s  s2 
2
x
i
i 1
n
 x2
 x2
Desviación típica
 Ejemplo:
Si en una familia trabajan sus cinco miembros y obtiene unos salarios netos
mensuales de 1200, 950, 875, 800 y 758 €. ¿Cuál es la desviación típica?
La Desviación típica será
 12002  9502  8752  8002  7582   1200  950  875  800  758 
2
s s  

 
5
5


 
2
4322689 21003889
21613445  21003889
609556



 24382, 24 € 2 
5
25
25
25
 156,15 €

Variable estadística bidimensional
 Una variable estadística bidimensional (x,y) está formada por n pares de
observaciones (x1,y1), (x2,y2), (x3,y3), …, (xn,yn).
 Entre dos variables estadísticas, en general no existe una dependencia
funcional (que una variable se pueda poner en función de la otra), pero si
existe un mayor o menor grado de dependencia estadística (si no existe
ninguna dependencia decimos que son variables independientes).
 Mediante una nube de puntos de una variable estadística (x,y)
(representación en el plano cartesiano de los puntos ( xi ,yi )), se puede
obtener en una primera aproximación el grado de asociación estadística
(normalmente tienen interés la relaciones lineales)
Variable estadística bidimensional
 Ejemplo.- Si tenemos los valores estadístico bidimensionales
(1,1), (3,2), (5,4), (6,5), (8,5), (8,5), (9,8), (11,9)
Y los representamos en el plano.
10
9
8
7
6
5
4
3
2
1
0
0
2
4
6
8
10
12
14
16
Variable estadística bidimensional
Podemos apreciar que se aproximan a la recta
y = 0,69 x + 0,45
10
9
8
7
6
12
5
10
4
8
6
3
4
2
2
1
0
0
2
4
6
8
10
12
14
16
0
0
2
4
6
8
10
12
14
16
Tabla de frecuencias bidimensionales.
 Para tabular los datos de una variable estadística bidimensional (x;y);
solemos elaborar una tabla de tres columnas o filas; en las que se
recogen los valores de las variables unidimensionales; x e y; y las
frecuencias correspondientes de cada par.
 Cuando hay muchos datos o están agrupados por clases; resultan más
útiles las tablas de doble entrada; en cuya última columna y última fila se
indican las frecuencias absolutas de las variables unidimensionales x e y.
Tabla de frecuencias bidimensionales.
SIDA: FACTOR A / FACTOR B
y\x 0.5 1.0 1.5 2.0 2.5 3.0 3.5 4.0
 Ejemplo.- En una investigación que estudia
A
B
1.0
2.0
3.5
4.0
seropositivas; relacionados con
2.5
2.5
2.5
2.5
la posibilidad de que hayan transmitido esta
2.0
2
3.5
4.0
3.0
3.0
1.0
2.0
3.0
3.0
1.5
3.0
1.5
3.0
2.0
4.0
2.0
3.5
4.0
4.0
dos factores A y B; en veinte mujeres
1.5
2
embarazas
enfermedad a sus hijos; se han obtenido los
siguientes datos:
2.5
1
(1.0;2.0);
(3.5;4.0);
(2.5;2.5);
3.0
(3.5;4.0);
(3.0;3.0);
(1.0;2.0);
(1.5;3.0);
3.5
(4.0;4.0);
(3.0;3.5);
4.0
(1.5;3.0);
2
(2.0;4.0);
2
(2.5;2.5);
1(3.0;3.0);
(2.0;3.5);
(1.5;2.5);
1
(0.5;1.5); (2.0;3.0);
(0.5;1.5);
(3.5;3.5);
1
2
1
1
1
0.5
(4.0;3.5)
2.0
3.0
Podemos construir la siguiente tabla
foxutilizando
2 una tabla
2 de doble
3 entrada
3
1.5
3
3.5
4.0
2
2
3
5
4
1.5
2
1
0.5
2
2.5
fy
3.0
3.5
4
1.5
3
2
3.5
3.5
20
Distribuciones condicionadas.
 Fijado un x0 de una variable unidimensional x, que forma una variable
bidimensionalidad (x,y), las frecuencias condicionadas a x0 de los valores
yi de y, son los cocientes entre las frecuencias absolutas de los pares
(x0,y) y la frecuencia absoluta marginal de x0.
 Ejemplo.- Se ha realizado una encuesta a 120 estudiantes universitarios
sobre aficiones de lectura, viajes, deportes y maquetas, obteniéndose los
resultados tabulados en función de la Facultad o escuela en la que
estudian, con tres modalidades: Filosofías, I. S. de telecomunicaciones y
Medicina.
 Si (x,y) = (Afición,Carrera):
C\A
Lectura
Viajes
Deportes
Maquetas
Filosofías
20
15
5
0
f(Lectura/filosofía) = 20/43
I.S.T.
5
10
15
10
f(Lectura/I.S.T.) = 5/43
Medicina
18
12
8
2
f(Lectura/Medicina) = 18/43
Total
43
37
28
12
Gráficos bidimensionales.
 Además de la representación gráfica mediante una nube de puntos de las
variables estadísticas bidimensionales, podemos utilizar un diagrama de
barras o prismogramas.
La covarianza
 La covarianza de una distribución bidimensional de datos (x1,y1), (x2,y2), … ,
(xn,yn) y de frecuencias f1, f2, … ,fn respectivamente es:
n
sxy 
 x  x  y  y  f
i 1
i
i
En ocasiones cuanto menor sea el valor de
i
este parámetro nos indicará que existirá
n
f
i 1
mayor asociación lineal entre las dos variables
i
Para facilitar los cálculos de la covarianza solemos emplear esta otra
fórmula equivalente
n
sxy 
x y  f
i 1
i
i
n
f
i 1
i
i
xy
La covarianza
 Cuando f1= f2 = … = fn = 1, será
n
sxy 
 x  x  y  y 
i 1
i
i
n
O también
n
sxy 
x y
i 1
i
n
i
xy
La covarianza
 Ejemplo.- Para establecer la relación entre la superficie en metros
cuadrados de los pisos (x) y el precio de los alquileres (y), en una
población se obtuvieron los siguientes datos
Superficie (x)
Alquiler (y)
50
70
56
80
110
80
90
90
80
67
60
110
530 790 420 730 1220 740 960 860 790 540 470 1200
La covarianza será
12
x  y
50  530  70  790   110 1200
 78,58  770,8  4472, 20  m2  € 
n
12
Se observa que si se modifican las unidades de superficie o de moneda, la
sxy 
i 1
i
i
xy 
covarianza se verá afectada, luego en este ejemplo no tiene sentido decir que si la
covarianza es pequeña el grado de relación es débil.
La covarianza presenta el inconveniente de que su valor depende de las unidades
de medida de las variables y por tanto, no permite comparar la relación entre
variables medidas en diferentes unidades.
Correlación lineal
 El coeficiente de correlación lineal de una distribución bidimensional es:
r
sxy
sx  s y
Es el cociente de dividir la covarianza de (x,y) entre el
producto de desviaciones típicas marginales de x e y
El coeficiente de correlación mide la relación entre las dos variables o correlación y
a diferencia de la covarianza no depende de las unidades de las variables.
El valor r del coeficiente de correlación, puede variar entre -1 y +1.
Los valores extremos se corresponden con una dependencia lineal de las
variables (no aleatoria) y el valor cero indica que no existe ningún tipo de
relación entre las variables.
Si r > 0, decimos que existe una correlación directa, y si r < 0 diremos que
existe una correlación inversa
Correlación lineal
 Ejemplo.- Calcular la correlación lineal de la siguiente tabla de datos
x
y
f
x.f
y.f
x2.f
y2.f
x.y.f
1
60
2
2
120
2
7200
120
2
11
2
4
22
8
242
44
3
28
3
9
84
27
2352
252
4
33
4
16
132
64
4356
528
5
52
2
10
104
50
5408
520
6
25
5
30
125
180
3125
750
7
70
2
14
140
98
9800
980
8
84
4
32
336
256
28224
2688
24
117
1063
685
60707
5882
Total
Calculamos Sxy ,Sx y Sy.
8
sxy 
x
i 1
i
 yi  f i
8
f
i 1
8
sx 
x
 fi
2
i
i 1
8
f
i 1
 x  y  29,16;
8
i
sy 
y
2
i
i 1
f
i 1
i
 fi
8
i
 x 2  2,19
 y 2  23,83
Y Calculamos el coeficiente
de correlación r
sxy
29,16
r

 0,56
sx  s y 2,19  23,83
Regresión lineal
 Cuando tenemos n pares de datos estadísticos bidimensionales (x1, y1),
(x2,y2), …., (xn,yn) en ocasiones necesitamos conocer una curva y = f(x) que
se ajuste lo más posible a esa nube de puntos. En la mayoría de los
problemas estadísticos, la función que necesitamos buscar f(x) es de la
forma m x + n (es decir una recta), denominada recta de regresión de y
sobre x.
Si y = y(x) es la recta de regresión de los datos estadísticos, para cada
variable x i, denominamos desviación d
i
= y i – y(xi), para que y(x) sea la
recta que mas se ajuste a los datos debe de cumplir
n
   y( x   y 
i 1
i
2
i
Sea mínima.
Obteniendo las ecuaciones de la RECTA DE REGRESIÓN de y sobre x
y y 
sxy
s
2
x
. x  x 
Regresión lineal
 Cuando tenemos n pares de datos estadísticos bidimensionales (x1, y1),
(x2,y2), …., (xn,yn) en ocasiones necesitamos conocer una curva x = f(y) que
se ajuste lo más posible a esa nube de puntos. En la mayoría de los
problemas estadísticos, la función que necesitamos buscar f(y) es de la
forma m y + n (es decir una recta), denominada recta de regresión de x
sobre y.
Si x = x(y) es la recta de regresión de los datos estadísticos, para cada
variable y i, denominamos desviación d i = x i – f(yi), para que f(y) sea la recta
que mas se ajuste a los datos debe de cumplir
n
   x( y   x 
i 1
i
2
i
Sea mínima.
Obteniendo las ecuaciones de la RECTA DE REGRESIÓN de x sobre y
xx 
sxy
s
2
y
. y  y 
Regresión lineal
 Las rectas de regresión de y sobre x, y de x sobre y
y y 
sxy
xx 
sxy
s
s
2
x
2
y
. x  x 
. y  y 
Se cortan en el punto
 x, y 
Denominado centro de gravedad de la distribución estadística
Regresión lineal
 Hallar las ecuaciones de las rectas de regresión de la distribución estadística
(x,y), cuyos parámetros son:
x  2;
y  3; sx  3; s y  2; sxy  18
Solución
Recta de regresión de y sobre x: y  3  2 x  4
Recta de regresión de y sobre x: x  2  4,5 y  13,5
 Lo valores y(xi) decimos que son valores de interpolación cuando xi
pertenece al intervalo [x1,xn], en otro caso decimos que son valores de
extrapolación. Además, en los valores de interpolación, cuanto mayor sea
el valor absoluto del coeficiente de correlación, mejor será el ajuste lineal ,
Mas ayuda del tema de la página
Matemática de DESCARTES del
Ministerio de Educación y ciencia
(http://recursostic.educacion.es/descartes/web/)
En la siguiente diapósitiva
Mas ayuda del tema de la página
Matemática de GAUSS del
Ministerio de Educación y ciencia
(http://recursostic.educacion.es/gauss/web)
En la siguiente diapósitiva
Mas ayuda del tema de la página
lasmatemáticas.es
Videos del profesor
Dr. Juan Medina Molina
(http://www.dmae.upct.es/~juan/ma
tematicas.htm)
En la siguiente diapósitiva
Mas ayuda del tema de la página
Manuel Sada
(figuras de GeoGebra)
(http://docentes.educacion.navarra.es/
msadaall/geogebra/)
En la siguiente diapósitiva