Download Estadística II

Document related concepts
no text concepts found
Transcript
Universidad Panamericana
Estadística II
Prof. Andrés Sandoval H
Estadística II
7. ANÁLISIS DE REGRESIÓN Y CORRELACIÓN
7.1. Análisis de correlación
Empezaremos este tema estudiando el análisis de correlación, que está diseñado
para conocer la magnitud de la relación entre dos variables. Una vez conociendo
estos principios, desarrollaremos un modelos matemático que nos permitirá
estimar el valor de una variable basándonos en el valor de otra. A esto se le llama
regresión.
Para saber lo que es una correlación, daremos un ejemplo.
Ejercicio.
Juan Manuel Huerta tiene una comercializadora de fotocopiadoras y quiere saber
si existe alguna relación entre el número de llamadas hechas en un mes y el
número de fotocopiadoras vendidas. Para ello, toma una muestra aleatoria de 10
representantes de ventas y determina el número de llamadas hechas por cada uno
el mes pasado, así como el número de fotocopiadoras que vendió.
Representante
de Ventas
Llamadas
Copiadoras
vendidas
José López
Juan Sánchez
Pedro Flores
Enrique Pieck
Javier Mendoza
Héctor Moreno
Montserrat Luna
Ma José Ibáñez
Arturo Cázares
Gerardo Luenga
20
40
20
30
10
10
20
20
20
30
30
60
40
60
30
40
40
50
30
70
A simple vista parece haber una relación entre el número de llamadas hechas y el
número de copiadoras vendidas. Sin embargo, la relación no es perfecta; por
ejemplo, Gerardo Luenga hizo menos llamadas que Juan Sánchez, pero vendió
más unidades.
1
Universidad Panamericana
Estadística II
Prof. Andrés Sandoval H
Los cálculos de correlación se utilizan para saber con exactitud cuál es la relación
entre dos variables, en este caso, entre las llamadas hechas y el número de
unidades vendidas.
Una manera gráfica de representar la correlación entre dos variables es una
gráfica de dispersión.
Copiadoras vendidas
Relación entre llamadas realizadas y copiadoras
vendidas
80
60
40
20
0
0
10
20
30
40
50
Llamadas realizadas
Como se aprecia en la gráfica, el número de copiadoras vendidas se relaciona con
el número de llamadas hechas; es decir, conforme aumenta el número de
llamadas, aumenta también el número de ventas. En este caso, al número de
llamadas realizadas se le llama variable independiente y al número de copiadoras
vendidas se le llama variable dependiente.
Variable independiente. Es la variable que se va a medir o a estimar.
Variable independiente. Es la variable que da la base para la predicción o
estimación. Es la variable predictora.
Ahora bien, para calcular la magnitud de la relación entre la variable dependiente y
la independiente, se utiliza el coeficiente de correlación de Pearson. Es importante
mencionar que para su utilización es necesario que se cuente con datos del nivel
de razón o de intervalo.
Este coeficiente puede tomar cualquier valor desde –1 hasta +1 inclusive. Un
coeficiente de correlación de 1 (ya sea positivo o negativo) indica una correlación
perfecta. Si no existe absolutamente ninguna correlación entre las variables
entonces el coeficiente de correlación es cero.
2
Universidad Panamericana
Estadística II
Prof. Andrés Sandoval H
Copiadoras
vendidas
Relación entre llamadas realizadas y copiadoras
vendidas
(Correlación positiva perfecta)
60
50
40
30
20
10
0
0
10
20
30
40
50
60
Llamadas realizadas
Copiadoras
vendidas
Relación entre llamadas realizadas y copiadoras
vendidas
(Correlación negativa perfecta)
60
50
40
30
20
10
0
0
10
20
30
40
50
60
Llamadas realizadas
Copiadoras
vendidas
Relación entre llamadas realizadas y copiadoras
vendidas
(Sin correlación)
60
50
40
30
20
10
0
0
5
10
15
20
25
30
Llamadas realizadas
3
Universidad Panamericana
Estadística II
Prof. Andrés Sandoval H
En el siguiente diagrama se resume la magnitud y la dirección de la correlación,
según el coeficiente de correlación de Pearson.
Correlación
negativa
perfecta
Correlación
negativa
fuerte
- 1.00
Ninguna
correlación
Correlación
negativa
moderada
Correlación
negativa
débil
- 0.50
Correlación
positiva
perfecta
Correlación
positiva
débil
0
Correlación negativa
Correlación
positiva
moderada
+ 0.50
Correlación
positiva
fuerte
+ 1.00
Correlación positiva
Para determinar el valor numérico del coeficiente de correlación de Pearson se
utiliza la siguiente fórmula:
Donde:
n = número de pares de observaciones
ΣX = suma de las variables X
ΣY = suma de las variables Y
ΣXY = suma de los productos de las variables X y Y
4
Universidad Panamericana
Estadística II
Prof. Andrés Sandoval H
Luego entonces...
Llamadas
(X)
Copiadoras
vendidas
(Y)
X2
Y2
XY
Javier Mendoza
10
30
100
900
300
Héctor Moreno
10
40
100
1,600
400
José López
20
30
400
900
600
Pedro Flores
20
40
400
1,600
800
Montserrat Luna
20
40
400
1,600
800
Ma José Ibáñez
20
50
400
2,500
1,000
Arturo Cázares
20
30
400
900
600
Enrique Pieck
30
60
900
3,600
1,800
Gerardo Luenga
30
70
900
4,900
2,100
Juan Sánchez
40
60
1,600
3,600
2,400
220
450
5,600
22,100
10,800
Representante
de Ventas
TOTAL
r = 0.759
De acuerdo con el diagrama que se presenta anteriormente, esta correlación se
puede interpretar como positiva y como fuerte. Esto quiere decir que hay una
fuerte correlación entre el número de llamadas y el número de unidades vendidas.
Sin embargo “fuerte” (o débil, o moderado) no tienen un significado preciso. Una
medición que posibilita una mejor interpretación es el coeficiente de
determinación.
5
Universidad Panamericana
Estadística II
Prof. Andrés Sandoval H
Se calcula elevando al cuadrado el coeficiente de correlación. En este ejemplo, el
coeficiente de determinación es r2 = 0.576, que es (0.759) 2. éste es una
proporción o un porcentaje (si se multiplica por 100); podemos decir entonces que
57.6% de la variación en el número de copiadoras vendidas, se explica, o se debe
a, la variación en el número de llamadas realizadas.
Coeficiente de determinación. Es la proporción de la variación total de la variable
dependiente (Y) que se explica por, o que se debe a, la variación en la variable
dependiente (X).
Prueba de la significancia del coeficiente de correlación
Una vez que se ha determinado el coeficiente de correlación entre el número de
llamadas realizadas y el número de copiadoras vendidas, dado que sólo se tomó
una muestra de los vendedores de la compañía, queda una pregunta obvia:
¿podría ser que si se toman los datos de la población la correlación fuera cero?;
es decir, ¿la correlación encontrada se puede generalizar para toda la población,
para todos los vendedores de la compañía?, o ¿la correlación encontrada se debe
a la casualidad?
Para responder a estas interrogantes se puede aplicar una prueba basada en t.
Los pasos a seguir serían los mismos que hemos estado realizando en otras
pruebas de hipótesis.
Paso 1
H0: ρ = 0
H1: ρ ≠ 0
Donde ρ (que se lee “ro”) representa la correlación de la población.
Paso 2, inciso c)
α = 0.05
Paso 3, inciso c)
La estadística de prueba adecuada, como ya se dijo es t, y la fórmula es como
sigue:
6
Universidad Panamericana
Estadística II
Prof. Andrés Sandoval H
t = 3.297
Paso 4
El valor crítico se encuentra utilizando la tabla de la distribución de t.
Para conocer los grados de libertad se utiliza la siguiente fórmula:
gl = n –2
gl = 10 – 2
gl = 8
El nivel de significancia, como ya se determinó es α = 0.05.
Luego entonces, buscando en las tablas de la distribución de t, se obtiene el valor
crítico de 2.306
Como la prueba es de dos colas (por la forma en que están planteadas las
hipótesis)
La regla de decisión es entonces: No rechazar H0 si el valor que se encuentre para
t es mayor que – 2.306 y menor que 2.306. Si el valor calculado no cae en este
rango, se rechaza H0 y se acepta H1
Paso 5
Dado que el valor que se encontró para t fue de 3.297, se rechaza la hipótesis
nula.
7
Universidad Panamericana
Estadística II
Prof. Andrés Sandoval H
En otras palabras, con un nivel de significancia de 0.05 se puede asegurar que la
correlación de la población no es cero. Lo que indica que sí hay correlación para el
total de vendedores, o que es posible generalizar los resultados.
Correlaciones espurias
Es importante mencionar que, con base en los coeficientes de correlación, no se
puede afirmar de manera categórica, que el crecimiento de una variable causa o
determina el crecimiento o la disminución de otra. Por ejemplo, supongamos que
obtenemos datos de la cantidad de refrescos enlatados que consumen los
alumnos de la UP y que contrastamos esta información con sus calificaciones de
Antropología; aún cuando al realizar los cálculos encontráramos que el coeficiente
de Pearson es positivo y fuerte, no podríamos decir de ninguna manera que las
calificaciones de Antropología están determinadas por el número de refrescos que
consumen los alumnos. A este tipo de correlaciones se les llama espurias.
7.2. Análisis de regresión
A continuación desarrollaremos un modelo matemático (ecuación de la línea) para
expresar la relación entre dos variables y para estimar el valor de la variable
dependiente Y basándonos en el valor de la variable independiente X. La técnica
que se utiliza para desarrollar la ecuación de la línea y hacer estas predicciones,
se le llama análisis de regresión.
El principio matemático con base con el cual se traza la ecuación de la línea y se
predicen los valores de Y, se conoce con el nombre de mínimos cuadrados. Este
principio consiste en trazar una línea sobre la gráfica de dispersión de los valores
de modo que la suma de los cuadrados de la distancia vertical entre el valor real
de Y y su valor predictorio, sea la cantidad más pequeña posible.
En la siguiente gráfica, los puntos azules representan los valores reales de Y dado
un valor determinado de X. Los puntos rosas representan las estimaciones para Y
dado un valor de X. Al unir los puntos rosas, se obtiene la línea de regresión.
Esta línea se trazó en base al principio de los mínimos cuadrados, de modo que al
elevar al cuadrado las diferencias entre los valores estimados de Y y sus valores
reales, el resultado resultante es el número menor posible. Es decir, si se traza la
línea de cualquier otro modo, el resultado de sumar las diferencias de los valores
reales de Y y los estimados, será mayor.
En este ejemplo, en el primer punto (X = 3, Y = 8) existe una diferencia de 2
respecto de la línea de regresión, que se obtiene de 10 – 8. el cuadrado de la
8
Universidad Panamericana
Estadística II
Prof. Andrés Sandoval H
desviación es 4. Para el segundo punto (X = 4, Y = 18), el cuadrado de su
desviación es 16. Para el tercer punto (X = 5, Y = 16), el cuadrado de la desviación
es también 4. La suma del cuadrado de las desviaciones es 24, que se obtiene de
4 +16 + 4.
26
Eva lua ción de logros
24
22
20
18
2
4
16
14
12
10
2
8
6
2
3
4
5
6
A ñ o s d e se r v i c i o e n l a c o m p a ñ í a
Explicado lo anterior, pasemos a las fórmulas. LA forma general de la ecuación de
la regresión es:
FORMA GENERAL DE LA ECUACIÓN
DE LA REGRESIÓN LINEAL
Y ’ = a + bX
Donde:
Y ‘ = Se lee Y prima, es el valor predictorio de la variable Y para un valor
seleccionado de X.
a=
Es la intersección con el eje Y. Es el valor estimado de Y cuando X = 0.
b=
Es la pendiente de la línea, o el cambio promedio en Y’ por cada cambio en
una unidad de la variable independiente X.
X=
Es el valor que se escoge para la variable independiente.
A los valores a y b se les conoce como coeficientes de regresión y se calculan con
las siguientes fórmulas:
9
Universidad Panamericana
Estadística II
Prof. Andrés Sandoval H
PENDIENTE DE LA LÍNEA
DE REGRESIÓN
b=
INTERSECCIÓN CON EL EJE Y
a=
n ( Σ XY ) – ( Σ X ) ( Σ Y )
n ( Σ X2 ) – ( Σ X ) 2
ΣY
n
–b
ΣX
n
Donde:
X=
es un valor de la variable independiente
Y=
es un valor de la variable dependiente
n=
es el número de elementos en la muestra
Ejercicio
Retomaremos el problema de las llamadas realizadas por una muestra de 10
vendedores y las copiadoras vendidas por los mismos. A partir de la información
obtenida, al gerente de ventas le gustaría obtener información precisa sobre la
relación entre estas dos variables y, más allá de eso, le gustaría hacer algunas
predicciones sobre el número de copiadoras que se pueden vender si se realiza
un número específico de llamadas.
Utilizando el método de los mínimos cuadrados, calcula, el número de copiadoras
que se espera vender si un empleado realiza 20 llamadas.
Representantes
de ventas
Llamadas
(X)
Copiadoras
vendidas
(Y)
X2
Y2
XY
Representante 1
Representante 2
Representante 3
Representante 4
Representante 5
Representante 6
Representante 7
Representante 8
Representante 9
Representante 10
TOTAL
20
40
20
30
10
10
20
20
20
30
220
30
60
40
60
30
40
40
50
30
70
450
400
1,600
400
900
100
100
400
400
400
900
5,600
900
3,600
1,600
3,600
900
1,600
1,600
2,500
900
4,900
22,100
600
2,400
800
1,800
300
400
800
1,000
600
2,100
10,800
10
Universidad Panamericana
Estadística II
Prof. Andrés Sandoval H
Primero se sustituyen las fórmulas para calcular a y b.
PENDIENTE DE LA LÍNEA
DE REGRESIÓN
b=
10 ( 10,800 ) – ( 220 ) ( 450 )
10 ( 5,600 ) – ( 220 ) 2
b = 1.1842
INTERSECCIÓN CON EL EJE Y a =
450
10
– (1.1842)
220
10
a = 18.9476
La ecuación de regresión es entonces:
FORMA GENERAL DE LA ECUACIÓN
DE LA REGRESIÓN LINEAL
Y ’ = (18.9476 + (1.1842) 20
Y’ = 42.6326
Esto quiere decir que un vendedor que realiza 20 llamadas puede esperar ventas
de 43 copiadoras.
El valor 1.1842 para b significa que por cada llamada adicional que realice, el
vendedor puede esperar un aumento de 1.2 en el número de copiadoras vendidas.
Dicho de otro modo, cinco llamadas adicionales realizadas en un mes, darán como
resultado aproximadamente seis copiadoras más vendidas (1.1842 * 5 = 5.921)
El valor de 18.9476 para a representa el punto en que se cruza el eje de las Y
cuando X = 0. Dicho de otra forma, si un vendedor no hace ninguna llamada,
puede esperar vender 19 copiadoras. Sin embargo, observa que X = 0 está fuera
del rango de los valores que tenemos en la muestra, y por lo tanto, no se deberá
usar para estimar el número de copiadoras que se venderán. Las llamadas de
venta van de 10 a 40, por lo tanto, las estimaciones deberán hacerse dentro de
ese rango.
El dibujo de la línea de regresión
Para dibujar la línea de regresión se debe calcular el número estimado de
copiadoras vendidas según las llamadas que haya hecho cada vendedor. Esto
queda representado en la siguiente tabla.
11
Universidad Panamericana
Estadística II
Prof. Andrés Sandoval H
Representantes
de ventas
Llamadas
(X)
Representante 1
Representante 2
Representante 3
Representante 4
Representante 5
Representante 6
Representante 7
Representante 8
Representante 9
Representante 10
TOTAL
0
20
40
20
30
10
10
20
20
20
30
220
Copiadoras
Ventas
vendidas estimadas
(Y)
Y'=a+bX
30
60
40
60
30
40
40
50
30
70
450
18.9476
42.6316
66.3156
42.6316
54.4736
30.7896
30.7896
42.6316
42.6316
42.6316
54.4736
450
Relación entre llamadas realizadas y
copiadoras vendidas
(Ventas reales y estimadas)
80
Copiadoras
70
60
50
40
30
20
10
0
0
10
20
30
40
50
Llamadas
La línea de regresión tiene algunas características particulares. Como ya hemos
dicho, no hay otra línea a través de los datos para la que la suma de los
cuadrados de las desviaciones sea menor. Además esta línea para por los puntos
que representan la media de los valores X y la media de los valores Y. En este
ejemplo, la media de los valores X es 22.0 y la media de los valores Y es 45.0. El
punto en que la línea cruza estos valores está marcado con amarillo.
12