Download La recta de regresión

Document related concepts
no text concepts found
Transcript
Realizado por:
Cristina Pozas y Elena Velaure
Se habla de estadística bidimensional
cuando dos variables X e Y están relacionadas
estadísticamente cuando conocida la primera se
puede estimar aproximadamente el valor de la
segunda.
Si representamos cada par de valores como
las coordenadas de un punto, el conjunto de
todos ellos se llama nube de puntos o diagrama
de dispersión.
La correlación estadística determina
la relación o dependencia que existe entre
las dos variables que intervienen en una
distribución bidimensional.
En caso de que suceda, diremos que
las variables están correlacionadas o que
hay correlación entre ellas.
1º Correlación directa
2º Correlación inversa
3º Correlación nula
La correlación directa se
da cuando al aumentar
una de las variables la
otra aumenta.
La correlación inversa se
da cuando al aumentar
una de las variables la
otra disminuye.
La correlación nula se da
cuando no hay
dependencia de ningún
tipo entre las variables.
La recta correspondiente
a la nube de puntos de la
distribución es una recta
creciente.
La recta correspondiente
a la nube de puntos de la
distribución es una recta
decreciente.
En este caso se dice que
las variables son
incorreladas y la nube de
puntos tiene una forma
redondeada.
Una nube de puntos o diagrama de dispersión es
la representación de cada par de valores de una
distribución bidimensional (xi, yi) como las coordenadas
de un punto.
Sobre la nube de puntos puede trazarse una recta
que se ajuste a ellos lo mejor posible, llamada recta de
regresión.
 Tabla bidimensional simple: Está formada por tres filas en las que
se representan:
- En la primera de ellas los valores de la primera variable
- En la segunda fila los de la segunda variable
- En la tercera las correspondientes frecuencias.
Está indicada para casos con pocos datos y pocos valores o
ninguno repetidos. En caso de que las frecuencias sean iguales a uno,
se puede omitir la fila o columna correspondiente a dichas
frecuencias.
 Tabla de doble entrada: Está formada por tantas filas como valores
tengamos de la variable Y, así como tantas columnas como valores tengamos
de la variable X, y una fila y una columna más para indicar los totales.
-Está indicada para casos con bastantes datos, en los que para cada
valor de una variable, existen varios valores de la otra.
-En el caso de que alguna de las variables sea continua, aparecerán los
distintos intervalos en la correspondiente fila o columna y otra fila o columna
más con las marcas de clase de cada intervalo.
Distribuciones marginales: son distribuciones
unidimensionales, que pueden analizarse mediante parámetros
estadísticos, que nos informan del número de observaciones para
cada una de las variables, prescindiendo de la información sobre las
demás variables.
-En el caso bidimensional hay dos (una para la x y otra para la y).
-A partir de la tabla de correlación pueden construirse las
distribuciones marginales, asignando a cada valor de la variable
considerada su frecuencia.
Distribuciones condicionadas : es el estudio de una de las
variables para un determinado valor de la otra variable.
- Esta relación puede ser de X/Y=yj, o bien, Y/X = xi, según
condicionemos a un valor de una u otra variable.
- Al tratarse de una variable unidimensional podremos estudiar
todos sus parámetros estadísticos
- Esto supone considerar únicamente una columna de la tabla
de correlación (distribución de x condicionada a un valor de y) o
una fila de la tabla (distribución de y condicionada a un valor de x).
Asociados a las distribuciones marginales y condicionadas podemos
definir algunos estadísticos de tendencia central o dispersión.
 Las medias marginales de la variable X e Y se definen:
 Las varianzas marginales respectivas son:
La covarianza de una variable bidimensional es la media aritmética de los
productos de las desviaciones de cada una de las variables respecto a sus
medias respectivas.
-Se representa por sxy o σxy.
La covarianza indica el sentido de la correlación entre las variables
-Si σxy > 0 la correlación es directa.
-Si σxy < 0 la correlación es inversa.
El coeficiente de correlación lineal es el cociente entre la covarianza y el
producto de las desviaciones típicas de ambas variables y se expresa mediante
la letra r.
 Propiedades del coeficiente de correlación
1. No varía al hacer la escala de medición.
2. Su signo es el mismo que el de la covarianza.
3. Es un número real comprendido entre −1 y 1. −1 ≤ r ≤ 1
-Si toma valores cercanos a −1 la correlación es fuerte e inversa,
-Si toma valores cercanos a 1 la correlación es fuerte y directa.
-Si toma valores cercanos a 0, la correlación es débil.
4. Si r vale 1 o −1, los puntos de la nube están sobre la recta creciente o
decreciente. Entre ambas variables habrá dependencia funcional.
La recta de regresión es aquella que se traza sobre la concentración de puntos en el
diagrama de dispersión. Pueden ser:
-La recta de regresión de Y sobre X se utiliza para estimar los valores de la Y a partir de
los de la X.
La pendiente de la recta es el cociente entre la covarianza y la varianza de la variable X.
-La recta de regresión de X sobre Y se utiliza para estimar los valores de la X a partir de
los de la Y.
La pendiente de la recta es el cociente entre la covarianza y la varianza de la variable Y.