Download YUDY ELENA GUEVARA Cód. 2008277410

Document related concepts
no text concepts found
Transcript
YUDY ELENA GUEVARA Cód. 2008277410
MAILENA POLANIA Cód. 2008276541
LA REGRESION LOGISTICA
La regresión logística es un instrumento estadístico de análisis multivariado, de uso
tanto explicativo como predictivo. Resulta útil su empleo cuando se tiene una variable
dependiente dicotómica (un atributo cuya ausencia o presencia hemos puntuado con
los valores cero y uno, respectivamente) y un conjunto de variables predictoras o
independientes, que pueden ser cuantitativas (que se denominan covariables o
covariadas) o categóricas. En este último caso, se requiere que sean transformadas en
variables “dummy”, es decir variables simuladas1.

Objetivo de la regresión logística:
El objetivo primordial que resuelve esta técnica es el de modelar cómo influye en la
probabilidad de aparición de un suceso, habitualmente dicotómico, la presencia o no de
diversos factores y el valor o nivel de los mismos. También puede ser usada para
estimar la probabilidad de aparición de cada una de las posibilidades de un suceso con
más de dos categorías (politómico).

El propósito del análisis consiste en:
Predecir la probabilidad de que a alguien le ocurra cierto “evento”: por ejemplo, estar
desempleado =1 o no estarlo = 0, ser pobre = 1 o no pobre = 0, recibirse de sociólogo
=1 o no recibirse = 0).
Determinar que variables pesan más para aumentar o disminuir la probabilidad de que
a alguien le suceda el evento en cuestión Esta asignación de probabilidad de
ocurrencia del evento a un cierto sujeto, así como la determinación del peso que cada
una de las variables dependientes en esta probabilidad, se basan en las características
que presentan los sujetos a los que, efectivamente, les ocurren o no estos sucesos.
Por ejemplo, la regresión logística tomará en cuenta los valores que asumen en una
serie de variables (edad, sexo, nivel educativo, posición en el hogar, origen migratorio,
etc.) los sujetos que están efectivamente desocupados (=1) y los que no lo están (=0).
En base a ello, predecirá a cada uno de los sujetos – independientemente de su estado
real y actual – una determinada probabilidad de ser desocupado (es decir, de tener
valor 1 en la variable dependiente). Digamos, si alguien es un jóven no jefe de hogar,
con baja educación y de sexo masculino y origen migrante (aunque esté ocupado) el
modelo le predecirá una alta probabilidad de estar desocupado (puesto que la tasa de
desempleo de el grupo así definido es alta), generando una variable con esas
probabilidades estimadas. Y procederá a clasificarlo como desocupado en una nueva
variable, que será el resultado de la predicción y además, analizará cuál es el peso de
cada uno de estas variables independientes en el aumento o la disminución de esa
probabilidad. Por ejemplo, cuando aumenta la educación disminuirá en algo la
probabilidad de ser desocupados. En cambio, cuando el sexo pase de 0 = mujer a 1 =
varón, aumentará en algo la probabilidad de desempleo porque la tasa de desempleo
de los jóvenes de sexo masculino es mayor que la de las jóvenes mujeres. El modelo,
obviamente, estima los coeficientes de tales cambios.
EJEMPLO 1.
Sea p(x) la probabilidad de éxito cuando el valor de la variable predictora es x.
Entonces sea
Después de algún álgebra se prueba que
donde
son los odds en favor de éxito.
Si tomamos un valor de ejemplo, digamos p(50) = 2/3, entonces
Cuando x = 50, un éxito es dos veces tan probable como una falla. Es decir, se puede
decir simplemente que los odds son 2$ a 1.
EJEMPLO 2.
VARIABLES A UTILIZAR:
Velocidad de entrega del producto, nivel de precio, flexibilidad del precio, imagen,
servicio, imagen de fuerza de venta, cualidad del producto, nivel de fidelidad y nivel de
satisfacción.
MATRIZ DE CORRELACIONES
Conclusiones



La única variable que me presenta un alto grado de asociación con la variable
recodificada es el nivel de fidelidad, ya que a partir de esta fue que se creó la
variable dummy y por ende presenta esta alta asociación, por dicha razón es
que esta es la única variable que se debe excluir del modelo por que ninguna de
las demás me presenta altos grados de colinealidad.
se observa que la variable recodificada que es la que estamos analizando
presenta asociaciones moderadas con las variables velocidad de entrega, ya
que esta me determina que entre más rápido sea la transición del producto más
satisfechos quedan los clientes,
la variable flexibilidad del Precio está relacionada con la fidelidad en la
disposición de negociación de los precios del proveedor frente al comprador y
con la satisfacción, a mayor sea esta respecto a las compras mayor es la
fidelidad del cliente, es decir que las demás variables me presentan
asociaciones muy bajas respecto a la variable recodificada, no me la explica de
ninguna manera el modelo.